網際網路上灰色信息是指在網際網路上存在的,非常規發行、並且允許用戶免費或在一定範圍內收集、整理和利用的信息資源。其涵蓋面非常廣泛,包括網站的商業廣告、會議文獻、個人網頁等⋯ ,同傳統意義上的灰色信息一樣,網際網路上的灰色信息也是國內外圖書情報界公認的重要情報源。 網路灰色信息是以網路為載體形式的灰色信息,它在當前浩如煙海的網路信息中占很大比重。
基本介紹
- 中文名:網路灰色信息
- 對應:白色信息
- 定義:收集、整理和利用的信息資源
- 特徵:範圍的模模糊
分類,特徵,範圍的模模糊,發布的高自由度,數量的無限增長趨勢,出版的時效性,收集的便利性,價值,運用,最佳化網路灰色信息環境,提高個人檢索網路灰色信息的能力,挖掘,網際網路上灰色文獻的信息源,網際網路上灰色信息資源的挖掘與利用方式,利用模式,資源發現,信息選擇和預處理,概括化,分析,參考文獻,
分類
一是發布的白色信息,即公開信息;二是流通範圍狹窄、內容保密的黑色信息,即商業秘密;三是灰色信息,它處於從網路公開信息向商業秘密過渡的灰色地帶。在現有法律規定中,對灰色信息的獲取是合法的,屬於正當競爭,不需負任何法律責任,而對商業秘密的竊取是非法的,屬於不正當競爭,應負法律責任。我國《反不正當競爭法》中就明確指出,竊取商業機密屬於違法行為,應受到法律的制裁。出現的諸多商業糾紛和網路侵權案件,控辨雙方爭論的根本在於被告究竟是獲取的法理依據和界定被告方違法與否的終極尺度。
不可否認,網路灰色信息和商業秘密具有一定的共性。首先,兩者都非公開發表,都具有一定隱蔽性;其次,對兩者的蒐集都存在強烈的競爭性和對抗性,成功獲取兩者都很有可能在行業競爭中做到“知己知彼”,從而占領寶貴的信息高地,在競爭中獲得較大優勢,甚至成為搶占市場、擊敗勁敵的關鍵一筆。
特徵
範圍的模模糊
灰色文獻是一種過渡性質的文獻。一般來說,網上公開發行的電子期刊、電子書籍,不管是免費使用還是有償使用,均屬於白色文獻。在網上發布的各類沒有公開發行著作權的電子信息資料,歸於網上灰色文獻信息。由於網上灰色文獻信息範圍越來越廣,且與其他文獻信息的分界線越來越模糊,因此,網上灰色信息資源範圍更難確定。
發布的高自由度
從文獻信息控制的角度看,灰色文獻信息是處於受控邊緣的文獻形式。信息社會到來會加劇信息的無序狀態,灰色文獻的自由性和失控性,使其在網際網路上的發布具有更高的自由度,即使採用有效措施,也不可能回到傳統信息文獻的受控狀態。
數量的無限增長趨勢
網際網路上的信息資源數量極大,作為網上信息資源組成部分的灰色文獻信息,涉及人類生活的各個方面,深入到經濟、政治、文化、科技、軍事等各個領域,網上灰色信息正朝著無限量的方向發展。
出版的時效性
各類網站發布的灰色信息具有極強的針對性和實用性。對這些信息的更新,少則一兩天,多則一個星期或一個月,與傳統的紙質文獻相比,時效性更強。
收集的便利性
傳統的紙質灰色文獻多為內部出版發行,印刷數量有限,報導範圍狹窄,加之受保密制度和專業的限制,給灰色文獻收集帶來了很大困難,而網上灰色文獻以光碟、硬碟等介質進行存儲,利用網際網路可以快速傳送,只要供方願意,使用方即可隨意複製使用,不受時空限制。網路環境中的信息傳播只是非網路環境中信息傳播功能的一種延伸和發展。它所要實現的基本目的和功能在本質上和非網路環境中的信息傳播是一致的,只是實現的環境、手段和數量不同。
和非網路環境中的信息傳播一樣,網路環境中也存在通過使用共同的軟體進行會話、交談、會議、信件往來等純粹私人的或集團性的傳播方式,也存在著由社會集團所控制的和各類社會組織所提供的比較制度化的傳播方式。網路灰色信息資源區別於非網路灰色文獻的一個重要特點,就是網路灰色信息資源存取和利用的多樣性。
價值
基於對上述的分析,有必要引入網路灰色信息是接收者在競爭中的獲勝法寶,其有用性恰是價值所在。所謂可用性,亦可稱網路灰色信息的價值性,是指網路灰色信息在多大程度上能滿足接收方的需求,以及接收方利用該信息在實踐中所獲取多大的利益。這是度量是否有價值、有必要蒐集相關網路灰色信息的判斷依據,可藉助經濟學中產出和投入的概念來分析網路灰色信息的價值性。
所謂產出,也就是指收益,即帶來的有形收益和無形收益的總和。而投入是指搜尋、獲得、整理相關網路灰色信息需投入的人力、物力、財力的總和。通過一些經驗數據估算出獲取網路灰色信息所需要的投入,以及據此可獲得的利益,然後計算出二者的差值。如果價值性為負值或接近零值時,就沒有必要進行相關灰色信息的工作。在工作中,通過價值性的合理判斷,可以判斷出哪些主題的灰色信息需要蒐集、哪些不需要,從而集中力量,解決那些最需要解決的問題,蒐集最能帶來效益的相關灰色信息,達到效益是大化。
運用
網路灰色信息對接收方而言,具有巨大的價值,但它的搜尋和開發尚存在很大的障礙。主要原因有兩個:其一,網路灰色信息不同於網路上的顯性信息,它數量龐大、內容紛繁蕪雜、地址分散、數據類型多、隨意性大且沒有確定的信息源;其二,由於網路灰色信息研究處於起步階段,還沒有構建出完整的理論體系。在缺乏理論和實踐指導的情況下,可從網路端和客戶端兩方面著手,進行最佳化工作。
最佳化網路灰色信息環境
當今社會,網路發展、網路信息膨脹的速度已經大大超出了信息整理和信息有序化的速度,尤其是網路灰色信息基本處於無序化狀態,這是現階段處理網路灰色信息的最大瓶頸。只有規範相當比例的網路灰色信息,同時對其進行標準化或準標準化處理,才能從本質上解決灰色信息的搜尋難題。這個目標需要政府、相關機構、網路管理者的共同努力才能實現。綜合國內學者的研究,可從以下幾個方面著手:
(1)重視網路灰色信息的理論研究加大理論研究力度,使灰色信息的檢索有理可依。國際上已先後三次召開了有關灰色信息的會議,對灰色文獻和灰色信息的研究已經大範圍展開。但國內這方面的研究尚處於起步階段,需要投入更多的精力來構建理論框架,跟上國際步伐。
(2)成立專門的機構這類機構應隸屬於數字圖書館系統或網路信息中心,專門負責網上“灰色信息”的定位、價值分析、簡化、整序、重組、規範等一系列工作,歸納出一套搜尋各類灰色信息的標準化程式,並在網路上實踐證明,使灰色信息的檢索有章可循。
(3)相關人才的培養21世紀是以人為本的世紀,人才是解決一切問題的關鍵。網上“灰色信息”的搜尋和處理的專業人員應具備較高的綜合能力和素質。實現從傳統的圖書館組織者到網路電子資源的組織者這一身份的轉換。
(4)檢索方法的改進由於人類迄今尚未找到語義信息表示方法和測度單位,只能依靠字面含義來組織信息,因此檢索效率低、準確性差。這對處在起步階段的灰色信息檢索來說,無疑是一個巨大的障礙,為提高網路灰色信息的檢全率和檢準率,檢索方法急需改進。值得欣慰的是,隨著模糊查詢、語義查詢等技術的不斷發展,這一情況會有所改觀。
(5)信息的標準化這主要是信息管理過程中的工作。網路灰色信息星羅棋布於網際網路的各個角落,離散度高、系統化差,加上格式、語言等的千差萬別,其利用的難度遠遠超過傳統正式出版物中線性分布的信息,為此,對這部分信息的管理應儘量做到:詞條的準確化;資料庫(無論書目、文摘或全文資料庫)格式的標準化;編目條例、著錄標準的規範化等。
(6)灰色信息知識的普及對於灰色信息這一概念,相當一部分情報專業的人士都沒有正確或全面的認識,而對廣大非專業人士來說,更是玄而又玄。政府、相關部門、圖書情治單位都有義務在全社會,至少是高學歷人群中普及灰色信息的相關知識,如出版相關書籍,邀請專家在圖情部門或各高校內開展以講座、報告會等為主要形式的知識傳播,普及網路灰色知識。
提高個人檢索網路灰色信息的能力
作為網路灰色信息檢索的直接操作者,個人檢索能力的提升無疑是提高全社會檢索效率的必要保證,可以通過以下三種途徑來完成。
(1)訪問相關信息資源的網站網際網路上有許多學科的大型綜合型網站,集中了許多學術價值高的灰色文獻信息資源,如中國經濟信息網站、北大法律網站等。一些學位論文資料庫,如CNKI的《中國優秀博碩士學位論文資料庫》,以及具有權威性的學術會議論文資料庫,如《中國學術會議通報》等,都值得操作者去點擊、利用。
(2)利用網路智慧型搜尋引擎 以Google為代表的第二代搜尋引擎檢索內涵豐富,且基於人工智慧技術,是網路灰色信息的好幫手。這類模糊分類的搜尋引擎對灰色信息進行蒐集,可以搜尋到更全面、更豐富、更準確的灰色信息。同時,由於大家對其較為熟悉,操作也得心應手。
(3)利用自身的人際關係網人際關係網是蒐集包括網路灰色信息在內的一切灰色信息的有效途徑。藉助人際網路的發散性,通過P2P3傳輸、電子郵件等方法可大大提高灰色信息的蒐集率和可信度,也可促進了網路灰色信息與其他灰色信息的融合。
挖掘
網際網路上灰色文獻的信息源
(2)動態報導。這類信息的時效性最強,更新速度最快。不同網站對其標識也不盡相同。主要包括網上發布的新聞報導、新聞追蹤分析等,比如新浪網對國內外新聞、體育、娛樂、政治等各方面重大時事報導信息非常豐富和全面,而企業網站中的動態報導集中在公告和關於企業最新動態的欄目中。
(3)網站廣告。網站廣告在網路世界中占有極其重要的位置,它不受空間範圍的限制,可以產生世界性廣告效應,並且具有廣告效益的可準確計量特徵。對於商家來說,網站廣告有著報刊電視廣告無法比擬的優越性,廣告收入也是各商業網站得以生存發展的經濟支柱之一。商家的青睞和網站的生存發展需要使網上廣告所占幅面不斷增大,使廣告信息遍布於網際網路上。
(4)用戶信息。網站與用戶的相互交流,依靠網站提供的公共界面來實現。用戶要訪問網站的資源,根據訪問內容的不同會受到不同的制約。比如,新用戶要申請免費電子信箱或進入聊天室,一般會被要求進行註冊,老用戶則被要求輸入註冊號或密碼。通過這種方式,網站可以掌握用戶的個人主頁、註冊、電子郵件和聊天等大量信息,這些信息也為用戶之間的相互交流提供了保障。
(5)索引資料庫。很多網站在網上發布諸如專題導航之類的索引型信息,用戶可以依據索引找到相關資源。索引信息資料庫是網上灰色文獻信息資源最重要的二級信息源,它通過對信息的再次加工整理,提供最快的檢索通道,增強了原始信息源的利用效率。
網際網路上灰色信息資源的挖掘與利用方式
信息挖掘和信息收集是不同概念。信息收集是指通過各種方式獲取所需要的信息;而信息挖掘指從各種各樣的信息源中,抽取先前未知的、完整的信息,來做關鍵的業務決策。信息挖掘主要利用了數據挖掘技術,從大型資料庫的數據中提取人們感興趣的知識,這些知識是隱含的、事先未知的、潛在的有用信息。信息挖掘是基於信息收集基礎之上的。
(1)廣泛利用各種類型的搜尋引擎,挖掘網上的灰色信息。搜尋引擎是針對網上信息爆炸,為解決用戶的查詢而設計的,主要有兩類,即分類目錄式和主題檢索式。用戶利用哪種搜尋工具,這取決於所要查詢的具體問題。利用搜尋引擎收集灰色信息,要注意避免由於搜尋引擎本身的技術問題帶來的不利影響,比如“關鍵字”問題,很多搜尋引擎都禁止一些本身缺乏實際意義或使用過於廣泛的所謂的“關鍵字”。網路信息挖掘技術在搜尋引擎上的套用很多,比如Google搜尋的最大特色就體現在它所採用的對網頁Links信息挖掘技術上。網路信息挖掘是目前網路信息檢索發展的一個關鍵,如通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網路信息的分類瀏覽與檢索;通過對用戶所使用的提問式(query)的歷史記錄分析,可以有效地進行提問擴展(query expansion),提高查全率和查準率;可以運用網路內容挖掘技術改進關鍵字加權算法,提高網路信息的標引準確度,從而改善檢索效果。灰色信息在網上過於分散,缺乏特色主題,只有科學地使用各種不同類型的搜尋引擎工具,才能有效地開展挖掘工作。
(2)建立灰色文獻虛擬資料庫。網上灰色文獻信息只有經過系統並且有序地處理,才可能得到高效率的利用,而運用虛擬資料庫技術,建立虛擬的灰色文獻資料庫是極為實用的方法。虛擬資料庫是將各類型數據轉變為以關係資料庫為統一界面的系統。在網路數據源中,數據的組織形式、檢索詞和存取機制各不相同,它不支持統一的查詢操作,要求利用虛擬資料庫技術,為用戶提供友好通用的人機界面。現在分類技術與虛擬資料庫相互結合,就是所謂虛擬數據分類技術,它以優良的檢索詞組配方式,為信息類型、著作、書名等確立搭配使用的視窗。分類檢索和主題檢索可以相互轉換,並增加自然語言查詢方式,從而增強對資源的選擇功能與查詢功能。利用這一技術構建灰色文獻虛擬資料庫,可以方便地與相關站點連結,使各個檢索系統的協調更加便利。雖然大多數資料庫生產者還沒有收集灰色文獻信息的手段,但某些資料庫生產者(如工程情報公司)已經在致力於灰色文獻的收集工作。一些資料庫的用戶有時也就可能是灰色文獻的生產者。例如,AGRIS(國際農業科學技術情報系統)與幾個國家的全國中心合作,參與資料庫的建設,自己就成為灰色文獻的生產者。
(3)使用專門的信息收集系統。專門的信息收集系統是指使用專門的信息收集軟體系統來獲取網上潛藏的灰色信息資源。近年來,我國的軟體企業也推出了簡單易用的信息系統軟體產品,如天下互聯中國網路情報中心開發的企業情報門戶系統軟體(CIPS),已經成為企業情報人員的好幫手。中國網路情報中心的CIPS系統,是要為企業建立個性化信息需求的“企業的情報門戶”。它是區別於大眾入口網站和行業入口網站的智慧型網際網路入口網站,是企業的入口網站。CIPS系統的最大特色,是作為企業情報門戶的功能,它不是簡單的競爭情報系統(CIS),更不僅是企業內部知識管理(KM),主要研究的是企業的門戶(Porta1),CIPS系統是對CIS、KM、Portal的有效整合。
(4)開發數據信息挖掘技術。運用網路數據挖掘技術能夠從伺服器以及瀏覽器端日誌記錄中發現隱藏在數據中的模式信息,了解系統的訪問模式以及用戶的行為模式,從而作出預測性分析。例如通過評價用戶對某一信息資源瀏覽所花的時間,可以判斷出用戶對資源興趣如何;對日誌檔案所收集到的域名數據,根據國家或類型(.com,.edu,.gov等)進行分類分析;套用聚類分析來識別用戶的訪問動機和訪問趨勢等,這項技術已經有效地運用在電子商務中。通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網站信息,例如採用自動歸類技術實現網站信息的層次性(hierarchy)組織;同時可以結合對用戶訪問日誌記錄信息的挖掘,把握用戶的興趣,從而有助於開展網站信息推送服務以及個人信息的定製服務。目前,PDA(Personal DigitalAssistant,個人數字助理)和蜂窩行動電話都已經可以直接接受網路信息服務。這些設備的顯示界面較小,因而網站面向這些設備的設計就應該突出精品化、個性化的特點,這類特色推送服務就必須採用網路信息挖掘技術。網路灰色信息的套用正在變得越來越廣泛,用戶對高品質、個性化的信息需求也將進一步推動學術界與實業界的研究開發工作。
(5)注重日常收集整理,建設相關館藏。在日常工作中,應重視收集網上更新速度快的灰色文獻信息資源,如動態報導,其中包含了很多具有重大信息價值的內容。信息工作人員日積月累,將這些信息收入現實館藏。
利用模式
通過以上的論述,我們設計出一個網際網路上灰色信息資源挖掘利用的模式,這個模式可以分為4個步驟。
資源發現
即檢索所需的網路文檔。首先要確定所遇到的問題,然後主要利用搜尋引擎之類的搜尋工具進行查找、檢索。
信息選擇和預處理
即從檢索到的網路資源中自動挑選和預先處理得到專門的信息,主要利用數據挖掘工具來進行信息的深度挖掘。
概括化
即從單個的Web站點以及多個站點之間發現普遍的模式。
分析
對挖掘出的信息進行確認、解釋,進行結果評價,可以用可視化的工具呈現數據,目的是便於整理挖掘到的信息。
經過以上幾個步驟,我們就可以將散落於網際網路上灰色信息作出系統整理,得到自己所需、有利於決策的有用信息。在某個信息挖掘的過程中,有時需要重複以上的某些步驟。
參考文獻
費愉慶.論灰色文獻與網路信息資源.蘇州大學學報(工科版),2003(4)
莫澤瑞.網上灰色文獻及其收集利用.大學圖書館學報,2001(6)
趙武.灰色信息的情報價值及其開發利用.徐州建築職業技術學院學報,2002(2)
唐納德·A.馬燦德,托馬斯·H.達文波特,提姆·迪克森編;呂傳俊,周光尚,魏穎譯.信息管理=Informationmanagement:信息管理領域最全面的MBA指南.北京:中國社會科學出版社.2002
孟齊霞.有效利用網路灰色信息.現代情報,2004(6)
王梅.企業競爭情報活動的合法性分析.農業圖書情報學刊,2004(4)
李正中.競爭情的得為的正當性與灰色信息收集方式的研究.情報學報,2000(1)