定義,系統概述,系統功能,系統組成,配套子系統,自動採集子系統,內容分析子系統,界面呈現子系統,系統套用方向,
定義
系統概述
隨著中國經濟發展不斷向前推進,大公司大集團面對的市場環境越發複雜,各種影響市場走向的新問題、新情況層出不窮,市場信息量呈指數增長。同時,定量分析方法正在迅速套用到行業研究當中,這對信息蒐集的效率和精度提出了很高的要求。僅靠有限的人力進行信息蒐集的工作模式,已很難適應市場和技術發展的要求。為了更全面、準確、迅速地掌握市場變化,為了適應新技術發展要求,也為了把人員從繁重的信息蒐集工作中解放出來,集中精力進行深層次的分析和研究,迫切需要一套現代化的信息中心繫統。
樂思網路信息中心繫統的功能是為大公司大集團的市場部門與公關部門提供一個收集外部信息的平台,包括與本公司相關的信息,與競爭對手相關的信息,行業信息,價格信息,與合作夥伴相關的信息,用戶網上反饋的各種信息,科研技術信息等,可以做到多人在一個平台上可以快速瀏覽當日或過去的所有相關信息,避免的人工查詢多個網站的費時費力的情況,並具有預警功能,可以在某方面的信息一旦出現時迅速通知相關人員。
其業務流程如下圖所示:
系統功能
一、該系統可以加快外部情報感知:公司報導,用戶反饋,競品動態,行業動態,巨觀動態,政策法規等公司外部信息實時匯聚到桌面上,方便公司上下對於市場競爭情報的感知與反應。
二、該系統加快定量定性分析:在占有大量數據的基礎上,分析人員可以從繁重的信息蒐集工作解脫出來,投入到最有價值的定量定性分析中去。
系統組成
樂思網路信息中心繫統由三個子系統組成:自動採集子系統(採集層)、內容分析子系統(分析層)、以及界面呈現子系統(呈現層)。其關係如下圖所示:
配套子系統
自動採集子系統
自動採集子系統可以對任意目標網站進行自動採集。
採集的信息既可以是文本型信息(如文章,微博),也可以是數字型信息(如價格,統計數據),還可以是檔案型信息(如Word, Excel, PDF檔案)。用戶可以通過Web界面自行配置對文本型信息的採集,也可以通過軟體嚮導界面配製對於數字型信息的採集。由於採用了全球領先的樂思網路信息採集系統,可以對任意網站上數據進行採集與整合。數據源的發現管理工作由用戶完成。
自動採集子系統的全方位監測功能如下圖所示:
自動採集子系統具有以下幾個顯著特點:
1. 全球領先的自動採集功能
樂思軟體的網路信息採集技術全球領先,支持對任意網頁內任意數據的精確採集。樂思軟體每天都為國內外用戶針對各種各樣的網站提供採集服務,沒有高效穩定的採集平台是無法做到的。
2. 支持各種監測對象
可以實時監測新聞,論壇,部落格,公共聊天室,搜尋引擎,留言板,應用程式,報刊網站電子版等。
3. 無需配置直接監測幾千個新聞網站
系統內置對全球範圍區域網路站的監測配置,只需輸入關鍵字,自動採集出文章標題與正文。
4. 強大的多語言統一處理功能26禁止9盜用0
可自動處理並保存中文,英文,法文,德文,日語,韓語,維文,阿拉伯語等多種語言。
5. 智慧型文章提取
對於文章類型網頁,可以無需配置,直接自動提取文章正文與標題,以及作者發布日期等,自動去除廣告,欄目,著作權等無關的垃圾內容
6. 完美支持各種網頁情況
支持當前流行的Web 2.0 AJAX動態網站
支持用戶名與密碼自動登錄
支持表單查詢
支持下一頁自動瀏覽功能
支持多頁面文章內容自動抽取與合併
可以自動下載正文內圖片以及各類附屬檔案
可以選擇保存原文快照以備查
支持多種網際網路協定: HTTP、HTTPS、以及FTP
支持多種網路檔案格式:HTML/XML/CSV/TEXT/RSS/ATOM
…
該系統所提供的各種特性組合起來可以處理成千上萬種網頁或數據的不同情況
7. 自動去重功能
每次採集時,對於同一個URL,僅採集最新的沒有採集過的文章內容或回復,對於已經採集過的內容,自動忽略。對於轉載文章,可以選擇自動去重。
8. 內置各種後期數據處理功能
數據從網頁上獲取後,可進一步精加工為各種更細粒度的欄位數據或者合併整合,替換統計等. 例如關鍵字抽取,街道地址抽取,省市名稱抽取,郵編抽取,電話號碼抽取,傳真號碼抽取,電子郵件地址抽取,QQ/MSN/Skype抽取,URL抽取等。
9. 可無人值守全天候自動採集
可定時運行,也可7×24小時運行,可設定採集時間間隔最短為1分鐘。
10. 用戶可以自行添加目標網站
利用系統提供的採集平台,用戶可以很容易地對目標網站進行可視化分析,填入配置參數,加入調度過程,從而可以任意修改,增加,移除目標網站。
內容分析子系統
內容分析子系統抽取出內容的元信息,基於用戶的關鍵字設定,對內容進行實時地自動分類自動聚類。樂思軟體公司研發的超高速關鍵字提取技術,在3萬字的文章中查找1萬個關鍵字的出現次數, 不超過6.9毫秒。
界面呈現子系統
採集後的信息,對於文本型信息通過列表形式查看,對於數字型信息通過用戶自定義的格式查看。
界面呈現子系統讓各個數據來源的最新信息分門別類實時呈現在用戶的桌面瀏覽器中。其功能架構如下:
界面呈現子系統具有以下顯著特點:
1. 多人協同工作
不同用戶瀏覽不同內容,執行不同操作,完成不同職責
2. 文章要素顯示, 疑似負面信息自動提示
對於新聞文章與部落格文章,可採集標題,正文,作者,發布時間,來源
對於關鍵字用高亮背景彩色顯示
3. 帖子要素顯示, 疑似負面信息自動提示
對於論壇帖子,可採集標題,正文,作者,發貼時間,查看次數,回復貼數
對於關鍵字用高亮背景彩色顯示
4. 分類與編輯
對於採集後的信息內容,可以進行過濾,分類,備註,與編輯,便於後期管理與分析
5. 強大的搜尋功能
既可以精確搜尋也可以模糊搜尋,既可以按分類搜尋,也可按來源搜尋
6. 支持人工採集
對於某些緊急或異常情況,可以人工輸入採集到的信息
7. 反網站限制功能
可採集被國內禁止的國外網站,可採集限制了來源IP與訪問頻率的網站,可自動獲取代理IP,無需設定
8. 簡訊通知功能
可以設定關鍵字,凡是採集內容出現了一個或多個關鍵字,就可以將該條記錄傳送給相關簡訊接收人員,便於無人值守實時監測。
9. 報表
各類別趨勢圖表
用戶自定義報表
10. 發布
對於有價值的信息,可以打勾或分類後由系統自動發布到指定的區域網路平台或外網平台。
也可將數據導出為各種格式(CSV, XML, Excel, Access),進行轉移。
系統套用方向
系統主要套用於大公司大集團的市場部門與公關部門。
系統配套服務:
1.交鑰匙工程
提供樂思網路信息中心繫統的整套軟體與文檔,
提供用戶指定的N個網站的採集配置。
保證系統上線後即可實時整合到目標網站內容。
2.培訓
提供遠程培訓或上門培訓服務
3.後續服務
定期提供目標網站更新後的配置參數檔案
定期回訪,提供技術諮詢,疑難解答
提供遠程運維服務,減少對客戶相關支持人員的技術水平要求
4.技術支持
通過電話、Email、QQ/MSN/Skype 回答用戶的問題進行技術支持