中科點擊(北京)科技有限公司

中科點擊(北京)科技有限公司,中科院旗下公司,由留美歸來的林博士聯合中科院多位搜尋引擎領域的專家、社科院社會學專家、群體性事件專家、以及新華社、人民網、經濟日報的資深新聞媒體人士,共同組建而成。林博士早期曾供職於Google和AOL,是Google和Aol搜尋引擎的核心算法工程師。公司專注於網際網路信息採集與數據挖掘、搜尋引擎核心技術、自然語言智慧型處理等領域的科學研究、軟體開發與網路套用。

基本介紹

  • 公司名稱:中科點擊(北京)科技有限公司
  • 總部地點:北京
  • 經營範圍:網際網路信息採集與數據挖掘、搜尋引擎核心技術
  • 公司性質:有限公司
公司介紹,產品介紹,

公司介紹

中科點擊公司開發的軟體產品統稱為“軍犬軟體”(英文名:ADSoft),軍犬軟體為我公司的註冊商標。
基於公司在網路信息採集與數據挖掘、搜尋引擎、自然語言處理、知識管理系統等方面的核心技術,開發了一系列成熟穩定、性能優秀、實用易用的系統,包括:
1、軍犬網路輿情監控系統
全網監控 不留死角 智慧型發現 輔助決策
2、軍犬網際網路採集系統
穩準狠快 深度採集 全球資源 成就偉業
3、軍犬智慧型搜尋引擎系統
提供包括站內搜尋、數據加全文檢索、檔案全文檢索、垂直搜尋引擎、行業搜尋引擎等產品、服務、解決方案
4、軍犬內容管理系統
可輕鬆快捷搭建大型企業網站、政府網站、行業入口網站等;助力電子政務套用。.net平台下最優秀的CMS系統。
5、自然語言處理模組
包括中文分詞、自動分類、自動摘要、關鍵字提取等模組
軍犬軟體的系列產品均為業內領先產品,目前已經被廣泛套用到網路輿情監控、垂直搜尋引擎、入口網站、電子政務、電子商務、企業競爭情報系統、知識管理與知識共享等項目中。成就了一批知名網站和優秀的信息化項目。
16家上市公司的選擇
27家垂直搜尋的核心
200家政府、企業門戶
200家企業競爭情報和風險預警系統
600家網路輿情監控系統
1200家網際網路信息採集和套用系統

產品介紹

軍犬網路信息採集系統
(一)、“信息採集系統”系統概述:
信息採集是指利用計算機軟體技術,針對定製的目標數據源,實時進行信息採集、抽取、挖掘、處理,從而為各種信息服務系統提供數據輸入的整個過程。
軍犬信息採集專家是一款基於人工智慧的自動學習技術,功能強大、簡單實用的網際網路信息採集與監控軟體。
(二)、網際網路信息採集與挖掘:
要求從網際網路上對特定目標數據源或不特定目標數據源進行採集與監控,並對信息進行結構化抽取保存為本地結構化資料庫,然後按業務流程需求與其它模組結合,導入與套用並服務於到電子行業平台。
網際網路數據採集與挖掘技術是指利用計算機軟體技術,針對定製的目標數據源,實時進行信息採集、抽取、挖掘、處理,從而為各種信息服務系統提供數據輸入,並按業務所需,進行數據發布、分析的整個過程。
(三)、網際網路採集系統流程圖
第一步:確定採集任務。
第二步:每個採集任務,我們有多個目標數據源可供採集。
第三步:針對不同的目標數據源,進行不同的採集配置,以確保能採集到數據。第四步:調度採集任務,與目標站點同步更新,增量採集。
中科點擊(北京)科技有限公司
第五步:採集到數據結果,完成數據異構到同構的過程。
第六步:通過發布伺服器,將數據發布到套用平台。
(四)、軍犬“信息採集系統”8大套用領域
1、搜尋引擎與垂直搜尋 2、綜合門戶與行業門戶
3、電子政務與電子商務 4、知識管理與知識共享
5、企業競爭情報系統 6、BI商業智慧型系統
7、信息諮詢與信息增值 8、信息安全和信息監控
(五)、軍犬“信息採集系統”-軟體特點
(1)、過濾乾淨,智慧型化抽取正文,且圖文關聯
(2)、數據導出接口豐富,可以將數據導出成各種主流關係型數據結構。
(3)、軍犬“信息採集系統”配置簡單
中科點擊(北京)科技有限公司
對於新聞資訊採集,只需輸入待採集目標網站的地址或某個主題頁面地址,軟體即會自動學習網站的風格,並自動提取網站的資訊,無需配置模板,目標網站風格發生變化,軟體自動學習。對於數據採集軟體提供了通俗易懂的站點配置嚮導,維護人員稍加培訓即可配置出任何的信息採集。對於複雜的採集過程,通過一張採集卡腳本即可實現信息的自動採集與監控。
(4)、軍犬“信息採集系統”所采即所得,所采即可見
(5)、軍犬“信息採集系統”增量採集與自動更新
增加採集:對於初次採集目標網站,軟體支持完全採集;而對於已採集過的站點支持增量採集。支持自動更新:自動檢測站點是否發生更新,並不會遺漏任何一個重要的信息。
(6)、軍犬“信息採集系統”採集結果自動排重
不是利用簡單的規則判斷,而是利用內容的相似性進行排重判斷,準確性高,不會因為標題或內容的少許變化而產生漏判,即使把標題進行了改頭換面,系統也會正確判定。
(7)、軍犬“信息採集系統”內置強大的信息監控
可以通過一個關鍵字廣域監控網際網路上任何一個站點上的相關信息。也可以通過設定監控頻道監控任何站點所採集到含有關鍵字的信息。對於數值欄位可以設定監控誤差監控數值出現在一定範圍內的信息。信息監控達到欄位級。您可以對任何一個採集目標網站設定監控屬性,監控周期達到了秒級。對於發生變化的信息可以在短時間內採集到本地,強大的站點管理工具可以對所有採集對象進行集中管理和各種操作。
(8)、軍犬“信息採集系統”支持多種編碼
支持多種網站的信息的編碼,GBK、BIG5、UNICODE、UTF8,軟體會自動轉換成GBK碼進行統一的處理。軟體即會自動識別網站的組織結構,自動識別網站的編碼。 表單管理,隨心所欲自定義表單,方便採集不同的內容,如採集軟體用單獨的表單,採集圖片用圖片表單。
(9)、軍犬“信息採集系統”信息導入導出隨心所欲
提供信息導入導出與其它軟體可作無縫連線 ,如CRM OA 軟體提供有強大的信息記錄導入導出功能,您可以對任何一個頻道、一條記錄進行導入與導出。可以導成Excel/Access等,也可以直接導到指定的資料庫。與《信息發布伺服器》結合使用可以將信息發布到任何一個地方。
(10)、軍犬“信息採集系統”支持閱讀模板
任何一種信息類型,軟體都會自動創建一個閱讀模板方便了您快速閱讀;任何信息您可以對任何一種信息表單定製一款漂亮的閱讀模板,也可以對任何一個頻道設定不同的閱讀模板。
(11)、軍犬“信息採集系統”多頁面內容重組
對於目標數據源的一篇文章在目標網站上分頁顯示,系統能自動對其重組.軟體運行穩定、採集速度快、占用系統資源少。
歷經多次改造的軟體採集底層模組運行穩定、採集速度快,點用系統資源少。可多執行緒並發運行,而不占有過多的系統資源。採集速度快到瞬間到位。軟體完全可以實現7*24小時不間斷無人值守的信息採集。更多細節功能有待於您在使用中去體驗。
(12)、軍犬“信息採集系統”其它特點列表:
1、支持多種語言:支持簡體中文、繁體中文、英文、日文、韓文等多國語言
2、支持多種站點類型:包括html與rss
3、支持登錄、驗證後採集
4、軟體支持需要登錄與需要驗證碼的網站信息採集,採集過程完全仿人工。
5、支持附屬檔案採集
包括圖片附屬檔案採集、多媒體附屬檔案採集、音視頻附屬檔案採集、附屬檔案與正文自動映射與關聯
6、完全結構化抽取將網頁的非結構化數據抽取成特定的結構化信息數據。
網頁搜尋是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,垂直搜尋是以結構化數據為最小單位。然後將這些數據存儲到資料庫,進行進一步的加工處理,如:去重、分類等,最後分詞、索引再以搜尋的方式滿足用戶的需求。
整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理後以非結構化的方式和結構化的方式返回給用戶。
7、數據保存到本地,您可以隨時查閱信息。 採集到信息自動保存到本地資料庫,您可以隨時查閱信息。
8、多線層、多任務
9、支持海量數據採集
10、軟體實用、易用、功能強大
11、可移植、可擴展、可定製
(六)、軍犬“信息採集系統”配置要求
要求:WindowsNT4/ Windows 2000 Server 或更新的作業系統。
要求: Microsoft SQL Server 7/ 2000或其它ODBC 接口
要求:intel xeon 2G 以上CPU,2G 以上RAM,硬碟空間200GB以上
(七)、軍犬“信息採集系統”性能
l、支持多執行緒採集。
2、單機在數據採集在G級以上。
3、數據與數據源同步更新小於10秒級。
4、數據同步發布小於10秒級。
軍犬網路輿情監控系統
(一)、產品背景
“風起於青萍之末”。公共危機事件輿論的形成與發展,是一個由議論開始,並沿著若干級差從無序向有序逐漸遞進或者消減的過程。公共危機事件爆發時,猶如以石擊水,常常容易引起民眾的廣泛關注,使得有關信息在短時間內迅速傳遞,單位時間爆發出來的信息量很大。一些非理性議論、小道訊息或負面報導常常在一定程度上激發人們普遍的危機感,甚至影響到民眾對黨和政府的信任,網民對事件的關注與反響令當地政府部門震驚不已,政府部門承受著巨大的輿論壓力。對於企業來講,負面信息的肆意傳播和缺乏必要的風險預警手段,會影響到企業的品牌和發展,甚至會給企業帶來毀滅性的打擊。因此及時監控、匯集、研判網上輿情,是引導危機輿論的重要前提。
目前,網路輿情正在成為政府行政部門或者企業決策的重要依據。因此新形勢下,在每次突發性事件發生後,政府和企業相關職能部門如何以最快速度收集網上相關輿情信息,跟蹤事態發展,及時向有關部門通報,快速應對處理等,是一個亟需解決問題。
如何第一時間了解到“與我相關”的重大事件?
如何能準確的收集到“我最需要”的輿情信息?
如何能不留死角的在全網監控到這些輿情信息?重要的信息“不漏報”!
如何防止網上“神不知、鬼不覺”的事情發生?隨時知道網上在“乾什麼”!
如何防止網上有害信息泛濫傳播和輿情失控,防止他們形成氣候?
如何追溯網上重點內容的傳播途徑?網際網路輿情能“查得清”!
如何預判這些輿情信息的未來走勢?
如何有效引導,以及對網路輿論危機的積極化解?
如何應對網路突發的公共事件?
如何全面掌握社情民意?
如何為上級相關部門推送網路輿情簡報和專報?
中科點擊(北京)科技有限公司基於自主智慧財產權、自主研發的核心技術,通過對政府、企業輿情監控系統實際需求的深入調研,結合中科點擊公司對網際網路輿情管理業務的深刻認識和多年的實踐經驗,適時推出了軍犬網路輿情監控系統,並在眾多的國家政府機構(政策研究室、外宣辦、網宣辦,政府辦和網路管理處)以及大型企業得到了廣泛套用。通過成熟的網路輿情監控工具,結合完善的領導體制和工作機制保障公共危機事件網上輿情得到妥善處理。全面分析網路輿情發展趨勢,提供基於網路輿情監測的決策參考和風險預警。在提供輿情監控系統產品的同時,中科點擊公司在輿情監控領域有著了豐富的業務積累和實施經驗。為政府、行業主管部門和企業提供先進的輿情監控系統和服務是中科點擊人光榮的使命和任務。
(二)、核心技術
網路輿情監控系統是中科點擊公司開發的一個體系結構先進、功能強大的面向政府、企業提供網路輿情監測和決策參考的套用系統,廣泛地用於輿情監控監測,競爭情報以及風險預警等領域。它的主要功能和性能如下:
網路輿情監控系統的核心技術為網際網路信息採集技術、自然語言智慧型處理技術(文本挖掘技術)、全文檢索技術和輿情套用技術。
1.1 網際網路信息採集技術
1.1.1 強大的信息採集功能
強大的信息採集功能是其他所有功能的保障。採集技術不過硬的產品不可能達到有效的輿情監測效果。軍犬的數據採集與數據挖掘居全行業之首,為信息的深度處理提供了強有利的保證。
1.1.2 支持各種網路載體的監控
可監控各大搜尋引擎,新聞門戶,BBS,部落格,留言版····
1.1.3 元數據搜尋功能
元搜尋引擎集成了不同性能和不同風格的搜尋引擎並發展了一些新的查詢功能。查一個元搜尋引擎就相當於查多個獨立搜尋引擎。進行網路信息檢索與收集時,元搜尋可指定搜尋條件,從而既提高信息採集的針對性又擴大了採集範圍的廣度,收到事半功倍的效果。
1.1.4 內置數千個監控網站
無需過多配置便可輕鬆對數千網站實施監控。
1.1.5 可監控各種語言,各種編碼的網站
無需配置自動識別語言和網站編碼。
1.1.6 信息智慧型提取技術
網頁內容智慧型提取技術能有效地提取網頁中的有效信息,區分網頁中的標題、正文等信息項,並對內容具有連續性的多個網頁內容進行自動合併、網路論壇信息自動提取等。
1.1.7 結構化採集技術
對非結構化的網頁數據在採集的時候進行結構化的信息抽取和數據存儲,以滿足多維度的信息挖掘和統計需要。
1.1.8 全天候不間斷監控
可定時監控,也可7*24全天候監控。實際套用中可以做到分鐘級的採集更新。
1.2 自然語言智慧型處理技術
1.2.1 自動分詞技術
採用以詞典為基礎,規則與統計相結合的分詞技術,有效解決了切分歧義。綜合利用了基於機率分析的語言模型方法,使分詞的準確性達到99%,並可根據不同的套用進行適合特定要求的分詞分詞速度快。
1.2.2 自動關鍵字和自動摘要技術
在文本語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現準確的自動關鍵字與自動摘要。同時利用指代消解等技術使得摘要更具可讀性。
1.2.3 自動分類技術
不需要人工干預的自動分類技術,有效提高非結構化信息的加工效率。文本分類是指計算機根據文本內容進行類別劃分的功能。中科點擊自動分類技術包括以下兩中分類方式:
A 基於內容的文本自動分類
B 基於規則的文本分類
1.2.4 自動聚類技術
自動聚類技術是基於相似性算法的自動聚類技術,自動對海量的無類別文檔進行歸類,把內容相近的文檔歸為一類,並自動為其生成主題詞,為確定類目名稱提供方便。可套用於自動生成輿情專題,重大新聞事件追蹤等等
1.2.5 相似性檢索和查重技術
基於文檔“指紋”的文本查重技術,支持海量數據的信息查重。
相似性檢索是指對於給定樣本的文本,在文本集合中查找出與之內容相似的其他文本的技術。在實際套用中,找出輿情信息內容幾乎相同的文章,實現對輿情信息的消重;根據文章主題相似性,形成專題報導,背景分析等等。
1.3 智慧型檢索技術
本系統的全文引擎將傳統的全文檢索技術與最新的WEB搜尋技術相結合,大大提高檢索引擎的性能指標。同時融合了多種相關技術,提供豐富的檢索手段以及同義詞等智慧型檢索方式。
(三)、產品功能
軍犬網路輿情監控系統,是由我公司自主研發的一套業內最成熟的網路輿情監控系統和網路輿情辦公系統。軍犬網路輿情監控系統是一套綜合運用搜尋引擎技術、文本處理技術、知識管理方法、自然語言處理、手機簡訊平台,通過對網際網路海量信息自動獲取、提取、分類、聚類、主題監測、專題聚焦,以滿足用戶對網路輿情監測和熱點事件專題追蹤等需求!
系統基於網路輿情監控和管理的緊迫需求,針對政府部門、尤其是政府宣傳部門量身定做。系統集成了輿情監測、輿情採集、輿情智慧型分析、輿情處理、輿情預警、輿情搜尋、輿情報告輔助生成、輿情簡訊自動提醒等核心功能。幫助客戶全面掌握輿情動態,正確進行輿論引導。為確保我國網際網路大眾媒體的輿論導向的正確性起到一定的輔助作用,實現為政府分憂,對網路輿情進行監控和管理。運用軍犬網路輿情監控系統,宣傳部門可以有效的規範網際網路信息,引導健康有益的輿論導向。該系統對於促進加強網際網路信息監管,組織力量展開信息整理和深入分析,應對網路突發的公共事件,全面掌握社情民意起決定性作用。
軍犬網路輿情監控系統採用B/S與C/S結構相結合的系統架構,利用先進的系統架構,實現基於瀏覽器的廋客戶端或者普通客戶端、伺服器模式。
軍犬網路輿情監控系統目前已經被廣泛套用到各級政府宣傳部門和大型上市公司。成為客戶進行網路輿情監控不可或缺、值得信賴的系統。
1、強大的信息採集功能
強大的信息採集和數據挖掘功能是其他所有功能的保障。採集技術不過硬的產品不可能達到有效的輿情監測效果。軍犬的數據採集與數據挖掘居全行業之首,為信息的深度處理提供了強有利的保證。
2、支持各種網路載體的監控
可監控各大搜尋引擎,新聞門戶,BBS,部落格,留言版···
3、內置數千個監控網站
無需過多配置便可輕鬆對數千網站實施監控···
4、可監控各種語言,各種編碼的網站
需配置自動識別語言和網站編碼···
5、智慧型提取信息正文、標題
無需配置自動分析剔除廣告等無用代碼···
6、全天候不間斷監控
可定時監控,也可7*24全天候監控···
7、自動獲得輿情信息的熱度,並生成報表
以文字和圖表的形式直觀的形式,生成各種網路輿情趨勢圖表。
8、實時獲取與監測諮詢的點擊數,回複數,跟蹤發帖人的信息,發帖人的IP等
根據瀏覽量,回複數,跟蹤發帖人信息發帖人IP等功能能夠讓您了解信息的關注度及其來源
9、可對輿情信息進行管理,搜尋,導出,編輯,標註,分類
可進行信息管理,和編輯,將您覺得重要的信息進行分類和標註,便於對同類事件的分析和處理
10、可對輿情信息進一步篩選與過濾。
篩選出重要性強,急待處理輿情信息,過濾無用,過時,低影響力的信息
11、 監控結果保存歷史快照,文章中的關鍵字可增量(變色)顯示
關鍵字的增量顯示,讓您能第一時間發現監控關鍵字並對其具體內容進行了解分析,歷史快照讓內容重現
12、豐富的數據接口,可將監測數據與與各種系統接合
13、自動獲取代理IP功能,可防止個別網站進行反採集,反監測。
長期大量採集網站信息,會引起網站重視並可能導致封鎖您的IP,自動獲取代理IP位址並及時替換代理IP位址,可切實解決該情況的產生
14、輿情報告
通過在頻道導航、頻道監控中選擇或從搜尋結果選擇,拖動到另一資料夾中則可生成輿情報告。所輸出的輿情報告可選用系統自帶的輿情模板,也可定製輿情模板。輿情報告最終以world文檔或網頁的開式提供給用戶。
15、熱度分析
通過對文章轉載量、點擊數、回複數來分析熱度。相關數據存入資料庫,並自動檢查連結是否存活。
16、轉載與傳播
分析網路輿情傳播路徑,並通過反向解析技術解析出URL所對應的網站名稱。
17、簡訊接口
通過定製熱點發現在規則,及時自動發現輿情熱點。並以簡訊的方式及時通知輿情監控人員,以幫助輿情監控人員隨時隨時把握輿情動態。
18、輿情協同辦公平台
通過分配不同的輿情監控人員的相關許可權,方便各監控人員各司其職,更為高效地把握輿情動態。
軍犬智慧型搜尋引擎系統
企業檢索的需求
1、異構數據的整合
企業級用戶需要搜尋的數據既有網際網路站上的,也有內部網站上的;既有網頁形式的,又有各種資料庫形式的;既有結構化數據,又更多的是各種電子檔案格式的非結構化及半結構化數據,如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的數據,又有多媒體形式的數據;而且,同一機構的數據還可能分布在不同介質的載體上。
然而,不管數據的形式、來源、位置、平台如何不同,企業用戶總是希望內外數據能無縫結合,用一個搜尋工具和統一的界面,發出幾個簡單的檢索請求就能對所有資源進行檢索,並很快就能有滿意的結果。並且,網際網路搜尋內容對於用戶來說都是未知的,而企業級搜尋的對象基本上是已知信息源,其中包括企業資料庫、目錄、檔案系統、套用系統等,在對這些信息進行索引時,用戶需要按照內容而不是通過比較源連結來進行排列。
2、嚴格的安全搜尋
很多業內人士在談到搜尋安全的話題就憂心忡忡,他們普遍認為搜尋環境並沒有為企業級套用做好足夠的準備,未來充滿太多的變數。而在一些實際的套用中,我們看到,即便為數據定義了文檔級和資料庫級的雙重安全保障,搜尋引擎的"魔爪"還能透過授權的索引文檔來"搜尋"它們。
因此,針對企業網中不同的用戶對不同的資源,其使用許可權都可能不一樣,需要企業搜尋引擎能夠對用戶、資源、許可權分級管理和控制,確保系統的安全。
3、高可靠的查全和查準
作為專業用戶,企業用戶需要查找的信息專業性強、概念複雜,而對查詢的查全率和查準率有著非常高的要求。因此,需要利用各種手段來提高搜尋引擎的查準率和查全率。
從查全率來看,網際網路搜尋引擎無從談起查全率,因為網際網路上的信息如此泛濫無邊,任何一個搜尋引擎服務商都無法窮盡網際網路上的每個網頁。而在企業級的某些套用中,是不允許有所遺漏的檢索。必須對企業內部每個需要提供服務的信息進行索引。在檢索機制上必須保障效率的前提下達到全面搜尋的要求。
同樣的道理,在網際網路上因為信息自由的特點,決定了搜尋只能通過“關鍵字匹配”這種核心檢索手段去實現。而在企業內部,信息的組織複雜了許多。企業級搜尋引擎有完善的信息分類體系,元數據,對象數據多層邏輯的組織形式,在查詢上滿足基於對象數據內容和元數據標引體系的精確查詢要求。
4、智慧型化的檢索服務
企業內部的搜尋服務,帶有鮮明的業務特性,不像網際網路搜尋引擎僅提供信息參考。在企業內部的搜尋結果將直接參與到企業的運營、決策中。所以,對於搜尋的結果處理,搜尋過程中採用相關智慧型技術以達到迅速、準確、全面定位目標信息非常重要。
企業搜尋引擎通常都和企業其他的IT套用有機結合
以內容管理技術為框架,搜尋技術為支撐,企業搜尋引擎通常與數據管理、內容管理、記錄管理、競爭情報、團隊協同、過程管理、信息門戶等知識管理的各個環節密切結合,構成管理企業知識資產的完整而又靈活的體系。
5、實時的信息搜尋服務
企業內部的搜尋服務,具備業務特性,需要將搜尋結果參與企業的運營和決策。所以通過搜尋引擎提供的服務,必須能夠動態地反應實際情況,即當內部的信息發生變化時,必須能夠實時反應。
軍犬企業搜尋方案
軍犬企業搜尋解決方案軍犬企業搜尋解決方案

相關詞條

熱門詞條

聯絡我們