北京智海創訊信息技術有限公司

北京智海創訊信息技術有限公司

北京智海創訊信息技術有限公司成立於2012年2月,是一家專注于海量結構化及非結構化信息處理技術,提供相關軟體研發、銷售和技術服務的高科技服務型企業。在信息搜尋、文本挖掘、機器學習、模式識別、軟體研發及市場調研等領域,有著豐富經驗的精英骨幹構成了公司的創業團隊。秉承“提供智慧數據,創造行業價值”的經營理念,以“數據採集自動化,數據套用智慧型化”為目標,憑藉雄厚的研發實力和專業團隊,貼近行業特點和企業實際需求,為政府、企業的信息收集和處理提供支持。

基本介紹

  • 公司名稱:北京智海創訊信息技術有限公司
  • 成立時間:2012年2月
  • 經營範圍:文本挖掘、機器學習、模式識別
  • 公司性質:高科技服務型企業
  • 價值觀:提供智慧數據,創造行業價值
  • 目標:數據採集自動化,數據套用智慧型化
搜尋系統,監控系統,挖掘組件,

搜尋系統

企業信息化推進提升企業效率,改進管理流程的同時,也不斷積累起海量的各種類型的數位化數據。據統計,企業數據以每年約200%的速度增長。如何充分利用這些龐雜的數據,發揮其應有的價值,逐漸成為企業信息化深入發展所面臨的亟待解決的問題。
企業數據的特點
從數據的類型上看,企業數據中有80%是檔案、郵件和圖片等非結構化的形式,僅有20%的數據是以資料庫等結構化數據類型存儲。從數據的分布來看,98%的數據存儲在企業內部的資料庫伺服器、檔案伺服器、已經各種辦公終端上。企業僅會將2%的數據公布在網際網路上。海量的數據、分散的存儲、繁雜的格式、混雜的信息,使數據的使用的變得困難。
企業數據分布企業數據分布
企業面臨的主要問題
企業數據的這些特點使其不像傳統資料庫數據那樣便於訪問和檢索,特別是對非結構化數據的處理,是傳統檢索技術無法逾越的障礙。實際工作中,企業主要被以下三個問題所困擾:
# 不知道需要的數據已經存在
# 數據知道有卻找不到
# 各種信息混在一起不易提取使用
這會使寶貴的數據無法發揮其應有的價值,無謂的投入人力財力完成重複的工作,數據的使用效率低下。這正是『智海』企業搜尋所要解決的問題。
企業搜尋企業搜尋
二、『智海』讓數據信手拈來
『智海』企業搜尋系統以多年在信息檢索領域的技術積累和當前文本挖掘技術的最新研究成果為基礎,以靈活可擴展的用戶管理和完備精細的訪問控制為安全保證,覆蓋關係資料庫、檔案管理系統、企業信息管理系統、本地檔案系統、郵件系統、網際網路數據等多種數據源,由簡單的搜尋框提供統一的檢索、訪問,以及數據整合等服務。面對紛繁複雜的各樣數據,使有價值的數據仿佛就在指尖。
『智海』企業搜尋的系統框架
『智海』企業搜尋主要包括了數據索引、統一檢索、訪問控制、內容管理、文本挖掘、套用開發等六個主要部分。
三、『智海』的核心技術優勢
『智海』企業搜尋的主要由搜尋引擎、訪問控制、文本挖掘、數據處理四種核心技術作為支撐,以保證用戶能夠快速、安全,智慧型的獲取數據。
北京智海創訊信息技術有限公司
搜尋引擎
搜尋引擎能對海量文本數據建立索引,提供基於結構化查詢語句的數據檢索查詢系統,基於語義的文本分析和理解提供準確合理的信息檢索結果。此外,系統還能滿足在分散式硬體系統上擴展部署,以提高系統的回響性能。
# 索引性能10M/Sec
# 3G的索引文本每次查詢僅需50ms
# 關鍵字、短語、布爾運算、以及自然語言等多種查詢方式
# 提供多種排序模型,返回結果準確完備
# 高可擴展性,支持基於數據量的橫向擴展和基於訪問量的擴展技術
# 自動系統狀態監控與負載均衡,保證穩定性
核心技術核心技術
訪問控制
訪問控制實現了各類文檔、資料、數據等信息的訪問安全,採用分級安全體系來保障不同安全級別的信息必須經過授權才能夠訪問;通過對檢索結果進行文檔級安全和集合級安全的分類來實現授權體系的靈活與強大功能。
# 嚴格的基於生物特徵的身份認證與登錄方式
# 便於與第三方系統許可權集成
# 基於角色的多級用戶許可權管理
# 多粒度的數據許可權系統
文本挖掘
文本挖掘包括了智慧型分詞、關鍵字提取、文本分類、文本聚類、文檔摘要、相關性分析、傾向性分析、語義解析等八大功能構件,實現了較為完備文本挖掘底層算法,性能穩定高效。
# 為檢索系統提供智慧型擴展查詢
# 根據需求解析非結構化數據,抽取有價值信息
# 支持GB18030和UTF8兩種編碼和中英文兩種語言
# 分類速度達到1M/Sec,分類準確率一般能達到85%
# 配備大規模語料庫,和多種分類模型
數據處理
數據處理支持所有主流資料庫和檔案系統的數據採集,內置檔案解析器,可對PDF、OFFICE 、 HTML、 TXT 、音頻、視頻、圖像等多種檔案格式自動解析。同時依託文本挖掘組件根據需要抽取要檢索的數據內容。
# 多數據源,多格式數據獲取與解析
# 結構化/非結構化數據處理
# 智慧型數據抽取與理解
# 數據處理的流程和管理
四、『智海』企業搜尋的套用架構
『智海』企業級搜尋是企業內容檢索的套用,能夠通過對企業內容的有效整合,搭建一套安全的、統一的、可靠的檢索入口訪問企業內容。系統對需要處理海量文本、多媒體數據的企業、組織和部門套用價值巨大,能提高企業內容利用效率,提升企業產能和效益,以企業內容管理為基礎,以套用開發為平台,全面幫助企業實現價值最大化。此外,系統集成了多種數據獲取、處理、分析、管理技術,其中的各種組件可內嵌或拓展來滿足多種套用場合的需求。
北京智海創訊信息技術有限公司

監控系統

獲得軟體著作權
北京智海創訊信息技術有限公司
一、概述
在網路時代,論壇、部落格、微博、社交網路、即時通訊等各種技術發展和套用,加快了信息的傳播速度,擴大了信息的傳播範圍,從根本上改變人們交流的方式。每個人都有麥克風,瞬間就可以形成輿論風暴。『三人成虎』,『眾口鑠金』。輿論的力量從來都不應被忽視。
輿情來源輿情來源
◆網路輿論的力量不可小視
網際網路已經成為政府行政部門和黨政工作者了解社情民意的一種重要渠道。網路輿情正在成為政府行政部門或者企業決策的重要依據。此起彼伏的輿論熱點大都始於網際網路,並由網際網路不斷催化形成輿論風暴,進而影響到政府決策、企業興衰。通過這些熱點事件,網路輿論已經開始顯現其巨大的影響力。『早監控,早發現,早處置,早導控』是應對網路輿情的必由之路。
北京智海創訊信息技術有限公司
◆人力無法應對網路輿情
網際網路賦予網路輿情很多有別於傳統輿情的特性,面對的是海量的、多元化的、傳播更加迅捷的網路信息。以人力來篩選、收集、處理、整合這些信息,不僅花費昂貴,而且很難做到全面、及時,容易遺漏重要的信息,錯過輿情處理的最佳時機。以人力為之是一項不可能完成的任務。
二、系統架構
智海創訊通過深入研究政府機構、企事業單位等對網際網路輿情管理的需求,結合多年在文本挖掘和智慧型檢索領域的技術積累,研發了『雲騰』輿情監控系統。該系統針對網路輿情信息的多樣性,以及輿情監控任務的工作流程,以網路爬蟲技術和『智海』文本挖掘組件為基礎,提供了輿情信息採集、輿情熱點發現與跟蹤、輿情傾向性分析、自動生成輿情報告、輿情報警、用戶許可權管理、系統設定管理和監控實用工具等功能。為及時防範處理負面輿情泛濫和擴散、積極引導事態發展的趨勢、協助用戶將危機消除在萌芽狀態,提供高價值的參考決策及危機處理服務。
三、系統的運行環境
系統支持作業系統有:Windows Sever 2008/2003/2000/NT,Windows XP/7,以及Linux 2.4 以上版本。可根據用戶需要編譯支持Unix、Solaris 系統的版本。
四、的功能與性能
◆輿情採集
對監控信息自動監測、採集、內容提取及排重。通過自動代理方式支持對境外信息的監測。支持結構化,非結構化信息監控,做到信息源監控完全覆蓋。
 支持文本編碼的自動識別轉換和中英文兩種語言
 文本處理速度達到10萬頁/小時以上
◆輿情熱點發現與跟蹤
採用文本增量聚類技術和科學的輿情熱點熱度評估模型,實現了輿情數據的熱點發現和跟蹤,提供輿情熱點發展的詳細脈絡,為輿情導控提供科學依據。
 輿情熱點的回溯檢索
 科學的輿情熱點評估模型
 增量式輿情信息聚類算法,準確率達到85%以上
◆輿情統計報表
提供的輿情報表包括當前信息量,熱點數,網頁量,並且能自動繪製輿情熱點變化趨勢圖。報表內容可完全自定義,支持對於表頭顯示,報表展示內容及報表生成周期,報表傳送周期的設定。
 自定義時段輿情報表
 自定義輿情簡報
 到出Word,Excel格式報表
◆輿情預警
系統對關鍵字和監控源設定了詳細科學的預警級別和權重設定系統,能有效反應輿情的發展形勢和用戶的輿情關注特點,實現對敏感信息自動預警,有效減少誤警和漏警,為科學決策提供參考。
 預警方式靈活多樣 支持簡訊預警,郵件預警,聲音預警,標題預警等多種方式。
 詳細科學的預警設定 支持設定關鍵字、監控源的三種預警級別級別,內置監控源類型的預警加權設定。
◆用戶許可權管理
採用基於角色的用戶許可權管理,實現資源、任務、許可權的組合設定,通過預設角色定義,實現簡明、方便的用戶管理,更加符合大用戶的實際需要。
 自定義預設角色 支持自定義設定角色的功能、數據的訪問許可權。
 角色實現許可權配置 管理員用戶為實際用戶分配角色,實現許可權的自動分配。
◆實用輔助工具
為了方便用戶使用,依據輿情監控工作實際,系統提供了一些實用的輔助工具,能有效提高用戶的工作效率。
 IP反查 依據IP位址查詢所在的地理位置。
 關鍵字聯想添加 由用戶提供的關鍵字聯想批量添加相關關鍵字。
 監控源聯想添加 由用戶提供的關鍵字聯想批量添加相關監控源。
五、雲騰的優勢
◆海量信息的處理能力
『雲騰』輿情監控系統中的輿情收集模組支持大數據量的輿情關鍵字,能實現對千數量級的監控源的實時監控。智慧型文本分析採用先進的文本特徵向量提取技術,在保證文本分析準確率的前提下,大幅度提高了系統的數據吞吐能力,為應對海量輿情信息的實時處理提供了堅實的技術保證。
◆信息處理的高度智慧型化
『雲騰』輿情監控系統結合文本挖掘處理技術,實現了自動文本基於內容的特徵提取,自動分類、自動聚類、以及傾向性分析。通過關鍵字技術和機器學習技術能適套用戶的各種信息分類需求。此外,構建了預定的監控信息資源庫,依據關鍵字相關性和監控源相關性,實現了關鍵字和監控源的自動聯想添加功能,能有效減輕用戶的工作強度。
◆跟進技術發展的最新成果
『雲騰』輿情監控系統所依賴的文本挖掘組件會不斷地融入該領域最新的研究成果,吸收用戶實際套用的反饋,更新文本分析的基礎算法和方法,不斷提升該組件的適應性和準確性。公司將為用戶提供核心組件的終身免費升級服務,與用戶共享技術進步的最新成果
◆量身定製的售後服務
『雲騰』系統的部署與使用要經歷調研、規劃、初始化、試運行、評價調整五個步驟,我們將與用戶竭誠配合,幫助建立完備的輿情監控制度和系統,在疊代中不斷最佳化。特別是根據用戶的行業特點和需求變化,設定輿情信息的分析模型,改善用戶的使用體驗,構建真正適套用戶實際需要的監控系統。

挖掘組件

一、概述
文本挖掘是指從海量非結構化自然語言文本數據中,抽取相關的、潛在的、新穎的、有價值的信息的計算機信息處理技術,是由機器學習、數理統計、自然語言處理等多種技術交叉形成的。文本挖掘一般包含輸入文本結構化、文本模式分類、輸出評價和解譯等過程。從某種意義上講,文本挖掘是數據挖掘技術的一個分支。文本挖掘技術是應對網際網路和企業中非結構化數據激增的利器。
數據分類數據分類
非結構化數據是可獲取數據的主流
網際網路中的信息以非結構化數據為主,而且冗餘龐雜,各種有害和垃圾信息混雜其中。人們越來越依賴於利用搜尋引擎從網際網路獲取有用信息,這種強烈的需求在推動搜尋引擎技術發展的同時,也進一步凸顯出海量數據與用戶獲取能力間的尖銳矛盾。據統計,隨著信息化的推進,企業數據以每年約200%的速度增長,其中80%是檔案、郵件和圖片等非結構化的形式,如何有效地利用這些數據,轉化為對企業決策有用的信息,已經成為衡量企業競爭力的重要方面。
文本挖掘技術有廣泛的套用領域
典型的文本挖掘任務包括文本的分類、聚類、詞條提取、情感分析、文檔摘要,以及詞條關聯建模等,期望通過這些手段從自然語言構成的文本中提取精煉的有用的信息。這些技術的典型套用是海量文本的檢索,為行業領域套用提供準確的語義層的文本索引。此外,在安全領域的純文本分析、商業數據分析、網路媒體文本分析,以及生物醫學和分子生物學領域都有廣泛的套用。廣闊的套用前景和巨大的商業價值,使該項技術已經成為當前自然語言處理研究的熱點和信息技術行業中最為活躍的增長點。
數據挖掘組件數據挖掘組件
二、智海文本挖掘組件的構成
智海創訊結合多年在文本分析和智慧型檢索領域的技術積累和當前文本挖掘技術的最新研究成果,研發了實用化的『智海』文本挖掘組件。該組件包括了智慧型分詞、關鍵字提取、信息提取、文本分類、文本聚類、文檔摘要、相關性分析、傾向性分析、語義解析、海量文本檢索等十大功能構件。這些構件實現了較為完備文本挖掘底層算法,構成不同套用的文本分析核心組件。

  
三、組件的運行環境
提供C API和SOAP API兩種調用方式,方便其嵌入其他套用軟體和服務中。
組件支持的作業系統有:Windows Sever 2008/2003/2000/NT,Windows XP/7,以及Linux 2.4以上版本。
四、組件的功能和性能
智慧型分詞
採用基於規則和統計相結合的分詞技術,將中文的漢字序列切分為符合語境語有意義的詞,可用於文獻檢索、搜尋引擎等諸多領域,能提高檢索的準確度。
 內嵌分詞歧義規則庫
 準確識別人名、地名、組織機構名
 支持GB18030和UTF8兩種編碼和中英文兩種語言
 分詞速度達到500KB/S
關鍵字提取
基於自然語言處理技術,對文本向量空間進行去噪、降維、特徵提取等處理,從文章和短語中提取關鍵字。
 大規模知識庫支撐
 基於統計模型和規則結合
 基於統計的多種文本相似度計算方法
 提取結果描述性強
文本分類
在給定的分類體系下,基於統計學習的文本分類技術,根據文本的內容自動確定文本關聯的分類項目。
 多種預處理組件
 多種特徵選擇算法,文檔頻率、信息增益、互信息法等
 分類算法支撐KNN、樸素貝葉斯、SVM、Boosting等多種方法
 分類速度達到1M/S
 分類準確率一般能達到90%
文本聚類
作為一種無監督的學習方法,文本聚類通過統計方法和一定的領域知識規則對於大量文本進行簇劃分,獲得文本的語義類別信息。
 多種相似度距離算法選擇
 根據不同套用設定不同參數,產生不同的聚類模型
 能有效鑑別和處理文本數據集中的奇異值
 多種聚類方法選擇,K-Means、BIRCH、DBScan等
文本摘要
根據統計方法和不同類型文本摘要的模型自動地進行提取文摘,文摘是全面準確地反映某一文獻中心內容地簡單連貫的短文。
 對不同文檔類型能自適應的選擇不同的摘要模型
 能對自動摘要抽取結果進行語義修飾,明顯增強摘要的可解釋性
 對新聞、論文等類型文本的摘要提取性能優異
相關性分析
文檔相關性分析是基於文檔相似度模型,對於多篇文檔進行自動分析,給出它們之間的相似度,從而可以判斷文檔是否相似或者強關聯。
 可擴展的領域規則和詞庫
 組件可擴展性強,提供標準穩定的API
 對於1M左右的兩篇文本計算時間小於3S
 套用場合包括重複檢測、事件關聯、文本聚類等
傾向性分析
通過計算機技術和自然語言模型對於文本所包含的情感傾向、觀點及其強度進行自動分析和挖掘。
 大規模情感詞庫,包括情感詞和相關傾向度
 情感描述模型庫
 支持詞、句子和文檔的傾向性分析
智海信息檢索
支持高性能海量信息檢索,提供多種檢索接口和模式,召回率和準確率可以根據套用的不同進行調整,是非結構化數據信息管理的必備工具。
 支持全量、增量、實時和分布等多種信息索引方式
 提供關鍵字、短語、布爾運算等多種查詢方法
 內含相關的基於自然語言處理的文本分析工具
 提供輸入提示、糾錯、相關搜尋等多種工具
五、組件的套用價值
智海文本挖掘組件可以廣泛地適用於:信息資源開發利用,智慧型搜尋引擎、情報分析和服務、信息安全監、網際網路信息增值服務等諸多套用領域。當前在我國現有條件下,其套用價值集中在:
為信息內容安全監管提供智慧型技術
隨著部落格、微博、電子郵件、論壇社區、社交網路、即時通信等網際網路技術和套用的普及,網際網路信息內容日益龐雜。這些通信方式在增進人與人溝通的同時,由此誘發的社會問題也日益增多。世界各國政府和相關機構越來越重視對網路信息內容安全的監管,智海文本挖掘組件可以作為海量信息內容分析的智慧型化工具,能有效提高監管的效率,降低監管成本。
推動行業信息資源管理和利用的智慧型化和高效化
我國政府和企業的信息化建設已逐步從基礎的業務信息管理階段,進入到更高層次的信息資源整合、決策信息管理階段。政府需要整合各種平台的信息資源,消除信息孤島,建立綜合信息利用平台;企業需要整合行業信息和企業內部信息提高經營效益,為企業戰略決策服務。智海文本挖掘組件可以作為整合結構和非結構信息的基礎構件,提供智慧型檢索和挖掘分析的手段,放大信息資源的增值效用。
為網際網路信息增值服務提供不可或缺技術支撐
在當前海量網路信息傳播的形勢下,一些行業性、獨占性、高增值的信息資源日益得到信息用戶的青睞。能否有效高質的信息處理能力和及時、個性、智慧型的信息服務手段已成為擁有上述信息資源的內容提供商所必需面對的挑戰。智海文本挖掘組件能夠支持智慧型化自動化的信息增值加工,是想智慧型檢索和知識關聯,幫助內容提供商降低信息增值加工成本,拓展智慧型服務,提高最終信息用戶的使用體驗。
智海創訊能為企業信息的管理、利用,以及情報收集等方面提供有力支撐。

相關詞條

熱門詞條

聯絡我們