基於人機共建智慧平台的語義搜尋引擎

項目摘要

根據科學大師錢學森晚年提出的思維科學、開放複雜巨系統、人機共建的智慧型系統和綜合集成的大成智慧等思想和理論，對基於人機共建智慧平台的語義搜尋引擎的機理和關鍵技術進行系統研究，探索從海量信息到海量知識的轉換，建立任何事物的知識庫和個性化的知識庫，最終實現人機自然對話。研究內容包括：通用網頁結構化信息抽取、複雜問題搜尋、基於知識庫的自然語言理解、人物的知識自動抽取和個人知識庫的建立等。旨在研究各種產生知識的方法，擴大知識庫的數量和質量，豐富知識庫內容，增加知識庫的精確性和準確匹配與搜尋知識庫內容。本項目的研究，可以綜合人的智慧和信息檢索技術，自動把網際網路信息和人的行為等轉化為知識，可以像人那樣理解網頁內容和用戶搜尋的意義，從而提供給用戶準確而直接的搜尋結果和答案。這對開啟從信息技術向知識技術的巨大轉變，從以數據為中心向以人為中心轉變，開闢智慧型搜尋引擎新領域具有重要意義和廣闊的套用前景。

結題摘要

許多網際網路套用，如語義搜尋、自動問答系統等都需要知識庫作為支撐。依靠專家人工編撰知識庫費時費力，而且還存在知識覆蓋率低，更新緩慢等諸多問題。如何自動構建大規模知識庫是當今的研究熱點問題。Web海量數據的產生與信息抽取技術的發展為大規模知識庫自動構建提供了新的契機。針對Web海量數據下載效率過低與網頁篩選問題，給出了基於Hadoop的網頁並行下載算法與基於Pagerank的網頁排序算法。針對Web網頁風格多樣化問題，給出了具有較高準確率、通用性較強的網頁正文信息抽取方法。中文分詞的準確率影響信息抽取的準確率，課題建立了海量分詞詞庫，其中包括基本分詞詞庫，專業術語詞庫、同義詞詞庫；給出了基於大數據和綜合集成方法的分詞算法、詞性標註算法和人名、地名、機構名命名實體識別算法，開發了中文分詞、詞性標註與命名實體識別雲服務系統，該系統具有準確率高（99.8%）、切分速度快（20萬字/秒）、碼制多支持等特點。針對現今句法分析方法效率低、準確度不高的問題，藉助雲計算計算能力強的優勢，探討了在雲計算平台上實現並行中文句法分析的方法。利用公開的語料庫及開源的句法分析工具在Hadoop雲計算實驗平台上實現並行中文句法分析，實驗結果證實了並行句法分析方法的可行性和有效性。針對人物、大學、醫院等幾千個領域，給出了基於Web的概念、實例、屬性、及屬性值提取算法，並建立了知識存儲和索引系統；建立了查詢問題分類、問題映射、問題擴展算法；實現了基於知識庫的語義搜尋原型系統。為大規模知識庫自動構建以及語義搜尋引擎提供了學術思想和技術路線。

基於人機共建智慧平台的語義搜尋引擎

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條