永恆語言學習關鍵算法研究

項目摘要

自從美國國家工程院院士Tom M. Mitchell教授在AAAI 2010和AAAI 2015上提出永恆語言學習和永恆學習之後，該領域受到了國際學術界的廣泛關注。本項目將針對這一新興領域的若干關鍵問題開展研究：1.利用複雜網路分析方法對海量網頁中蘊含的深層知識進行提取，構建元知識抽取模型，為永恆語言學習提供新知識。2.為解決網頁大數據帶來的維度災難問題，提出增量半監督聚類和中心特徵選擇算法；針對謂詞發現能力較弱問題，構建基於特徵選擇、構詞法特徵和路徑排序算法的協同謂詞挖掘算法。3.分析多知識結構、多種學習策略的融合問題，構建基於深度神經網路的特徵抽取和分類模型。4.分析影響永恆語言學習準確率的因素，提出糾錯學習算法，使之具備自省能力。研究成果有望解決永恆語言學習的“語義漂移”問題，減少學習過程中的人工干預，為機器學習、知識工程和信息檢索等領域提供新方法，為中文永恆語言學習研究奠定基礎。

結題摘要

自從美國國家工程院院士Tom M. Mitchell 教授提出永恆語言學習和永恆學習之後，該領域受到了國際學術界的廣泛關注。永恆語言學習研究擬解決的關鍵問題包括：（1）多源知識抽取模型構建；（2）基於增量半監督聚類的特徵篩選和謂詞發現算法；（3）基於深度神經網路模型的特徵抽取和事實分類；（4）不同策略的有效融合及影響永恆語言學習準確率的理論分析。為解決上述問題，我們擬定的研究目標是豐富與發展基於永恆語言學習的理論與算法，使新理論和新算法能夠快速的從海量數據中挖掘出更有意義和更有價值的知識，豐富其自身的知識庫，提高推理判斷能力。針對Tom M. Mitchell教授指出的永恆語言學習存在的不足之處（新知識的發現、更準確統計模型構建以及缺乏自省能力等），本項目開展的主要研究工作如下：① 構建了一種領域知識圖譜，設計了知識圖譜補全算法，從知識圖譜中抽取元知識增加了知識抽取視角。② 提出了特徵空間學習與無監督特徵選擇算法，基於表示學習和主題模型進行關係抽取、新謂詞發現以及研究熱點和研究趨勢分析。③ 提出了多標籤堆疊去噪自編碼器、雙向語義Attention-LSTM以及深度卷積神經網路推薦等深度學習知識發現算法，大幅度提高了知識發現算法的準確率、效率以及自動化程度。④ 在知識圖譜和新提出算法的基礎上，搭建了知識發現平台和推薦系統，為計算機科學、生物學、醫學以及語言學等不同領域的科學家和研究者提供Web服務。以上工作達到了項目申請書中的目標要求。相關成果發表在Journal of Medical Internet Research（醫學信息學領域排名第一）, Knowledge-Based System (中科院二區期刊)，Neural Computing and Applications（中科院二區期刊）等知名國際期刊會議上。項目組累計發表學術論文32篇，SCI索引論文31篇，EI索引論文2篇，CCF B類會議IEEE BIBM 長文1篇，獲ESI高被引論文1篇。獲得國家發明專利授權3項，軟體著作權3項。獲2018年吉林省科技進步二等獎1項。培養了4名博士研究生和9名碩士研究生並獲學位，其中王旭和林希珣同學獲吉林大學優秀碩士論文並被學校推薦參加2019年吉林省優秀碩士論文評選。

永恆語言學習關鍵算法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條