《基於機器學習的多義性數據概念標註研究》是依託山東大學,由許信順擔任項目負責人的面上項目。
基本介紹
- 中文名:基於機器學習的多義性數據概念標註研究
- 項目類別:面上項目
- 項目負責人:許信順
- 依託單位:山東大學
中文摘要,結題摘要,
中文摘要
目前,人們得到的數據急劇增長,比如圖像、視頻和生物信息數據等。為了對這些數據進行有效地管理、挖掘和檢索等操作,通常需要先對這些數據在語義(概念)層上進行標註,然後使用與其關聯的關鍵字來進一步操作。而這些數據往往具有多義性的特點,即每個樣本同時與多個概念關聯。本項目以設計有效的基於機器學習的自動概念標註模型為目標,在充分考慮數據的多義性特點和結構化特徵以及在非理想條件下,對標註任務中存在的關鍵問題和技術進行研究。項目的主要研究內容為:1.研究比較該類數據的結構化表示以及相似性度量方法;2.在數據結構化表示的基礎上設計能夠同時對數據結構化信息和數據多義性信息建模的概念標註方法;3.研究在有噪聲和類別不平衡條件下,針對該數據構建具有較好泛化能力的概念標註模型;4.研究在小規模訓練樣本條件下充分利用未標註或者標註不充分數據來提高模型的泛化能力。最後,在以上研究的基礎上,搭建有效測試平台和原型系統。
結題摘要
多義性數據的概念標註對數據的組織、管理和檢索等都具有重要的作用。在此背景下,項目對基於機器學習的多義性數據概念標註問題開展了研究工作,完成了原定研究計畫,取得的主要成果包括:(1)提出了基於多示例多標記的數據表示度量和語義標註方法;(2)提出了圖像語義標註的多核集成學習方法;(3)提出了面向視頻語義標註的半監督學習方法;(4)針對多模態多視角數據的語義標註和檢索問題提出基於機器學習的方法;(5)針對生物數據的概念標註和分類聚類問題提出了半監督學習方法;(6)對於社交媒體的概念分析以及推薦問題提出了相關的分析和推薦模型;(7)基於語義標註與數據檢索的相關性,提出了基於哈希學習的數據分析和檢索方法;(8)實現了實驗原型平台。項目組成員共發表論文19篇,其中國際期刊5篇,國際會議14篇,在CCF A類會議或者期刊發表3篇,CCF B類會議或者期刊發表9篇,CCF C類會議或者期刊發表4篇。獲得國家發明專利2項,申請國家發明專利1項。另外,培養了多名研究生。