《自動推斷海量定製數據格式研究》是依託上海交通大學,由朱其立擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:自動推斷海量定製數據格式研究
- 項目類別:青年科學基金項目
- 項目負責人:朱其立
- 依託單位:上海交通大學
項目摘要,結題摘要,
項目摘要
定製數據(ad hoc data)是一切非標準、半結構化的數據如系統日誌、監控數據、科學資料庫等。由於它們一般沒有介紹文本,格式經常變換且帶有錯漏,對定製數據有效的分析和處理是包括系統工程師、科研人員和金融分析師等廣大定製數據用戶的難題。本項目中我們將在已有工作的基礎上設計並實現一套從海量定製數據自動學習推斷出它的格式描述的算法和系統。準確的數據描述可以進一步自動生成一系列常用處理工具和程式設計庫的系統。本項目的主要技術挑戰是設計高效的上下文相關文法的解析器對帶錯的定製數據進行解析,同時遞增式地推斷出精練而準確的數據描述。為實現這一目標,我們將在對帶錯上下文相關解析法的建模和複雜度,數據描述最最佳化等相關問題作理論研究。本項目的成果將大大提高定製數據用戶的工作效率,降低數據處理成本。
結題摘要
本項目在對文本半結構化數據做增量格式分析的研究基礎上,探求了對非結構化文本的信息抽取以及知識發現方面的工作。主要工作包括以下幾個方面:(1)遞增式定製數據格式抽取;(2)自動抽取IsA關係並構建 Probase知識庫;(3)利用Probase知識庫自動理解網頁表格、top-k列表、文本中比喻、計算詞語間相似度等自然語言處理問題;(4)命名實體連結;(5)基於概念的網頁搜尋及圖像搜尋算法;(6)數據隱私保護算法。一共發表高水平國際會議與期刊論文14篇,申請中國國家專利7項,獲得Google Faculty Research Award一項,著名資料庫會議DASFAA 2014最佳論文獎一項。在該項目的支持下,培養本科生15名,碩士畢業生6名,博士在讀生2名。多名學生繼續出國深造或被跨國公司錄用。總的來說,項目成果豐碩。