信息距離理論及其套用的研究

《信息距離理論及其套用的研究》是依託清華大學,由朱小燕擔任項目負責人的面上項目。

基本介紹

  • 中文名:信息距離理論及其套用的研究
  • 依託單位:清華大學
  • 項目負責人:朱小燕
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

信息距離(Information Distance)是衡量事物本質聯繫的一種通用性度量,具有普適性、領域無關性、參數無關性等優越的性質。該理論已經在非參數的知識挖掘,文本信息處理、基因和蛋白質序列比對等領域得到了成功的套用。本項目將對信息距離的若干重要理論問題進行深入探討,並在文本信息挖掘領域展開套用研究。在理論研究方面,研究重點將集中在:在深入分析max型和min型信息距離的基礎上,提出綜合模型,擴展現有模型的描述能力;完善多個對象間的信息度量,進一步研究多個對象間的min型信息距離和條件信息度量的問題;研究信息距離的近似算法,擴展信息距離理論的套用範圍。在實際套用方面,將把信息距離理論套用到問答系統、文檔摘要系統和評論信息挖掘系統中,利用信息距離理論刻畫出詞與詞之間,句子與句子之間,問題與答案之間,多個文檔之間,詞語情感程度之間的信息度量,並利用新提出的近似算法,提高這些系統的性能。

結題摘要

本課題的工作目標是對信息距離的若干理論問題進行深入探討,並在文本信息挖掘領域展開套用研究。在本項目的支持下,本課題組的研究主要集中在在提出並完善多種信息度量理論及其近似算法,擴展信息距離理論的套用範圍。在實際套用方面,把信息距離理論套用到問答系統、文檔摘要系統和評論信息挖掘系統中。利用信息距離理論刻畫出詞與詞,句子與句子之間,問題與答案之間,多個文檔之間,詞語情感程度之間的信息度量,並利用所提出的近似算法提高系統的性能。 主要研究成果包括:1、推廣了多對象之間的信息度量理論,給出了近似估計算法。將該算法套用於文檔摘要和評論挖掘,選取最有代表性的和最全面的段落篇章,提高了系統的性能。採用該算法的系統在國際評測TAC2009中得到了第一名的好成績。相關工作論文已經被國際刊物KAIS錄用。2、提出了一種基於信息距離的多詞表達的語義度量模型。將多詞表達式距離套用於問答系統的後處理以及複雜命名實體的抽取,大大提高了系統的性能。相關論文獲得了COLING2010的最佳論文。3、基於信息度量的語義相關性計算模型。提出了概念與概念之間的關係、概念與概念類別之間的關係在語義層面上的相互增強假設。在此基礎上提出的語義相關性度量方法不僅僅能夠度量概念之間的語義相關性,同時可以通過他們的類別推斷其語義相關性。相關工作發表在人工智慧最好的國際會議IJCAI和國際刊物JCST上。4、基於文本信息度量概念的文本情感表達與情感計算研究。研究了情感數據的可信度度量問題。將概念、概念類別之間的關係度量問題轉換為概念與概念之間的相似度度量的一種擴展,由此引入信息度量的理論及其一系列算法。提出了跨領域的特徵詞和情感詞抽取算法,構建了一個情感挖掘平台。相關工作發表在IJCAI上。

相關詞條

熱門詞條

聯絡我們