《基於多維度文本特徵的社區問答答案質量評估研究》是依託北京大學,由蘇祺擔任負責人的青年科學基金項目。
基本介紹
- 中文名:基於多維度文本特徵的社區問答答案質量評估研究
- 項目負責人:蘇祺
- 項目類別:青年科學基金項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
隨著Web2.0的發展,社會化媒體成為網際網路的主流套用之一。由於用戶在社會化媒體中發布信息並不帶有傳統媒體那樣嚴格的審查機制,就導致了信息的質量問題日益突出。識別社會化媒體中用戶生成的高質量內容為自然語言處理、文本挖掘技術提出了嚴峻挑戰。本項目以社會化媒體中的一個典型套用,即社區問答(cQA)為例,提出了一個基於多維度特徵的文本質量評估框架。不同於以往研究中主要從以非文本特徵建模的用戶權威性入手來推測用戶所提供的答案文本質量,本項目利用多維度的文本內容特徵對社區問答中的答案質量進行評估。重點研究(1)多維度評估框架的構建;(2)不同維度上文本特徵的抽取與排序學習,特別是可信性語義範疇的文本表示;(3)各維度評估因素的有效集成;以及(4)結合答案質量評估改進社區問答檢索排序效果。以上研究成果一方面可以直接提高社區回答套用的實用效果;另一方面也能夠對文本質量評估研究產生重要影響。
結題摘要
在Web自媒體時代,用戶可以自由地在網際網路上發布信息,其信息內容和發布方式都具有較強的隨意性。因此,網際網路上的信息質量問題日益突出。如何通過自動化手段識別出網際網路上的高質量信息、標識出不可靠、虛假、欺騙性的信息,為自然語言處理套用提出了新的挑戰。本項目以多種文本類型作為研究對象,包括社會化媒體中的社區問答、維基百科,以及自建的評論語料庫,提出了基於多維度特徵的文本質量評估框架。不同於以往研究中主要從以用戶歷史行為數據等非文本特徵入手來預測文本質量,本項目利用多維度的文本內容特徵對文本質量進行評估。研究的重點包括以下幾個方面:(1)多維度評估框架的構建——主要探討了在維基百科數據中文本質量在不同維度上的表征;(2)文本內容特徵的抽取及其在不同機器學習算法中的有效套用——主要探討了在以往表層文本特徵和句法特徵等的基礎上,如何進一步挖掘語義層面的文本內容特徵。為此引入了系統功能語言學中對於言據性語言成分的定義以及心理語言學上對於詞義的分析框架,探討了這些特徵對於區分高質量文本的有效性。(3) 各維度評估因素的有效集成——主要探討了如何利用集成學習的方法將不同視角下的文本質量評估維度有效整合。(4)真實/虛假評價數據的區分性特徵識別——基於自建的語料庫,對真實評價文本和虛假評價文本中的不同語言表述特徵進行了挖掘。