《集成噪聲數據清洗的中文UGC評論挖掘理論與方法研究》是依託哈爾濱工業大學,由蘆鵬宇擔任項目負責人的面上項目。
基本介紹
- 中文名:集成噪聲數據清洗的中文UGC評論挖掘理論與方法研究
- 依託單位:哈爾濱工業大學
- 項目類別:面上項目
- 項目負責人:蘆鵬宇
項目摘要,結題摘要,
項目摘要
隨著Web2.0時代的到來,面向UGC的評論挖掘的重要性日漸明顯。然而,現有的研究主要集中於對英文線上評論進行分析,針對中文客戶評論的相關研究仍處於起步階段。本研究將採用中國電子商務數據對中文UGC線上產品評論進行分析,探索集成噪聲數據清洗的中文UGC評論挖掘的理論與方法。課題的研究工作將主要圍繞兩個方面展開:1、通過對領域評論知識的表示方法、產品特徵辭彙與評論辭彙的抽取及擴展方法、評論辭彙的極性標註及其傾向強度判別方法等的研究,提出領域評論知識庫的創建理論與方法,填補目前對該理論研究的空白;2、通過對中文UGC的噪聲分析與清洗方法、中文線上評論的評論表達式識別方法、評論結果集的集成方法等的研究,建立集成噪聲數據清洗的中文UGC評論分析理論與方法,為實現中文評論的線上分析奠定理論基礎。本研究的成果將幫助企業深入理解網際網路上的客戶評論信息,從而提高企業競爭優勢。
結題摘要
目前,面向用戶產生內容(User Generated Content, UGC)的評論挖掘的重要性日漸明顯。本研究採用中國電子商務數據對中文UGC線上產品評論進行分析,探索集成噪聲數據清洗的中文UGC評論挖掘的理論與方法。 首先,作為評論挖掘的基礎,本研究首先對中文分詞方法進行了研究,提出基於詞頻的長詞優先中文分詞方法以及詞典和語料庫詞頻相結合的長詞優先中文分詞方法,可以獲得較高的準確率和召回率,並可以有效獲取長詞。 其次,在產品特徵詞的獲取方法中,本研究設計實現了一個在無詞典條件下對大規模中文文本進行特徵詞快速抽取的方法,其速度遠遠快於基於詞典的方法。另外,本研究基於Hownet和HMM兩種方法,進行了複合短語提取方法的研究,可以用於保證所獲取的產品特徵辭彙的準確性和完整性。 第三,為了更好地區分不同辭彙所表達的極性傾向強度的差異,本研究採用層次分析方法對評論辭彙極性的強弱程度進行排序,對大部分評論的情感傾向極性及極性強度判定都可以提供較好地支持。本研究還提出了針對含有特定修辭格(對比、反語)的中文語句情感傾向性判斷的方法,得到了較理想的效果。 第四,本研究根據中文的語言和語法特點,確定了中文UGC中所包含的噪聲數據的主要類型,並提出了進行噪聲處理的主要步驟,可以有效解決噪聲數據清洗問題。此外,本研究還提出了一種基於改進DOM樹的網頁噪聲數據處理算法,設計了網頁噪聲數據處理系統,既可實現線上去噪,也可實現本地下載頁面去噪。 第五,本研究基於用戶的線上評論數據,設計了一種包括嵌套區域內客戶意見的分層線性模型,以確定顧客對一家國際連鎖餐廳在中國52個地區分店的滿意度是否存在差別,並且哪些區域因素有助於解釋這種差異。結果表明,在不同地區客戶的滿意度明顯差異。 最後,本研究提出了基於Tag改進的協同過濾算法,並針對個性化推薦過程中在進行多信息集成的時涉及到的信息最佳化問題進行了研究,提出了有係數的二次比率問題之和的全局最佳化算法以及一類分布最佳化問題的線性方法。此外,本研究還提出了基於時間片段的多IT項目人力資源調度問題求解方法。