《基於用戶言語行為的微博內容挖掘研究》是依託香港理工大學深圳研究院,由李文捷擔任項目負責人的面上項目。
基本介紹
- 中文名:基於用戶言語行為的微博內容挖掘研究
- 項目類別:面上項目
- 項目負責人:李文捷
- 依託單位:香港理工大學深圳研究院
項目摘要,結題摘要,
項目摘要
微博是人們行使各種交際活動的社會網路。本項目根據語言學的言語行為理論,提出以言語行為為線索,探索微博用戶的交際模式和交際規律,並以此為基礎進行相應的話題內容抽取提煉和用戶影響關係研究。項目主要涉及三方面的技術。首先,由於言語行為不能從微博數據中直接獲取,本項目致力於內容導向的微博用戶言語行為識別。針對微博文本的高噪音度和人工標註語料的匱乏,我們提出適合微博特點的特徵提取方式和依賴少量人工標註語料的半監督學習方法。其次,本項目致力於基於群體言語行為的信息提取和微博上的自動摘要,開發不依賴除噪過程的關鍵字提取和基於模板的概括式摘要技術。再次,本項目致力於基於個體言語行為的用戶關係網路的建模,根據個人用戶言語行為的變化和與周圍用戶言語行為的關聯建立機率模型,從而識別有影響力的用戶群體。這些研究內容具有理論和實踐上的重要意義。針對某些關鍵技術的前期研究結果表明,本項目是切實可行的。
結題摘要
該項目旨在以微博內容挖掘為核心,探索社交媒體不同類型用戶的語言表達方式、信息交流行為和社會交際規律,並以此為依據進行微博智慧型信息處理(包括信息檢索、信息抽取、信息摘要、情感分析等)和信息傳播機制分析(包括用戶影響力及影響方式分析、觀點識別及預測等),為基於內容的社交媒體研究開闢一條新的途徑。研究工作進展順利,目標順利達成,並且在人工智慧熱潮的帶動之下有效延伸,並為更前沿、更具套用價值的未來研究項目申請做好鋪墊和基礎準備工作。 項目實施期間,我們分別基於社交媒體特性進行如下主要研究工作,包括:基於微博內容的用戶言語行為分類模型構建和基於用戶言語行為分析的摘要生成研究;基於社交媒體數據動態特性的時序摘要模型研究和基於社交媒體數據實時特性的實時信息推薦和摘要策略開發;基於言論內容和觀點傾向的用戶交流行為研究和社交影響力分析、具有影響力的專家識別、社交影響在推薦領域的套用;針對微博短文的有效潛在語意表達方式研究;社交平台言論觀點的情感分析和預測建模、信息和信息源的可信度分析及評價研究;人工智慧和深度神經網路模型在社交媒體內容和行為分析中的套用探討,等等。 至今為止,該項目共培養博士畢業生兩名,在讀博士生五名,博士後一名,副研究一名,助理研究員三名。各位學生和研究人員認真投入,積極合作,迅速掌握國內外學術動態和領先技術,並探索可能的創新之處,經過努力收穫令人滿意的可喜成果,達到預期之人才培養目的。項目取得的研究進展和科研成果亦十分令人滿意。至今,項目組成員共發表十篇期刊論文和十七篇會議論文,其中,六篇論文發表於富有極高聲譽的IEEE和ACM會刊,兩篇發表在自然語言處理的頂級期刊《計算語言學》,十四篇會議論文發表在自然語言處理、人工智慧、信息檢索的頂級會議(包括ACL、EMNLP,AAAI、IJCAI、SIGIR)。