《Web文本的作者身份和屬性識別方法研究》是依託北京理工大學,由張春霞擔任項目負責人的面上項目。
基本介紹
- 中文名:Web文本的作者身份和屬性識別方法研究
- 依託單位:北京理工大學
- 項目負責人:張春霞
- 項目類別:面上項目
項目摘要,結題摘要,
項目摘要
網際網路上的文本信息呈爆炸式增長,網路用戶的隱蔽性與虛擬性使得網路空間上的虛假信息、非法信息、垃圾信息和不良信息等急劇膨脹,以不同形式散布和滲透在各種類型的文本中。識別網路文本信息的作者身份已經成為網路輿情監測、信息安全、智慧型信息處理領域重要而緊迫的研究課題。現有的研究工作對部落格、微博等網路文本的作者身份識別研究較少,相關方法往往受限於特定的主題。針對這些問題,本項目將系統地研究識別多源Web文本信息的作者身份和作者屬性的理論模型和核心方法,具體包括:(1) Web文本的作者寫作風格特徵提取方法;(2) 具有主題自適應的作者身份歸屬識別方法;(3) 具有可移植性的作者身份屬性識別方法。
結題摘要
本項目圍繞多源Web文本的作者身份和作者屬性識別的相關工作展開了研究,一年來的主要研究內容包括如下三方面:Web文本的作者寫作風格特徵表示和提取、作者身份歸屬識別,以及作者身份屬性識別。在文本風格特徵表示和提取方面,提出了一種基於詞段型連續n-gram模型、詞段型離散n-gram模型,以及多層語境模型的原始碼風格特徵提取方法;設計了一種基於卷積神經網路模型的微博文本表示方法,以及一種基於Doc2vec和詞頻-逆文檔頻率的部落格分散式集成表示方法。針對作者身份歸屬識別問題,設計了一種基於序列最小最佳化的原始碼作者身份歸屬識別方法,以及一種基於深度信念網路模型的原始碼作者身份歸屬識別方法。在自然語言文本的作者身份歸屬識別方面,研製了一種決策級中文分詞融合方法;提出了一種基於特徵最佳化的文本相似度計算方法。另外,分析了文本挖掘和自然語言處理研究領域相關文獻的作者合作關係。在作者身份屬性識別方面,設計了一種基於長短期記憶網路模型的微博作者性別識別方法,以及一種基於卷積神經網路模型的部落格作者性別、年齡和教育程度識別方法。本項目共發表國際會議論文5篇。獲得1項國家發明專利授權,申請2項國家發明專利。本項目培養畢業碩士生2人、畢業本科生2人。