Web文本的作者身份和屬性識別方法研究

項目摘要

網際網路上的文本信息呈爆炸式增長，網路用戶的隱蔽性與虛擬性使得網路空間上的虛假信息、非法信息、垃圾信息和不良信息等急劇膨脹，以不同形式散布和滲透在各種類型的文本中。識別網路文本信息的作者身份已經成為網路輿情監測、信息安全、智慧型信息處理領域重要而緊迫的研究課題。現有的研究工作對部落格、微博等網路文本的作者身份識別研究較少，相關方法往往受限於特定的主題。針對這些問題，本項目將系統地研究識別多源Web文本信息的作者身份和作者屬性的理論模型和核心方法，具體包括：(1) Web文本的作者寫作風格特徵提取方法；(2) 具有主題自適應的作者身份歸屬識別方法；(3) 具有可移植性的作者身份屬性識別方法。

結題摘要

本項目圍繞多源Web文本的作者身份和作者屬性識別的相關工作展開了研究，一年來的主要研究內容包括如下三方面：Web文本的作者寫作風格特徵表示和提取、作者身份歸屬識別，以及作者身份屬性識別。在文本風格特徵表示和提取方面，提出了一種基於詞段型連續n-gram模型、詞段型離散n-gram模型，以及多層語境模型的原始碼風格特徵提取方法；設計了一種基於卷積神經網路模型的微博文本表示方法，以及一種基於Doc2vec和詞頻-逆文檔頻率的部落格分散式集成表示方法。針對作者身份歸屬識別問題，設計了一種基於序列最小最佳化的原始碼作者身份歸屬識別方法，以及一種基於深度信念網路模型的原始碼作者身份歸屬識別方法。在自然語言文本的作者身份歸屬識別方面，研製了一種決策級中文分詞融合方法；提出了一種基於特徵最佳化的文本相似度計算方法。另外，分析了文本挖掘和自然語言處理研究領域相關文獻的作者合作關係。在作者身份屬性識別方面，設計了一種基於長短期記憶網路模型的微博作者性別識別方法，以及一種基於卷積神經網路模型的部落格作者性別、年齡和教育程度識別方法。本項目共發表國際會議論文5篇。獲得1項國家發明專利授權，申請2項國家發明專利。本項目培養畢業碩士生2人、畢業本科生2人。

Web文本的作者身份和屬性識別方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條