《文本作者身份識別--基於機器學習與計算語言學》是於2017年2月清華大學出版社出版的一本圖書,作者是祁瑞華。
基本介紹
- 書名:文本作者身份識別--基於機器學習與計算語言學
- 作者:祁瑞華
- 出版社:清華大學出版社
- 出版時間:2017年2月
圖書簡介,目錄,
圖書簡介
文本作者身份識別廣泛套用於文學作品、新聞稿、商品評論、垃圾郵件的作者身份鑑定以及法庭取證等領域。隨著大數據時代網路文本的大量湧現,匿名文本的作者身份識別在網路取證、不良輿情監控等任務中的套用成為國內外學者關注的熱點。
本書探討了文本作者身份識別的關鍵問題、基本方法和最新研究進展,並套用於實踐得以驗證。全書共7章,分為3部分: 第1部分包括第1~2章,介紹文本作者身份識別的基本概念、研究內容、建模基本方法和主要套用領域; 第2部分包括第3~4章,介紹現有的作者身份文體特徵、作者身份識別算法、性能評價指標、主要實驗平台等; 第3部分包括第5~7章,介紹本書對作者身份識別研究的貢獻和在中英文部落格、微博語料上的實驗驗證。
本書主要面向文本挖掘領域的研究生和相關專業的研究人員,既可以作為文本分析與處理研究的教科書,也可以作為政府相關部門產品研發人員的參考書。
目錄
第1章緒論
1.1基本概念
1.1.1作者身份識別
1.1.2作者身份描述
1.1.3作者聚類分析
1.1.4機器學習
1.1.5計算語言學
1.2作者身份識別研究
1.2.1文體風格特徵研究內容
1.2.2作者身份建模技術研究內容
1.3作者身份建模基本方法
1.3.1基於側面的作者身份建模
1.3.2基於實例的作者身份建模
1.4作者身份識別面臨的主要問題
1.5本章小結 第2章作者身份分析套用領域
2.1英美文學作品作者身份識別
2.2中文作品作者身份識別
2.2.1中文自動分詞
2.2.2中文自動分詞主要方法
2.2.3中文作者身份識別相關研究
2.3其他語種作者身份識別
2.4網路文本作者身份識別
2.5作者身份屬性分析
2.6作者身份法庭取證
2.7本章小結 第3章文體風格特徵
3.1文體風格特徵類別
3.1.1一元和多元文體風格特徵
3.1.2多層面文體風格特徵
3.1.3文體風格特徵評述
3.2文體風格特徵選擇
3.3本章小結
第4章作者身份識別算法
4.1主要算法
4.1.1支持向量機算法
4.1.2樸素貝葉斯算法
4.1.3最近鄰算法
4.1.4決策樹算法
4.1.5神經網路算法
4.1.6其他方法
4.2性能評價指標
4.3實驗平台
4.4本章小結
第5章英文部落格作者身份識別 ...