《雙語語料構建與雙語文本聚類研究》是2019年6月南京大學出版社出版的圖書,作者是章成志。
基本介紹
- 中文名:雙語語料構建與雙語文本聚類研究
- 作者:章成志
- 出版社:南京大學出版社
- 出版時間:2019年6月
- 頁數:184 頁
- 定價:50 元
- 開本:16 開
- 裝幀:平裝
- ISBN:9787305223785
內容簡介,圖書目錄,
內容簡介
《雙語語料構建與雙語櫻堡紙文本聚類研究》以多語言文本為研究對象,進行基於多語言文本的文本挖掘,涉及任務主要分為三塊內容,多語言文本的採集,其中包括了平行語料和可比語料,對多語言語料的評估以及多語言文本的聚類。其中,多語言文本的聚類研究中,針對多語言文本的關鍵字抽取、平行語料和可比語料的文本聚類進行了相關實驗。任務中主要針對中英文語料進行相關挖掘,實驗中使用的研究方法具有普適性,可以運用到其他語種的文本挖掘中。
圖書目錄
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究內容框架
1.4 本書章節安排
第2章 相關研究工作綜述
2.1 雙語語料採集研究綜述
2.1.1 基於網路資源的可比語料採集
2.1.2 基於平行網頁的平行語料採集
2.2 可比語料評估研究綜述
2.2.1 可比語料的可比度度量
2.2.2 跨語言文檔相似度計算
2.3 多語言文本關鍵字抽取研究綜述
2.3.1 候選關鍵字的選取
2.3.晚設2 有監督的關鍵字抽取方法
2.3.3 無監督的關鍵字抽取方法
2.4 多語言文本聚類研究綜述
2.4.1 文本表示模型
2.4.2 文本聚類算祝旬組法
2.4.3 多語言文本聚類
第3章 雙語語料採集與構建研究
3.1 雙語平行網頁發現
3.1.1 總體流程與關鍵技術
3.1.2 網頁結果評估與分析
3.2 雙語可比語料構建
3.2.1 總體流程與關鍵技術
3.2.2 可比語料構建結果與分析
3.3 本章小結
第4章 雙語可比語料評估研究
4.1 可比語料可比度度量
4.1.1 總體流程與關鍵技術
4.1.2 可比度度量結果與分析
4.2 可比語料的評估
4.2.1 總體流程與關鍵技術
4.2.2 語料評估結果與分析
4.3 本章小結
第5章 雙語文本關鍵字挖掘研究
5.1 關鍵字分布特點分析
5.1.1 中文關鍵字分布特點分析
5.1.2 英文關鍵字分布特點分析
5.2 關鍵字抽取方法思路與關鍵技術
5.2.1 關鍵字抽取總體流程
5.2.2 關鍵字抽取中的特徵計算方法
5.3 實驗與結果分析
5.3.1 特徵歸一化與結果評價
5.3.2 中文關鍵字抽取實驗結果
5.3.3 英文關鍵字抽取實驗結果
5.4 本章小結
第6章 雙語文本聚類研究
6.1 平行語料聚類研究
6.1.1 平行語料聚類的總體流程
6.1.2 中英文平行語料聚類的關鍵技術
6.1.3 文本聚類結果與分析
6.2 可比語料聚類研究
6.2.1 可比語料聚類的總體流程
6.2.2 中英文可比語料聚類的關鍵技術
6.2.3 文本聚類結果與分析
6.3 本章小結
第7章 結束語
7.1 總結
7.2 未來研究工作歸剃姜
7.2.1 雙語語料採集與構建
7.2.2 雙語可比語料評估
7.2.3 雙語文本道廈希求關鍵字熱棕探旋抽取與雙語文本聚類
附錄
附錄A 基於搜尋引擎方法採集可比語料的種子詞對示例
附錄B Wikipedia可比語料採集種子詞樣例
附錄C Wikipedia可比語料中的對齊標題(部分)
附錄D 圖情核心期刊在CNKI(19982011)中的檢索結果
附錄E 圖書情報期刊在EBSCO資料庫中檢索和下載情況
附錄想鑽龍F 基於傳統統計和詞頻統計的語料相似度結果
附錄G 基於術語度的可比語料與其他領域語料比較結果
參考文獻
索引
6.2.1 可比語料聚類的總體流程
6.2.2 中英文可比語料聚類的關鍵技術
6.2.3 文本聚類結果與分析
6.3 本章小結
第7章 結束語
7.1 總結
7.2 未來研究工作
7.2.1 雙語語料採集與構建
7.2.2 雙語可比語料評估
7.2.3 雙語文本關鍵字抽取與雙語文本聚類
附錄
附錄A 基於搜尋引擎方法採集可比語料的種子詞對示例
附錄B Wikipedia可比語料採集種子詞樣例
附錄C Wikipedia可比語料中的對齊標題(部分)
附錄D 圖情核心期刊在CNKI(19982011)中的檢索結果
附錄E 圖書情報期刊在EBSCO資料庫中檢索和下載情況
附錄F 基於傳統統計和詞頻統計的語料相似度結果
附錄G 基於術語度的可比語料與其他領域語料比較結果
參考文獻
索引