自然語言處理入門(2020年人民郵電出版社出版的圖書)

自然語言處理入門(2020年人民郵電出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《自然語言處理入門》是2020年4月人民郵電出版社出版的圖書,作者是何晗。

基本介紹

  • 書名:自然語言處理入門
  • 作者:何晗
  • 出版社:人民郵電出版社
  • 出版時間:2020年4月
  • 頁數:366 頁
  • 定價:99 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787115519764
內容簡介,圖書目錄,

內容簡介

這是一本務實的入門書,助你零起點上手自然語言處理。
HanLP 作者何晗匯集多年經驗,從基本概念出發,逐步介紹中文分詞、詞性標註、命名實體識別、信 息抽取、文本聚類、文本分類、句法分析這幾個熱門問題的算法原理與工程實現。書中通過對多種算法的講解,比較了它們的優缺點和適用場景,同時詳細演示生產級成熟代碼,助你真正將自然語言處理套用在生產環境中。
隨著本書的學習,你將從普通程式設計師晉級為機器學習工程師,最後進化到自然語言處理工程師。

圖書目錄

第 1 章 新手上路 1
1.1 自然語言與程式語言 . 2
1.1.1 辭彙量 . 2
1.1.2 結構化 . 2
1.1.3 歧義性 . 3
1.1.4 容錯性 . 3
1.1.5 易變性 . 4
1.1.6 簡略性 . 4
1.2 自然語言處理的層次 . 4
1.2.1 語音、圖像和文本 .. 5
1.2.2 中文分詞、詞性標註和命名實體
識別 . 5
1.2.3 信息抽取 . 6
1.2.4 文本分類與文本聚類 .. 6
1.2.5 句法分析 . 6
1.2.6 語義分析與篇章分析 .. 7
1.2.7 其他高級任務 7
1.3 自然語言處理的流派 . 8
1.3.1 基於規則的專家系統 .. 8
1.3.2 基於統計的學習方法 .. 9
1.3.3 歷史 . 9
1.3.4 規則與統計 . 11
1.3.5 傳統方法與深度學習 11
1.4 機器學習 .. 12
1.4.1 什麼是機器學習 13
1.4.2 模型 .. 13
1.4.3 特徵 .. 13
1.4.4 數據集 .. 15
1.4.5 監督學習 .. 16
1.4.6 無監督學習 . 17
1.4.7 其他類型的機器學習算法 .. 18
1.5 語料庫 19
1.5.1 中文分詞語料庫 19
1.5.2 詞性標註語料庫 19
1.5.3 命名實體識別語料庫 20
1.5.4 句法分析語料庫 20
1.5.5 文本分類語料庫 20
1.5.6 語料庫建設 . 21
1.6 開源工具 .. 21
1.6.1 主流NLP 工具比較 .. 21
1.6.2 Python 接口 23
1.6.3 Java 接口 . 28
1.7 總結 . 31
第 2 章 詞典分詞 32
2.1 什麼是詞 .. 32
2.1.1 詞的定義 .. 32
2.1.2 詞的性質--齊夫定律 .. 33
2.2 詞典 . 34
2.2.1 HanLP 詞典 . 34
2.2.2 詞典的載入 . 34
2.3 切分算法 .. 36
2.3.1 完全切分 .. 36
2.3.2 正向最長匹配 . 37
2.3.3 逆向最長匹配 . 39
2.3.4 雙向最長匹配 . 40
2.3.5 速度評測 .. 43
2.4 字典樹 46
2.4.1 什麼是字典樹 . 46
2.4.2 字典樹的節點實現 47
2.4.3 字典樹的增刪改查實現 .. 48
2.4.4 首字散列其餘二分的字典樹 . 50
2.4.5 前綴樹的妙用 . 53
2.5 雙數組字典樹 55
2.5.1 雙數組的定義 . 55
2.5.2 狀態轉移 .. 56
2.5.3 查詢 .. 56
2.5.4 構造最

相關詞條

熱門詞條

聯絡我們