Python自然語言處理入門

《Python自然語言處理入門》是2022年水利水電出版社出版的圖書。

基本介紹

  • 中文名:Python自然語言處理入門
  • 出版時間:2022年1月
  • 出版社:水利水電出版社
  • ISBN:9787517098294
內容簡介,圖書目錄,作者簡介,

內容簡介

《Python 自然語言處理入門》是一本使用 Python 解釋在人工智慧領域備受關注的自然語言分析方法的入門書,內容涵蓋“檢索技術”“實體提取”“關係提取”“語素分析”和“評估 / 情感 / 概念分析”等自然語言處理中的常用知識,同時對傳統技術和引入了 AI 新技術的特點作了對比。全書以一線 AI工程師的實際項目經驗為後盾,對自然語言處理的要點進行了歸納總結,並介紹了使用 Python 程式、API、商業服務(IBM Watson)和 OSS(MeCab / Elasticsearch / Word2Vec)等進行自然語言處理的實用方法,在後一章中,還介紹了 BERT 的相關內容,特別適合想學習自然語言處理的理工科學生和人工智慧工程師進行參考和學習。

圖書目錄

第1章 文本分析
1.1 文本分析的目的
1.1.1 結構化數據與非結構化數據
1.1.2 查找
1.1.3 發現
1.2 文本分析的基本技術
1.2.1 文本分析技術的全貌
1.2.2 基於文本分析技術的本書結構分析
第2章日語文本分析:預處理的要點
2.1 文本數據的獲取
2.1.1 作為分析對象文本數據的條件
2.1.2 青空文庫
2.1.3 利用維基百科API獲取文本
2.1.4 從PDF 和Word 文檔中獲取文本
2.1.5 從 Web頁面中獲取文本
2.1.6 使用API獲取文本的方法
2.1.7 從DBpedia中獲取文本
2.1.8 其他獲取文本的方法
2.2 語素分析
2.2.1 語素分析的目的
2.2.2 語素分析引擎的種類
2.2.3MeCab 分詞包的使用
2.2.4 Janome 分詞包的使用
2.2.5 與字典的結合使用
第3章 傳統的文本分析與檢索技術
3.1 相關性分析
3.1.1 語素分析與相關性分析的關係
3.1.2 CaboCha的使用,
3.1.3 使用naruhodo 進行可視化處理
3.2 檢索
3.2.1 Elasticscarch 的安裝
3.2.2 Elasticscarch 的使用
3.3 日文檢索
3.3.1 Python 應用程式接口的導入
3.3.2日文用分析器的設定
3.3.3 日文文檔的檢索
3.3.4 複雜的日文檢索(同義詞和字典的使用)...
3.4 檢索結果的評分
3.4.1 TF-IDF
3.4.2 Elasticsearch中的評分功能
3.5 類似檢索
第4章基於商用API的文本分析與檢索技術
4.1 IBM Cloud 中的文本分析 API概覽
4.1.1 Watson API服務的總覽
4.1.2 Natural Language Understanding (NLU).
4.1.3 Knowledge Studio.
4.1.4 Discovery
4.1.5 其他的 API.
4.2 NLU
4.2.1 NLU(自然語言理解)
4.2.2 實例的創建
4.2.3 使用 Python時的必備操作
4.2.4 實體提取功能
4.2.5 關係提取功能
4.2.6 評價分析功能
4.2.7 關鍵字提取功能
4.2.8 其他功能
4.3 Knowledge Studio
4.3.1 何謂 Knowledge Studio
4.3.2 創建模型所必需的操作流程
4.3.3 實例與 Workspace 的創建
4.3.4 事先準備操作(定義 Type System/字典)
4.3.5 標註操作(從讀入文檔到人工標註)
4.3.6 機器學習模型的訓練與評估
4.3.7 模型的使用方法(與NLU聯動)
4.4 Discovery
4.4.1 何謂 Discovery
4.4.2 文檔的讀取
4.4.3 Enrich
4.4.4 Query
4.4.5 排名學習
4.5 使用 Discovery 模組
4.5.1 環境的創建
4.5.2 數據集合的創建
4.5.3 管理界面
4.5.4 使用SDU定義欄位
4.5.5 欄位的詳細定義(欄位管理、Enrich設定)
4.5.6 文檔的讀入
4.5.7 使用DQL進行搜尋
4.5.8 同義詞字典的使用
4.5.9 與Knowledge Studio的聯動
4.6 通過 API 使用 Discovery
4.6.1 API的初始化
4.6.2 文檔的載入與刪除
4.6.3 搜尋
4.6.4 語素字典的使用
4.6.5 相似搜尋的執行
4.7 基於 Discovery 的排名學習
4.7.1 何謂排名學習
4.7.2 使用圖形界面工具進行排名學習
4.7.3 性能/儀錶盤功能
4.8 通過 API使用 Discovery 進行排序學習
4.8.1 排序學習的準備
4.8.2 學習的實施
第5章 Word2Vec 與 BERT
5.1 Word2Vec 模型概要
5.1.1 Word2Vec 的學習方法
5.1.2 Word2Vec 模型的結構
5.1.3 學習時的目的與真正的目標
5.1.4 Word2Vec所生成特徵向量的性質
5.2 Word2Vec 的使用
5.2.1 自行學習的方法
5.2.2 使用已經完成訓練的模型
5.3 Word2Vec 套用案例
5.3.1 將 Word2Vec 作為簡易分類器用於預處理
5.3.2 在商用API內部的運用
5.3.3 在自動推薦系統中的套用
5.4 Word2Vec 的關聯技術
5.4.1 Glove
5.4.2 fastText
5.4.3 Doc2Vec
5.5遷移學習與 BERT
5.5.1 圖像識別與遷移學習
5.5.2BERT 的特點
5.5.3具有通用性的預先學習
5.5.4各種適用領域
5.5.5基於較新研究成果的神經網路模型
5.5.6使用預先學習模型

作者簡介

赤石雅典
1987年入職IBM日本公司。在東京基礎研究所從事數學處理系統方面的研究和開發工作。1993年調到軟體工程部,主要負責開源系統的基礎設施設計和構建工作。2013年調到智慧城市事業部,2016年8月調到Watson事業部至今。
目前,主要負責Watson Studio / Watson OpenScale等數據科學系列產品的提案及開發工作。因為廣泛涉獵各種領域,從IT基礎設施、軟體開發、程式語言、SQL調試到Watson、機器學習、深度學習等,都積累了不少經驗。
金澤工業大學研究生院虎之門校區客座教授和“人工智慧技術特別講座”講師,出版有多本機器學習和深度學習相關著作,並在雜誌上發表了大量文章。
在本書中,負責第1章~第3章、第4章的一部分、第5章、附錄A~附錄C的撰寫。
江澤美保
Cresco Co., Ltd.
曾擔任面向企業的Web入口網站產品開發、大型辦公管理的海外遷移項目開發、支付服務的現場工程師等職務,後轉型為高科技企業技術銷售。2015年開始參與IBM Watson工作,在將Watson引入管理方面積累了很多經驗。2019年獲得IBM Champion稱號。目前擔任幫助企業導入人工智慧技術的AI顧問/工程師。本書中主要負責第4章的撰寫。

相關詞條

熱門詞條

聯絡我們