Python文本分析

Python文本分析

《Python文本分析》是2018年機械工業出版社出版的圖書,作者是[印度] 迪潘簡·撒卡爾。

基本介紹

  • 書名:Python文本分析
  • 作者:[印度] 迪潘簡·撒卡爾
  • 出版社:機械工業出版社
  • ISBN:9787111593249
內容簡介,圖書目錄,

內容簡介

本書遵循結構化和綜合性的方法,介紹了文本和語言語法、結構和語義的基礎概念和高級概念。從自然語言和Python的基礎開始,進而學習先進的分析理念和機器學習概念。全面提供了自然語言處理(NLP)和文本分析的主要概念和技術。包含了豐富的真實案例實現技術,例如構建分類新聞文章的文本分類系統,使用主題建模和文本摘要分析app或遊戲評論,進行熱門電影概要的聚類分析和電影評論的情感分析。介紹了基於Python和流行NLP開源庫和文本分析實用工具,如自然語言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。

圖書目錄

目錄
譯者序
前言
第1章自然語言基礎
1.1自然語言
1.1.1什麼是自然語言
1.1.2語言哲學
1.1.3語言習得和用法
1.2語言學
1.3語言句法和結構
1.3.1詞
1.3.2短語
1.3.3從句跨潤市
1.3.4語法
1.3.5語序類型學
1.4語言語義
1.4.1辭彙語義關係
1.4.2語義網路和模型
1.4.3語義境料府表示
1.5文本語料庫
1.5.1文本語料庫標註及使用
1.5.2熱門的語料全催庫
1.5.3訪問文本語料庫
1.6自然語言處理
1.6.1機器翻譯
1.6.2語音識別系統
1.6.3問答系統
1.6.4語境識別與消解
1.6.5文本摘要
1.6.6文本分類
1.7文本分析
1.8小結
第2章Python語言回顧
2.1了解Python
2.1.1Python之禪
2.1.2套用:何時使用Python
2.1.3缺點:何時不用Python
2.1.4Python實現和版本
2.2安裝和設定
2.2.1用哪個Python版本
2.2.2用哪個作業系統
2.2.3集成開發環境
2.2.4環境設定
2.2.5虛擬環境
2.3Python句法和結構
2.4數據結構和類型
2.4.1數值類型
2.4.2字元串
2.4.3列表
2.4.4集合
2.4.5字典
2.4.6元組
2.4.7檔案
2.4.8雜項
2.5控制代碼流
2.5.1條件結構
2.5.2循環結構
2.5.3處理異常
2.6函戒判籃數編程
2.6.1函式
2.6.2遞歸函式
2.6.3匿名函式
2.6.4疊代器
2.6.5分析器
2.6.6生成器
2.6.7itertools和functools模組
2.7類
2.8使用文本
2.8.1字元串文字
2.8.2字元串操作和方法
2.9文本分析框架
2.10小結
第3章處理和理解文本
3.1文本切分
3.1.1句子切分
3.1.2詞語切分
3.2文本規範化
3.2.1文本清洗
3.2.2文本切分
3.2.3刪除特殊字元
3.2.4擴再檔海危展縮寫詞
3.2.5大小寫轉換
3.2.6刪除停用詞
3.2.7詞語校正
3.2.8詞幹提取
3.2.9詞形還原
3.3理解文本句法和結構
3.3.1安裝必要的依賴項
3.3.2機器學習重要概念
3.3.3詞性標註
3.3.4淺層分析
3.3.5基於依存關係的分析
3.3.6基於成分結構的分析
3.4小結
第4章文本分類
4.1什麼是文本分類
4.2自動文本分類
4.3文本分類的藍圖
4.4文本規範化處理
4.5特徵提取
4.5.1詞袋模型
4.5.2TFIDF模型
4.5.3高級詞向量模型
4.6分類拘臭拒算法
4.6.1多項式樸素貝葉斯
4.6.2支持向量機
4.7評估分類模型
4.8建立一個多類分類系統
4.9套用
4.10小結
第5章文本摘要
5.1文本摘要和信息提取
5.2重要概念
5.2.1文檔
5.2.2文本規範化
5.2.3特徵提取
5.2.4特徵矩陣
5.2.5奇異值分解
5.3文本規範化
5.4特徵提取
5.5關鍵短語提取
5.5.1搭配
5.5.2基於權重標籤的短語提取
5.6主題建模
5.6.1隱含語義索引
5.6.2隱含Dirichlet分布
5.6.3非負矩陣分解
5.6.4從產品評論中提取主題
5.7自動文檔摘要
5.7.1隱含語義分析
5.7.2TextRank算法
5.7.3生成產品說明摘要
5.8小結
第6章文本相似度和聚類
6.1重要概念
6.1.1信息檢索
6.1.2特徵工程
6.1.3相似度測量
6.1.4無監督的機器學習算法
6.2文本規範化
6.3特徵提取
6.4文本相似度
6.5詞項相似度分析
6.5.1漢明距雅煉埋全離
6.5.2曼哈頓距離
6.5.3歐幾里得距離
6.5.4萊文斯坦編輯距離
6.5.5餘弦距離和相似度
6.6文檔相似度分析
6.6.1餘弦相似度
6.6.2海靈格-巴塔恰亞距離
6.6.3Okapi BM25排名
6.7文檔聚類
6.8最佳影片聚類分析
6.8.1kmeans聚類
6.8.2近鄰傳播聚類
6.8.3沃德凝聚層次聚類
6.9小結
第7章語義與情感分析
7.1語義分析
7.2探索WordNet
7.2.1理解同義詞集
7.2.2分析辭彙的語義關係
7.3詞義消歧
7.4命名實體識別
7.5分析語義表征
7.5.1命題邏輯
7.5.2一階邏輯
7.6情感分析
7.7IMDb電影評論的情感分析
7.7.1安裝依賴程式包
7.7.2準備數據集
7.7.3有監督的機器學習技術
7.7.4無監督的詞典技術
7.7.5模型性能比較
7.8小結
2.6.2遞歸函式
2.6.3匿名函式
2.6.4疊代器
2.6.5分析器
2.6.6生成器
2.6.7itertools和functools模組
2.7類
2.8使用文本
2.8.1字元串文字
2.8.2字元串操作和方法
2.9文本分析框架
2.10小結
第3章處理和理解文本
3.1文本切分
3.1.1句子切分
3.1.2詞語切分
3.2文本規範化
3.2.1文本清洗
3.2.2文本切分
3.2.3刪除特殊字元
3.2.4擴展縮寫詞
3.2.5大小寫轉換
3.2.6刪除停用詞
3.2.7詞語校正
3.2.8詞幹提取
3.2.9詞形還原
3.3理解文本句法和結構
3.3.1安裝必要的依賴項
3.3.2機器學習重要概念
3.3.3詞性標註
3.3.4淺層分析
3.3.5基於依存關係的分析
3.3.6基於成分結構的分析
3.4小結
第4章文本分類
4.1什麼是文本分類
4.2自動文本分類
4.3文本分類的藍圖
4.4文本規範化處理
4.5特徵提取
4.5.1詞袋模型
4.5.2TFIDF模型
4.5.3高級詞向量模型
4.6分類算法
4.6.1多項式樸素貝葉斯
4.6.2支持向量機
4.7評估分類模型
4.8建立一個多類分類系統
4.9套用
4.10小結
第5章文本摘要
5.1文本摘要和信息提取
5.2重要概念
5.2.1文檔
5.2.2文本規範化
5.2.3特徵提取
5.2.4特徵矩陣
5.2.5奇異值分解
5.3文本規範化
5.4特徵提取
5.5關鍵短語提取
5.5.1搭配
5.5.2基於權重標籤的短語提取
5.6主題建模
5.6.1隱含語義索引
5.6.2隱含Dirichlet分布
5.6.3非負矩陣分解
5.6.4從產品評論中提取主題
5.7自動文檔摘要
5.7.1隱含語義分析
5.7.2TextRank算法
5.7.3生成產品說明摘要
5.8小結
第6章文本相似度和聚類
6.1重要概念
6.1.1信息檢索
6.1.2特徵工程
6.1.3相似度測量
6.1.4無監督的機器學習算法
6.2文本規範化
6.3特徵提取
6.4文本相似度
6.5詞項相似度分析
6.5.1漢明距離
6.5.2曼哈頓距離
6.5.3歐幾里得距離
6.5.4萊文斯坦編輯距離
6.5.5餘弦距離和相似度
6.6文檔相似度分析
6.6.1餘弦相似度
6.6.2海靈格-巴塔恰亞距離
6.6.3Okapi BM25排名
6.7文檔聚類
6.8最佳影片聚類分析
6.8.1kmeans聚類
6.8.2近鄰傳播聚類
6.8.3沃德凝聚層次聚類
6.9小結
第7章語義與情感分析
7.1語義分析
7.2探索WordNet
7.2.1理解同義詞集
7.2.2分析辭彙的語義關係
7.3詞義消歧
7.4命名實體識別
7.5分析語義表征
7.5.1命題邏輯
7.5.2一階邏輯
7.6情感分析
7.7IMDb電影評論的情感分析
7.7.1安裝依賴程式包
7.7.2準備數據集
7.7.3有監督的機器學習技術
7.7.4無監督的詞典技術
7.7.5模型性能比較
7.8小結

相關詞條

熱門詞條

聯絡我們