《Python數據預處理(三)- 文本特徵向量化》是慕課網提供的慕課課程,授課老師是伏草惟存。
基本介紹
- 中文名:Python數據預處理(三)- 文本特徵向量化
- 授課老師:伏草惟存
- 類別:慕課
- 提供方:慕課網
課程簡介,課程大綱,
課程簡介
本課介紹數據預處理過程體系,包括數據類型與採集、文本轉化與抽取、數據集成與規約、中文分詞、數據清洗、特徵提取與變換、特徵向量化、特徵降維、特徵選擇、可視化、詞典模型、TF-IDF向量模型、主題模型等。
課程大綱
第1章手工實現文本特徵向量化
1-1解析數據檔案(12:10)
1-2處理數據缺失值(1)(15:46)
1-3處理數據缺失值(2)(07:02)
1-4不均衡數據歸一化處理(11:36)
1-5相似度計算(12:58)
1-6特徵詞轉化文本向量(11:18)
1-7詞集模型-獲取詞列表(09:39)
1-8詞集模型與詞袋模型(15:57)
1-930萬新聞文本特徵向量化(08:10)
第2章Gensim實現文本特徵向量化
2-1Gensim介紹(02:33)
2-2Gensim構建語料詞典(1)(12:48)
2-3Gensim構建語料詞典(2)(05:48)
2-4Gensim統計詞頻特徵(05:49)
2-5Gensim計算TT-IDF(1)(11:12)
2-6Gensim計算TF-IDF(2)(04:24)
2-7LSA潛在語義分析-載入數據(1)(06:21)
2-8LSA潛在語義分析-生成主題模型(2)(10:09)
2-9LDA隱含狄利克雷分布(1)(10:36)
2-10LDA隱含狄利克雷分布(2)(02:18)
2-11RP生成隨機映射(05:10)
2-12HDP分層狄利克雷過程(05:16)
2-13Gensim實現新聞文本特徵向量化(1)(08:24)
2-14Gensim實現新聞文本特徵向量化(2)(07:42)
2-15Gensim實現新聞文本特徵向量化(3)(11:11)
2-16Gensim實現新聞文本特徵向量化(4)(02:02)