Python數據預處理（三）- 文本特徵向量化

課程簡介

本課介紹數據預處理過程體系，包括數據類型與採集、文本轉化與抽取、數據集成與規約、中文分詞、數據清洗、特徵提取與變換、特徵向量化、特徵降維、特徵選擇、可視化、詞典模型、TF-IDF向量模型、主題模型等。

第1章手工實現文本特徵向量化

1-1解析數據檔案(12:10)

1-2處理數據缺失值（1）(15:46)

1-3處理數據缺失值（2）(07:02)

1-4不均衡數據歸一化處理(11:36)

1-5相似度計算(12:58)

1-6特徵詞轉化文本向量(11:18)

1-7詞集模型-獲取詞列表(09:39)

1-8詞集模型與詞袋模型(15:57)

1-930萬新聞文本特徵向量化(08:10)

第2章Gensim實現文本特徵向量化

2-1Gensim介紹(02:33)

2-2Gensim構建語料詞典（1）(12:48)

2-3Gensim構建語料詞典（2）(05:48)

2-4Gensim統計詞頻特徵(05:49)

2-5Gensim計算TT-IDF（1）(11:12)

2-6Gensim計算TF-IDF（2）(04:24)

2-7LSA潛在語義分析-載入數據（1）(06:21)

2-8LSA潛在語義分析-生成主題模型（2）(10:09)

2-10LDA隱含狄利克雷分布(2)(02:18)

2-11RP生成隨機映射(05:10)

2-12HDP分層狄利克雷過程(05:16)

2-13Gensim實現新聞文本特徵向量化（1）(08:24)

2-14Gensim實現新聞文本特徵向量化（2）(07:42)

2-15Gensim實現新聞文本特徵向量化（3）(11:11)

2-16Gensim實現新聞文本特徵向量化（4）(02:02)