基本介紹
- 中文名:詞幹提取
- 外文名:Stemming
- 分類:語言形態學、計算機語言學
- 套用:信息檢索、自然語言處理
例子
歷史背景
相應算法
查找算法
後綴去除算法
- 如果詞的結尾是“ed”,則去掉“ed”
- 如果詞的結尾是“ing”,則去掉“ing”
- 如果詞的結尾是“ly”,則去掉“ly”
在詞法學和信息檢索里,詞幹提取是去除詞綴得到詞根的過程(得到單詞最一般的寫法)。對於一個詞的形態詞根,詞幹並不需要完全相同;相關的詞映射到同一個詞幹一般能得到滿意的結果,即使該詞幹不是詞的有效根。從1968年開始在計算機...
詞幹提取程式 詞幹提取程式(stemmer)是2018年公布的計算機科學技術名詞。定義 能夠將屈折語中單詞的屈折詞綴去掉並輸出單詞詞幹的程式。出處 《計算機科學技術名詞 》第三版。
英語裡詞幹是相對於詞尾的概念,是一種構形語素。一個詞中除去詞尾的部分就是詞幹。漢語中有詞綴的詞里,中心詞的概念就是詞幹。英語解釋 表音語系在詞的結構中,一個詞除去詞尾的部分就是詞幹,通常是由詞根和詞綴構成的,也可以沒有詞根,詞幹確定一個詞的辭彙意義,詞尾只能改變詞的語法意義,有詞形、詞音的...
7.7.3詞幹提取143 7.7.4詞形還原143 7.7.5WordNet144 7.7.6語義相關性145 第8章語料清洗146 8.1認識語料清洗146 8.2清洗策略147 8.2.1一致性檢查147 8.2.2格式內容檢查147 8.2.3邏輯錯誤檢查147 8.3缺失值清洗147 8.3.1認識缺失值147 8.3.2Pandas處理148 8.3.3Sklearn處理150 8.4異常值...
2.5 詞幹提取 24 2.6 詞形還原 25 2.7 停用詞刪除 26 2.8 生僻字刪除 27 2.9 拼寫校正 27 2.10 試一試 28 2.11 本章小結 28 第3章 詞性標註 30 3.1 什麼是詞性標註 30 3.1.1 斯坦福標註器 33 3.1.2 深入了解標註器 34 3.1.3 序列標註器 35 3.1.4 布里爾標註...
4.4.3 詞幹提取 4.4.4 索引詞選擇 4.5 索引 4.5.1 Trie樹 4.5.2 後綴樹 4.5.3 簽名檔 4.5.4 倒排檔案 4.6 小結 思考題 習題 參考文獻 第5章 查詢語言與查詢處理 5.1 Web查詢語言 5.1.1 WebSQL查詢語言 5.1.2 W3QL查詢語言 5.1.3 WebOQL查詢語言 5.2 查詢方式 5.2.1 基於關鍵...
5.6.3 重寫分詞過濾器的詞幹提取 134 5.7 小結 134 第6章 使用相關性進行搜尋 136 6.1 Elasticsearch的打分機制 137 6.1.1 文檔打分是如何運作的 137 6.1.2 詞頻 137 6.1.3 逆文檔頻率 138 6.1.4 Lucene評分公式 138 6.2 其他打分方法 139 6.3 boosting 141 6.3.1 索引期間...
3.1.8 詞幹提取96 3.1.9 詞形還原99 3.1.10 刪除停用詞100 3.1.11 將以上整合在一起—構建文本規範器101 3.2 理解文本句法和結構102 3.2.1 安裝必要的依賴項103 3.2.2 機器學習的重要概念105 3.2.3 詞性標註105 3.2.4 淺層解析或分塊112 3.2.5 依存關係解析120 3.2.6 成分...
第4章 特徵提取 37 4.1 從類別變數中提取特徵 37 4.2 特徵標準化 38 4.3 從文本中提取特徵 39 4.3.1 詞袋模型 39 4.3.2 停用詞過濾 42 4.3.3 詞幹提取和詞形還原 43 4.3.4 tf-idf權重擴展詞包 45 4.3.5 空間有效特徵向量化與哈希技巧 48 4.3.6 詞向量 49 4.4 從...
2.2原始文本提取與詞條化16 2.2.1文本提取中與網頁相關的問題18 2.3從詞條中提取詞項19 2.3.1停用詞移除19 2.3.2連字元19 2.3.3大小寫轉換20 2.3.4基於用法的合併20 2.3.5詞幹提取21 2.4向量空間表示與歸一化21 2.5文本中的相似度計算23 2.5.1idf歸一化和詞幹提取是否總是有用25 2.6本章...
4.3.4 詞幹提取 4.3.5 短語和n元串 4.4 文檔結構和標記 4.5 連結分析 4.5.1 錨文本 4.5.2 PageRank 4.5.3 連結質量 4.6 信息抽取 4.7 國際化 參考文獻和深入閱讀 練習 第5章 基於索引的相關排序 5.1 概述 5.2 抽象的相關排序模型 5.3 倒排索引 5.3.1 文檔 5.3.2 計數 5.3.3 ...
3.2.8詞幹提取 3.2.9詞形還原 3.3理解文本句法和結構 3.3.1安裝必要的依賴項 3.3.2機器學習重要概念 3.3.3詞性標註 3.3.4淺層分析 3.3.5基於依存關係的分析 3.3.6基於成分結構的分析 3.4小結 第4章文本分類 4.1什麼是文本分類 4.2自動文本分類 4.3文本分類的藍圖 4.4文本規範化處理 4.5...