百度分詞

字元匹配

百度分詞方法

百度分詞3種技術：字元串匹配的分詞方法、詞義分詞法、統計分詞法。

機械分詞方法

字元串匹配這種方法又叫做機械分詞方法，它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配，若在詞典中找到某個字元串，則匹配成功（識別出一個詞）。按照掃描方向的不同，字元串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優先匹配的情況，可以分為最大（最長）匹配和最小（最短）匹配；按照是否與詞性標註過程相結合，又可以分為單純分詞方法和分詞與標註相結合的一體化方法。常用的幾種機械分詞方法如下：
1）正向最大匹配法（由左到右的方向）；

首先粗分，按照句子把文本切成一個一個句子。然後把每個句子切成單字。字典按照樹形結構存儲，比如這句話“春天還會遠嗎”首先查找“春”字開頭的詞，然後按照字典樹形結構往下走一個節點，查找“春”後面一個字是“天”的詞，然後又下沉一個節點，找“還”下面是“會”的詞，找不到了，查找就結束。
2）逆向最大匹配法（由右到左的方向）；

就是朝相反的方向發掘可以匹配的文字，比如網上商城這個文字串，那么會向左延伸在網上的前面會出現的結果是區域性的文字，比如上海或者北京等，在商城的前面會出現更精準的定義文字元，比如愛家，女人等專屬性強的文字元。
3）最少切分（使每一句中切出的詞數最小）。
正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。就是向左右縱深挖掘比較匹配的結果值。
還可以將上述各種方法相互組合，實際使用的分詞系統，都是把機械分詞作為一種初分手段，還需通過利用各種其它的語言信息來進一步提高切分的準確率。

分類

詞義

這種分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現象。它通常包括三個部分：分詞子系統、句法語義子系統、總控部分。在總控部分的協調下，分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷，即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由於漢語語言知識的籠統、複雜性，難以將各種語言信息組織成機器可直接讀取的形式。

統計分詞

從形式上看，詞是穩定的字的組合，因此在上下文中，相鄰的字同時出現的次數越多，就越有可能構成一個詞。因此字與字相鄰共現的頻率或機率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計，計算它們的互現信息。定義兩個字的互現信息，計算兩個漢字X、Y的相鄰共現機率。互現信息體現了漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時，便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計，不需要切分詞典，因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性，會經常抽出一些共現頻度高、但並不是詞的常用字組，並且對常用詞的識別精度差，時空開銷大。

百度分詞

基本介紹

字元匹配

百度分詞方法

機械分詞方法

分類

詞義

統計分詞

相關詞條

熱門詞條