分詞技術

分詞技術就是搜尋引擎針對用戶提交查詢的關鍵字串進行的查詢處理後根據用戶的關鍵字串用各種匹配方法進行分詞的一種技術。

基本介紹

  • 中文名:分詞技術
  • 套用領域:搜尋引擎
  • 基本釋義:關鍵字串用的一種技術
  • 技術數目:3種技術
基本介紹,概述,數據處理,分詞的原理,字元串匹配的分詞方法,詞義分詞法,統計分詞法,

基本介紹

概述

數據處理

我們要理解分詞技術先要理解一個概念。那就是查詢處理,當用戶向搜尋引擎提交查詢後,搜尋引擎接收到用戶的信息要做一系列的處理。步驟如下所示:
1.首先是到資料庫裡面索引相關的信息,這就是查詢處理。
那么查詢處理又是如何工作的呢?很簡單,把用戶提交的字元串沒有超過3個的中文字,就會直接到資料庫索引辭彙。超過4箇中文字的,首先用分隔設定比如空格,標點符號,將查詢串分割成若干子查詢串。
舉個例子。“什麼是百度分詞技術” 我們就會把這個詞分割成“ 什麼是,百度,分詞技術。”這種分詞方法叫做反向匹配法。
2.然後再看用戶提供的這個詞有沒有重複辭彙
如果有的話,會丟棄掉,默認為一個辭彙。接下來檢查用戶提交的字元串,有沒有字母和數字。如果有的話,就把字母和數字認為一個詞。
這就是搜尋引擎的查詢處理。

分詞的原理

百度是如何來分詞的呢?分詞技術現今非常成熟了。分為3種技術。

字元串匹配的分詞方法

這是種常用的分詞法,百度就是用此類分詞。字元串匹配的分詞方法,又分為3種分詞方法。
(1).正向最大匹配法
就是把一個詞從左至右來分詞。
舉個例子:”不知道你在說什麼”
這句話採用正向最大匹配法是如何分的呢?“不知道,你,在,說什麼”。
(2).反向最大匹配法
"不知道你在說什麼"反向最大匹配法來分上面這段是如何分的。“不,知道,你在,說,什麼”,這個就分的比較多了,反向最大匹配法就是從右至左。
(3).就是最短路徑分詞法。
就是說一段話裡面要求切出的詞數是最少的。
“不知道你在說什麼”最短路徑分詞法就是指,把上面那句話分成的詞要是最少的。“不知道,你在,說什麼”,這就是最短路徑分詞法,分出來就只有3個詞了。
(4).雙向最大匹配法。
而有一種特殊的情況,就是關鍵字前後組合內容被認為粘性相差不大,而搜尋結果中也同時包含這兩組詞的話,百度會進行正反向同時進行分詞匹配。

詞義分詞法

就是一種機器語音判斷的分詞方法。很簡單,進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,還不成熟,處在測試階段。

統計分詞法

根據詞組的統計,就會發現兩個相鄰的字出現的頻率最多,那么這個詞就很重要。就可以作為用戶提供字元串中的分隔設定,這樣來分詞。
比如,“我的,你的,許多的,這裡,這一,那裡”等等,這些詞出現的比較多,就從這些詞裡面分開來。

相關詞條

熱門詞條

聯絡我們