未登錄詞即沒有被收錄在分詞詞表中但必須切分出來的詞。未登錄詞,包括各類專有名詞(人名、地名、企業名等)、縮寫詞、新增辭彙等等。...
能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置檔案來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分散式環境,能靈活指定多種分詞算法,能使用refine功能靈活...
其中前三部分是自然語言處理的基本理論,第一部分針對中文處理中特有的分詞問題,介紹了自動分詞算法、分詞中歧義的消除和未登錄詞的識別算法,另外還介紹了語料庫的相關知識。第二部分和第三部分都是從語法(語義)的表示入手,將自然語言...
得益於科大訊飛在語言學上的深厚積累、與相關權威科研機構的緊密合作,以及通過寬廣的套用實踐平台所積累的海量專業知識庫,通過不斷訓練和最佳化,InterPhonic即使在面對針對語言分析處理的難點,如多音字、特殊符號、韻律短語、未登錄詞(如地名...
目前漢語的全文詞義標註多關注多義詞的消歧任務,仍然無法解決未登錄詞的詞義預測、詞典中缺失義項詞語的義項標註、成語及慣用語、多詞表達的義項標註及語義知識庫的完備性等問題。本申請擬從以下幾個方面進行研究:(1)將現有詞義資源整合...
主要思路是通過對訓練語料進行字標註,統計得到各個字的標註特性組合的頻次以及緊密程度,以此反映字與字之間能否成詞的可信度。這類方法經常會誤識別一些共現頻度高、但不是詞的常用字組,因此對常用詞的識別精度較差,但是對於未登錄詞...
1.中文常見人名數量眾多,對此連續語音識別的詞典中通常將人名字詞作為未登錄詞處理,導致訓練語料中覆蓋的人名數量極其有限;2.其次中文人名同音字大量存在,常見人名有幾十個甚至更多的漢字組合;3.對每個用戶來說,用戶特有的個性化...
本書主要向具備計算機處理基礎的讀者介紹中文自然語言處理問題和技術.由於中西方語言處理方法之間的主要區別集中在辭彙層面,所以本書主要討中文形態分析,主要內容包括中文自然語言處理技術介紹、中文詞素處理、中文分詞、未登錄詞識jJlJ、中文...
3.1.1詞與自動分詞 3.1.2漢語自動分詞的重要性 3.1.3漢語自動分詞方法 3.1.4漢語切分歧義及其處理 3.1.5未登錄詞的處理 3.1.6漢語分詞的難點 3.1.7漢語分詞評測 3.2屈折語的詞法分析 3.2.1屈折語的詞法分析 3.2.2...
中文檢索相對英文等其它語種來說,如何正確分詞對於檢索效果有所影響,尤其是命名實體、縮略語以及新詞等未登錄詞的正確識別對於某些查詢來說影響較大。現在的大部分檢索系統在索引以及查詢分析階段採用了命名體識別,從結果來看,取得了比較...
通過基於詞向量的翻譯技術,緩解未登錄詞對跨語言文本相似度的影響;通過基於段落向量的翻譯技術,利用上下文中的全局信息計算跨語言文本之間的相似度;通過將不同語言映射到同一個段落向量空間,實現不經過翻譯直接計算跨語言文本相似度的...
3.2 通過模型求解未登錄詞的說明 3.2.1 語素組合時操作命令的選擇 3.2.2 計算機理解未登錄詞的目標和步驟 3.3 16個高頻動語素構詞情況的分析 3.3.1 考察對象的選擇 3.3.2 動語素“發”的構詞分析 3.3.3 動語素“流”...
4.9 未登錄詞識別 179 4.10 詞性標註 180 4.10.1 隱馬爾可夫模型 183 4.10.2 基於轉換的錯誤 學習方法 191 4.11 平滑算法 193 4.12 本章小結 198 第5章 讓搜尋引擎理解自然語言 199 5.1 停用詞表 ...
2.2.2 未登錄詞問題 2.2.3 謂語的組成問題 2.2.4 多動詞聯用問題 2.2.5 詞性歧義問題 2.2.6 主語和施事問題 2.2.7 否定詞和語義上的混論 2.2.8 形態變化問題 2.2.9 句子的詞序問題 2.2.10 漢語的特殊模式問題...
本項成果對於計算機詞義理解、未登錄詞識別以及辭彙教學有一定的參考價值。圖書目錄 第一章 《漢字義類信息庫》的建設及語義構詞初步研究 第一節 《漢字義類信息庫》的研究與實現 一 建立《漢字義類信息庫》的基本思想 二 《漢字義類...
1.2.3 未登錄詞 6 1.2.4 數據稀疏 6 1.3 自然語言處理中的常用技術 8 1.4 機器學習中的常見問題 10 1.4.1 Batch和Epoch 10 1.4.2 Batch Size的選擇 11 1.4.3 數據集不平衡問題 11 1.4.4 預訓練模型與數據安全...
可比較語料庫覆蓋面廣等特點。另外,在基於雙語資源實現跨語言信息檢索查詢詞自動翻譯的過程中,著重探索研究並高效解決了查詢詞中命名實體、專業術語以及縮略語等未登錄詞的翻譯難題,從而提高了跨語言信息檢索的準確性和有效性。
2.6.6 大詞表 138 2.6.7 詞性序列 138 2.6.8 基於轉換的錯誤學習方法 138 2.6.9 條件隨機場 141 2.7 詞類模型 142 2.8 未登錄詞識別 144 2.8.1 未登錄人名 144 2.8.2 提取候選人名 145 2.8.3 最長人名切分 ...
整體詞 表示"整體"(whole)的詞。表示"整體"(whole)的詞叫做"整體詞"(holonym),
8.3基於概念分析的主題詞自動標引 8.3.1文章模型建立 8.3.2主題詞自動標引算法 8.3.3主題概念權值的設定 8.3.4同(近)義詞、忽略詞和用戶自定義詞的處理 8.3.5基於頻率統計和規則過濾的未登錄詞識別與處理 8.4基於遺傳...
對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標註以及詞性標註。並可在分析過程中,導入用戶定義的詞典。4. 統計分析與術語翻譯 針對切分標註結果,系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計(統計兩個詞左右...
三、基於知網概念定義的未登錄詞處理 四、數據稀疏問題的處理 第四節 技術實現及測試結果分析 一、系統的開發環境 二、技術實現 三、系統實現描述 四、軟體功能及界面 五、測試結果及分析 第五章 深度語義標註庫的句法語義範疇系統 第...
4.2.1 斷詞 4.2.2 詞幹提取 4.3 中文詞法分析 4.3.1 最大匹配法 4.3.2 歧義詞切分 4.3.3 未登錄詞識別 4.3.4 分詞系統介紹 4.3.5 語料及評測 4.4 相關資源 4.4.1 停用詞表 4.4.2 詞典資源 4.5 英文...
For unknown words recognition, we use different method to recognize numeric phrase, reiterative locution and name.在未登錄詞識別中,我們分別對數詞短語、疊字詞、名字的識別提出了不同的識別方法。
7.1.1分詞規範與詞表 7.1.2切分歧義問題 7.1.3未登錄詞識別問題 7.2基本分詞方法 7.2.1最大匹配法 7.2.2最少分詞法 7.2.3最大機率法 7.2.4與詞性標註相結合的分詞方法 7.2.5基於互現信息的分詞方法 7.2.6基於...
blankbook,英語單詞,主要用作名詞,作名詞時譯為“未登錄賬簿,空白賬簿”。短語搭配 blankbook detail 空白賬簿 單詞釋義 空白賬簿 ...blank指上面沒有寫字、印刷或做記號的空白表面,或指上面留著準備被填寫的空白處。blankbook空白...
基於辭彙時間分布信息的未登錄詞提取. 張普、王鐵琨主編. 中國語言資源論叢(一). 北京: 商務印書館, 2009, 9: 368-379。 流行語時空監測模型的研究. 孫茂松、陳群秀主編. 內容計算的研究與套用前沿. 北京: 清華大學...