分詞規範(specification of word segmentation)是2011年公布的語言學名詞,出自《語言學名詞》第一版。
基本介紹
- 中文名:分詞規範
- 外文名:specification of word segmentation
- 所屬學科:語言學
- 公布時間:2011年
分詞規範(specification of word segmentation)是2011年公布的語言學名詞,出自《語言學名詞》第一版。
分詞規範(specification of word segmentation)是2011年公布的語言學名詞,出自《語言學名詞》第一版。定義規定漢語自動分詞的原則和方法的一系列規則。出處《語言學名詞》第一版。1...
《信息處理用藏文分詞規範》是2019年1月1日實施的一項中國國家標準。編制進程 2018年6月7日,《信息處理用藏文分詞規範》發布。2019年1月1日,《信息處理用藏文分詞規範》實施。起草工作 主要起草單位:中國電子技術標準化研究院、西北民族大學、青海師範大學、中國科學院軟體研究所、西藏大學、西藏自治區藏語文工作...
分詞就是將連續的字序列按照一定的規範重新組合成語義獨立詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要複雜得多、困難得多...
《信息處理用現代漢語分詞規範及自動分詞方法》是2017年9月1日清華大學出版社出版的圖書,作者是周元哲。內容簡介 本書與《軟體測試(第2版)》相配套,內容包括兩部分。第1部分是習題解析,針對主教材的8章內容,給出每章的知識重點,精心設計了相應的習題,並給出了詳細的解析和參考答案。第2部分是實驗指導,主要...
第1章 自動分詞是中文信息處理的基礎工程 第一節 分詞的重要性及其主要目標 第二節 自動分詞中存在的主要問題 第2章 《信息處理用現代漢語分詞規範》設計原則及規範內容 第一節 國際《分詞規範》的簡介與評述 第二節 《資訊處理用中文分詞規範》的基本架色 第3章 信息處理用現代漢語分詞詞表的收詞原則和方法 ...
9.3分詞實驗語料一致性檢測 第10章 藏語分詞、詞性標註一體化研究 10.1分詞和詞性標註一體的概述 10.2藏語詞性標註的現狀和問題 10.3 藏語分詞、詞性標註一體化研究 10.3.1基於詞級的分詞標註一體化研究 10.3.2基於字的分詞標註一體化研究 附錄1信息處理用現代藏語分詞規範(草案)1.1範圍 1.2規範性引用...
漢字改革包含簡化字問題、漢字拼音化問題、規範漢字使用問題。漢字改革的主要出發點是漢字過於複雜,認讀學習時間長,且無法和計算機信息科技兼容。無論是“漢字落後論”,還是“漢字優越論”,都是主觀上的認識,客觀上要抓住漢字是否便於人文交流和科技創新的問題。漢字改革的最終目的是進行拼音化,將漢語書面文字從二維...
WindowsNT、WndowsXP、Vista、Linux 支持編碼:GB2312、BIG5、GB18030、UTF8、UNICODE 套用模式:C++動態程式庫API、C++COM組件;JAVA 接口規範:檔案切分和字元串切分兩種接口 支持領域:通用領域、新聞、金融、餐飲、化妝品等 用戶詞典:可根據業務需要添加用戶辭彙 使用說明:可以參看軟體包內的說明文檔和示例 ...
第1章中文分詞 1.1中文分詞中的基本問題 1.1.1中文分詞規範問題 1.1.2歧義切分問題 1.1.3未登錄詞識別問題 1.2基於詞表的分詞算法 1.2.1正向最大匹配算法 1.2.2逆向最大匹配算法 1.2.3雙向最大匹配算法 1.3基於統計模型的分詞算法 1.4基於序列標註的分詞算法 1.4.1基於HMM的分詞方法 1.4.2...
第3章自動分詞概述/ 333.1自動分詞33 3.1.1分詞規範33 3.1.2自動分詞的研究內容及意義34 3.1.3自動分詞方法34 3.2分詞歧義問題35 3.3未登錄詞問題37 3.4自動分詞評測39〖1〗中文信息處理原理及套用(第2版)目錄[3]〖3〗第4章基於詞典的分詞方法/ 43 4.1分詞詞典43 4.1.1關於分詞詞典的構造43 ...
1.1 分詞規範對漢語詞綴的處理原則 1.2 帶綴詞語自動切分情況統計分析 1.3 分詞碎片中詞綴歸併策略與規則 1.4 落單詞綴歸併與標註處理的難點 1.5 本節小結 § 2 現代漢語類詞綴與對外漢語教學 2.1 《語法等級大綱》中的詞綴問題 2.2 《辭彙等級大綱》中的詞綴問題 2.3 類推功能與漢語派生詞習得 2.4 ...
現在分詞作狀語時,其邏輯主語應該與句子的主語一致,但有時現在分詞的主語與其所在句中的主語並不一致,這種現在分詞即所謂的垂懸現在分詞。垂懸現在分詞容易使句意模糊,甚至造成歧義,因而通常被認為是不合規範或錯誤的用法。Searching along the deck,it had taken him some time to find a doctor.他沿著甲板...
《漢語拼音正詞法基本規則》(GB/T 16159-1996)是20世紀90年代中期由國家語言文字工作委員會組織研製、中華人民共和國國家質量技術監督局發布的國家標準,對規範漢語拼音拼寫發揮了重要作用。隨著社會語言生活的發展變化,2006年,中華人民共和國教育部、國家語言文字工作委員會根據中國國家標準化管理委員會要求和專家意見,...
第3章 辭彙與分詞技術 88 3.1 中文分詞 89 3.1.1 什麼是詞與分詞規範 90 3.1.2 兩種分詞標準 93 3.1.3 歧義、機械分詞、語言 模型 94 3.1.4 辭彙的構成與未登錄 詞 97 3.2 系統總體流程與詞典結構 98 3.2.1 概述 98 3.2.2 中文分詞流程 99 3.2.3 分詞詞典結構 103 3.2.4 命名實體...
宋柔,羅智勇,婁珽,李衛亮:通用分詞系統的目標、困難和解決方案, 2001 中國人工智慧全國學術會議, 2001.12 宋柔,鄒嘉彥:漢語專名的初步研究,中國中文信息學會 20 周年學術會議(大會報告),清華大學出版社, 2001.11宋柔:關於分詞規範的探討,《語言文字套用》, 1997 年第 3 期 宋柔:計算機輔助漢語校對...
第3章漢語自動分詞技術31 3.1引言31 3.2分詞規範33 3.3常用的分詞方法35 3.3.1正向最大匹配分詞35 3.3.2反向最大匹配分詞35 3.3.3基於統計的詞格線分詞36 3.4歧義的分類和識別36 3.4.1歧義的分類36 3.4.2歧義的抽取和消歧37 3.5新詞的識別39 3.5.1統計構詞能力40 3.5.2漢字構詞模式40 3....
7.《分詞規範亟需補充的三方面內容》,《中文信息學報》2007年第21卷第5期。(第三作者)8.《語素項的構詞力概況及制約因素分析》,《語文研究》2007年第2期。(獨著)(收入《北京語言大學漢語言文字學論叢·辭彙卷》,北京語言大學出版社,2008年。)9.《留學生使用“女人”的偏誤傾向和原因分析》,《雲南...
7.1漢語自動分詞及其基本問題 7.1.1分詞規範與詞表 7.1.2切分歧義問題 7.1.3未登錄詞識別問題 7.2基本分詞方法 7.2.1最大匹配法 7.2.2最少分詞法 7.2.3最大機率法 7.2.4與詞性標註相結合的分詞方法 7.2.5基於互現信息的分詞方法 7.2.6基於字分類的分詞方法 7.2.7基於實例的漢語分詞方法 ...
《混晶半導體光電器件的深能級與光電性質》是依託廈門大學,由黃啟聖擔任項目負責人的面上項目。項目摘要 漢語校對系統對於我國社會信息化,特別是對於新聞出版通信行業有重要意義,對計算機智慧型接口有重要用途。本課題組對漢語的分詞規範、分詞算法、查錯機制和修改建議機制進行了深入的基礎性研究,研究成功快速分詞算法、...
2.8雙音節詞、雙音節結構 2.9三音節詞、二音節結構 第三部分分詞連寫規則 第四部分成語、慣用語和其他熟語 第五部分人名拼寫 第六部分地名拼寫 第七部分大寫規則 第八部分縮寫規則 第九部分標調規則 第十部分移行規則 第十一部分標點符號的使用規則 第十二部分變通規則 規範性引用檔案 主要參考文獻 後記 ...
4.8.3 分詞規範化 139 4.9 小結和建議 139 第5 章 特徵工程與句法相似性 141 5.1 本章內容概要 141 5.2 實驗數據集 142 5.3 案例:構建自己的向量化器 .143 5.3.1 枚舉辭彙表 143 5.3.2 向量化文檔 144 5.3.3 文檔詞條矩陣 .146 5.3.4 相似性矩陣 147 5.4 詞袋模型 .149 5.4.1 ...
[2]1993-1995參加國家教委“八五”人文社會科學研究規劃項目“現代漢語研究語料庫系統”,為主要參加人。該語料庫系統對200萬字有代表性的現代漢語語料進行了分詞和詞性標註。1996年1月通過部級鑑定。[3]1995-1996參加國家語委項目“信息處理用GB13000.1字元集漢字部件規範”的研製工作,負責漢字拆分及部分軟體設計工作。
為此,本項目將深入考察漢語構詞特點,研究詞的內部結構體系以及詞內部結構與短語結構的關係,制定完善的詞語結構標註規範,並據此在已有樹庫上標註規模為6至8萬詞的結構,得到詞法與句法結構一體化標註的樹庫。在此基礎上,從成分分析與依存分析角度設計詞法和句法結構的統一分析模型及相應分析算法,使得對於給定未分詞...
3.1 關於分詞歧義 3.2 基於規則的分詞消歧 3.3 基於統計方法的分詞消歧 第4章 未登錄詞獲取 4.1 關於未登錄詞 4.2 基於統計學的未登錄詞獲取方法 4.3 中文姓名的自動辨識 4.4 中文統計辭彙獲取 4.5 無詞典分詞方法 第5章 語料庫的構建 5.1 關於語料庫 5.2 漢語語料庫的基本加工規範 5....