“認知碼”是“認知碼計算機漢字輸入系統”的簡稱。它是上世紀九十年代中國大陸的一項簡體漢字的研究成果。在輸入簡體漢字方面比五筆編碼、表形要容易。但是可惜的是,認知碼的使用範圍很小,如中國大陸的手機、電腦鍵盤等都未有此輸入方法。小霸王電腦學習機,步步高1998年的有聲電腦學習機語音2號等設定了此輸入法。
基本介紹
- 中文名:認知碼
- 全稱:認知碼計算機漢字輸入系統
- 優點:比五筆編碼、表形要容易
- 缺點:使用範圍很小
輸入法原理,認知碼的失落,
輸入法原理
在中國大陸,只要懂得漢語拼音就能比較迅速的掌握該輸入法。該輸入法是用拆分原理來輸入簡體漢字。
如“韓”,可以拆成“十”“早”“韋”,在認知碼內是S,Z,W,選擇“認知碼”輸入法,輸入這三個字母,就會出現這個字了。
認知碼還支持詞組輸入,同時已經開始套用,比如,2011年出的一種新的很流行的寧碼輸入法,就是在認識碼的基礎上改進而成,保留了認知碼的易學性,將字根和認識碼相結合,同時解決了認知碼的重碼多問題。
認知碼的失落
1992年8月1日至3日,為落實國家教委批准的“八五”重點攻關項目----“全國中國小教學漢字編碼規範與計算機漢字輸入系統”的研討會在北京召開。組織這次會議的是國家教委基礎教育司及直屬的全國中國小計算機教育研究中心。
來自全國中國小語文和計算機教學第一線的教師代表,多年從事中文信息處理技術研究的專家、學者及計算機廠家代表70餘人出席了會議。在這次會議上,主持人宣讀了國家教委關於對該項目立項報告的批示以及攻關領導小組, 項目顧問組和課題組組成單位及其成員的名單。出席會議的諸位領導在講話中對研製這個項目的必要性和重要性都給予了充分的肯定,從多方面闡述了研製本項目的重大意義和深遠影響,一致表示全力支持項目的開展。
這種強有力的政府行為有著雄厚的資金、人力和充分的時間作後盾,這是像肖水清這樣身無分文、全憑自身對事業的無私奉獻,以燃燒自己來照亮科研前進道路的民辦科研企業家是無法比擬的。
與會專家和代表認為,漢字進入計算機是舉世矚目的重大課題,雖然在八十年代經過海內外炎黃子孫的共同努力,解決了漢字鍵盤輸入技術的有無問題,我們還未看到有任何一種漢字輸入方法是充分按照與中國小基礎教育緊密結合的社會需求並且是在中國小做過認真的試驗後研製出來的。因此,國家教委把研製“全國中小學生教學用漢字編碼規範與計算機漢字輸入系統”列為“八五”國家重點攻關項目,是非常及時,非常必要的。該項目的研製成功必將有利於中國小語文和計算機的規範化教學,顯著提高教學質量,加速跨世紀人才的培養;有利於我國語言文字的規範化和漢字編碼輸入技術的規範化,並從根本上解決我國計算機的普及套用問題,因此,是造福子孫後代的“強國之大業,不朽之盛事。”
這次研討會對項目的攻關目標進行了深入探討,要求在攻關過程中做好“三個結合”、做到“三個兼容”。即做好語言文字規範化研究與漢字編碼規範化研究相結合,中國小語文、計算機教學與計算機套用相結合,漢字編碼研究與輸入系統研究研製相結合。做到音碼、形碼互補兼容,教學中的識字、查字、編碼和打字相互兼容,快速與易學、專用與普及相互兼容。
會議還強調指出,規範制訂原則中應強調緊密結合中國小語文教學特點和中國小的年齡與認知特點,要有利於語言文字及其教學的規範化和有利於計算機的中文信息處理。在研製漢字編碼輸入系統中,既要考慮我國中國小現有計算機機型配置,又要考慮國內主流機型的發展趨勢;既要注意編碼輸入系統的研製,又要注意非編碼輸入系統的研製,使規範化、智慧型化、系統化融於一體。
這次研討會對這個“八五”重點科研攻關項目的組織形式,及攻關步驟,財務費用也進行了規劃。大家認識到,完成這樣一個多學科、高技術、複雜而大型的系統工程,是任何單一專業、單個部門或靠個體力量所難以完成的。因此,要求技術路線上應在充分調查,認真研究語言文字規律和規範、中國小語文和計算機教學特點以及當前眾多編碼方案特點的基礎上,充分依據已有的語言文字規範、廣泛吸取現有成果和成熟經驗,集思廣益,博採眾長,群策群力。要求在研製方法上,應採取統一規劃,分步實施,邊研、邊試、邊用,漸進獲取,逐步完善的方法。在組織形式上,要求堅持在領導小組和項目顧問組的協調和指導下,由課題組組織中國小語文和計算機教育專家,中文信息處理專家和計算機軟、硬體設計人員共同努力、協作攻關,並做到研製、生產、使用三結合。
會議還要求國家主管部門在人力、物力、財力方面給予大力支持,採取國家撥款和社會集資相結合方式來籌集資金。與會專家和代表強烈呼籲國家有關部門和社會有識之士,大力支持這項造福子孫、功德無量的重大項目。
最後與會代表認為,在中國小計算機教學中,應主要使用漢語拼音方案作為計算機漢字輸入方法,而對形碼的選擇應持特別慎重態度,目的在於避免對語言文字的“污染”,並堅決反對用商業競爭或行政命令手段在中國小中強制推行不規範的漢字輸入編碼方案的做法。
會議圓滿成功,與會領導和代表滿懷希望回到各自崗位,課題組的同志也披星戴月地奮鬥了兩年,終於拿出了成果,提出了一個《認知碼漢字輸入方法》,在1995年推向全國中國小校。可是,由於認知碼自身存在很多欠缺,在推行之中遇到很大爭議和阻力。不少學術刊物紛紛載文討論認知碼,在這種“百家爭鳴”的環境中,由於認知碼自身的致命缺陷,使這種後來研製出的官方編碼被批評家批駁得體無完膚,一蹶不振。
1995年10月18日,權威的《計算機世界》報刊登了周憲撰寫的一篇文章,題目大膽直白,赫然醒目,《“認知碼”不宜推廣》。此文以大量翔實的定量定性分析,直指認知碼的致命缺陷。
文章說認知碼不宜推廣的第一個理論根據是重碼率高。他說,我國包括王碼在內的絕大多數漢字編碼,都採用了26鍵的標準模式,而認知碼卻採用了24個字母鍵盤和9個數字鍵盤。按理說,採用33鍵,碼長又為4,理所當然重碼應該少於碼長為4的26鍵方案。但是,實際上認知碼的重碼遠遠超過了所有類似編碼。在3755個常用的漢字範圍內,五筆字型的重碼為67對,表型碼為72對,見字識碼(新版)為49對,鄭易里碼為89對,新版杜氏全息碼為206對,舊板杜氏全息碼為270對。但是認知碼竟然達到342對之多。(以上數據誤差率為10%)。
文章對認知碼不宜推廣的第二個理論根據是易學性差。文章說,從易學性來看、認知碼同自然碼、栗新民四筆聲形碼、見字識碼、杜氏全息碼一樣,都採用了以聲母表示字根的方法。這對於學過漢語拼音的人來說,是比較容易的。但是,自然碼、栗新民四筆聲形碼、見字識碼採用的字根基本上都是新華字典的部首,杜氏全息碼採用了100個部首,均要比認知碼的300類、400多個字根易記得多。
文章對認知碼不宜推廣的第三個理論根據是字根選擇缺乏正確的規範。認知碼採用了許多通常不認為是字根的由多部件構成的漢字作為其“基本部件”。還有一些人為地賦予讀音的字根,如“典”、“向”、“商”等。由於其中部分字根的出現頻率很低,使用者很難搞清楚某一由幾個部件複合而成的大部件,到底要拆分還是不要拆分字根。比如,在認知碼的基本字根表中有“朱”,然而認知碼的研製者在認知碼的碼本中卻將“朱、珠、姝……”中的“朱”一律拆分為“ノ”與“未”。可見連研製者自己也記不清“朱”是字根了。300多對400多個字根太多,也無法用鍵貼,增加了初學者的困難。由於認知碼對字根的選擇缺乏正確的規範,它將部首中的“鼠”“黑”“骨”拆散,卻又認為“俞”“今”“愛”“安”等是基本部件。人們難以搞清它依據什麼“規”律來區分字根與非字根,也不知道它是依據古往今來的哪一部辭典或哪一種語言經典作為其“范”本。
文章對認知碼不宜推廣的第四點理論根據是簡碼的使用不科學。認知碼採用了依靠計算機的提示,通過簡碼來迴避重碼的方法。譬如說:“皆”和“毖”,按認知碼的規則,都應編為BBB1。認知碼則規定“皆”是BBB,而“毖”是BBB1。包括五筆字型在內的許多編碼都採用了這種方法。事實說明,這種方法對於縮短碼長,減少重碼是行之有效的。但是,包括五筆字型在內的許多編碼在採用簡碼的同時,仍舊保留了具有簡碼的漢字的規範編碼。就拿“皆”字來說,不但用BBB可以輸入它,用BBB1也應能輸入它。但是,認知碼在發表的碼錶中,對“皆”卻只有BBB一種編碼。
一個編碼即使極易學,如果速度上不去,最終只會造成“易學一陣子,慢了一輩子”的結果。何況認知碼在聲母表示字根的形碼中根本算不上易學的編碼。
另外,我們在研製一個形碼的字根表時,一定要兼顧其在音形碼中的使用。如果將大量漢字中的表音部分列為字根,並用其聲母來表示,那么在音形碼中,這個字根往往是與音形碼的聲母重複而成為一種區別重碼能力極差的冗餘碼。而認知碼這類表音的字根特別多。
實踐是檢驗真理的唯一標準。在推行任何編碼前,必須將其與其它碼進行嚴格的對比性定量測試。不但要測試其重碼率,還要測試其前期,中期、後期速率。
用戶反映無法選擇漢字編碼,其主要原因就是缺少客觀地反映各個編碼的重碼率和前期速率、中期速率、後期速率的數據。
漢字編碼要走向市場,要產品化,必須要象其他產品那樣實事求是地說明自己的各項性能指標,並讓用戶進行檢驗。
漢字編碼也只有通過實踐,通過“百花齊放,百家爭鳴”,才能讓廣大用戶識別和採用最規範、易學、高速的編碼。
周憲的文章發表半年之後,1996年4月1日,黃曉林在《計算機世界》報發表了《也談認知碼的一些爭議的問題》這篇文章。
文章說,過去幾年裡,中國小里教的漢字輸入法很多,原因是國家教委尚未有推薦方案,所以各個學校教漢字輸入法是各自為政,你教五筆字型,我教自然碼,他教肖碼等等。1995年國家教委推薦中國小使用認知碼,從減少學生負擔意義上說,這種做法本身具有積極意義。但這個國家教委首次推出的認知碼,也許由於研究比較倉促,本身具有很多不盡人意之處,引入中國小校後引起了很大爭議,這也是難免的。
文章對《認知碼輸入方法》前言中稱認知碼是嚴格遵循中國小教學規範製作出來的,而在此以前,沒有一個編碼是嚴格遵循中國小教學規範編制的言語極為反感。舉例說明道:具有輝煌歷史的五筆字型因為不適合語言學規範,沒有得到國家教委的推薦,應該是中小學生之幸,令人驚奇的是,五筆字型的基礎----“橫豎撇點折”,被原封不動地搬到了認知碼中,定義成認知碼的基本漢字筆畫,這就給認知碼留下了不規範的源泉。老師在給中小學生上課時,就講漢字的筆畫是“點橫豎撇捺提折鉤”八種類型,認知碼只有五種,這有什麼資格稱“嚴格遵循中國小語文教學規範”呢?如果某學生學習了認知碼,根據認知碼的規則,把“竹”字的左右兩部分寫得一模一樣,並以認知碼理由反駁教師的指正,你作為該學生的教師,將會有何感想。也許有人認為,只引入一兩個不規範的東西沒有多大影響。但是,連基礎都不規範,那么建立在不規範的基礎上的東西還有多少規範可言呢?
黃曉林對認知碼的重碼率和易學性也進行了毫不留情的批駁。文章說,認知碼使用說明書本身就是一大本厚厚的書,作者看了也不僅大吃一驚,一種輸入法要配上厚厚的一本說明書才能學會,他不知道這個碼的易學性“易學”在什麼地方。認知碼還沒有代碼表,也是因為其部件太多,有些部件是人為的拆分造成的,所以無法歸納成代碼表,由此可知其記憶量之大,這還算易記么。再就是認知碼變通很多,每有一處變通,難度就會增加一分,規則的複雜性也隨著增加,這樣多的規則,又有什麼“規則非常簡單”可言呢。
文章最後說,開發認知碼是件工作量很大、很辛苦的工作,但是有苦勞並不等於有功勞。人們都說六十年代美國對越南之戰,是“在錯誤的地方打了一場錯誤的戰爭”,如果能夠避免這場戰爭,無論對越南還是對美國來說都是一件幸事。我們認知碼的開發者有沒有走進這個誤區,還是讓後人評說吧!言下之意非常明白,用越南戰爭的舉例,例證開發認知碼是“打了一場錯誤的戰爭”。