漢字全息資源套用系統,是文字學及相關專業領域專家學者的科研平台,是國家語委重大基礎資源建設項目“通用漢字全息資料庫建設”的標誌性成果。
2019年1月11日,“漢字全息資源套用系統”發布會在北京師範大學舉行。發布會上,北師大資深教授王寧、項目主持人王立軍教授、文學院康震教授與劉宏副司長共同啟動系統上線。
基本介紹
- 中文名:漢字全息資源套用系統
- 發布日期:2019年1月11日
- 發布地點:北京師範大學
- 項目來源:國家語委
研製過程,系統構成,系統特點,系統字集,系統處理,檢索方式,平台作用,
研製過程
團隊從20世紀90年代開始總結漢字的屬性,由王寧領銜的專家團隊,在繼承章黃學術精髓的基礎上不斷創新,發展出“漢字構形學”和“漢語辭彙語義學”等前沿學術理論。特別是“漢字構形學”的相關理論,使紛繁複雜的文字現象變得井然有序。除形、音、義之外,還增加碼、用兩個部分。碼是漢字在計算機中的編碼,用是漢字的使用,而且做了大量的屬性細化研究,這樣就有條件將籠統的漢字個體的資源庫,改造為漢字的屬性庫,解決關聯的多角度問題。
其次是層次的確立,根據‘漢字效用遞減率’,將漢字分為常用-通用-適用-罕用-無用5個層。第一、二層次涵蓋36000字,以外的字只存記憶,不做深度開發,這樣一方面可以在套用中擴大有用信息的使用度,另一方面將垃圾信息、無用信息退出關聯,不干擾有效信息的集合和調用。
再次就是中介的尋求,繼承傳統語言學的研究成果,以《說文解字》的9353個小篆及其重文為中介來關聯。古文字的確切識讀,絕大部分是從《說文》開始的,這樣就保證了不同形制、不同字型、不同時代漢字的最大限度關聯。
系統構成
“漢字全息資源套用系統”系統結構分為深層結構和表層結構兩級模式;同時包括四大模組,即單字檢索、綜合檢索、專書檢索和歷代字形檢索,可滿足“以字查息”和“以息查字”兩種不同檢索需求,還提供專業化程度極高的形、音、義三重系聯功能。
系統特點
快捷、權威、形象——準確查找一個難檢字的相關信息再不用跑遍古籍閱覽室,翻便“大部頭”,只需輕點滑鼠——登錄漢字全息資源套用系統,點擊現代通用字集,搜尋要查找的字,不僅能夠顯示其現代字形、字音、字義信息,還可以查到該字從甲骨文、金文到篆書、楷書的歷史字形演變過程,從《說文》、《爾雅》、《方言》、《釋名》一直到《康熙字典》等歷代辭書對該字的釋義,及其在一些常用古籍文獻中被使用的情況。
系統採用的多層級字集設計模式,包括常用字集、現代通用字集、古籍印刷通用字集、全字元集等。常用字集可以滿足中國小基礎教育領域的一般需要;現代通用字集可以滿足社會文化領域一般漢字使用者的需要;古籍印刷通用字集面向具備一定古漢語知識、閱讀一般古籍文獻的用戶;全字元集則可以滿足漢字研究的專業人士需求,為專業研究提供支撐。
系統字集
系統涵蓋字元集4種,其中常用字集3500字,通用規範字8105字,古籍印刷字16490字,全字元集81722字;還有辭書20種,古籍文獻60種,歷代字形圖415675個。其中包括大量的圖形信息資源和文本信息資源,分別來自古文字拓片、文字編、規範字表、編碼字元集、歷代辭書、經典文獻、中國小語文教材等,涵蓋了古今各個時期文字的形、音、義、用、碼五大方面的重要信息。
系統的主體字集是國家語委2013年公布的《通用規範漢字表》的8105個規範漢字及其關聯字形。《通用規範漢字表》屬於簡化字系統,分為一級字表(即常用字表,3500字)、二級字表(3000字)、三級字表(1605字)。《通用規範漢字表》作為資料庫子庫的B庫,直接和A庫(傳承字、繁體字和隸定字)關聯,進而與小篆等古文字(C庫)關聯,從而實現了古今、簡繁漢字的有效貫通。
系統處理
系統的處理方法是:選取歷代具有代表性的辭書,並選擇最優的版本作為搭建框架的基礎素材,以此為基礎建構數據之間的深度關聯。選擇的辭書包括從《爾雅》、《說文》、《釋名》、《方言》、《廣韻》、《集韻》、《康熙字典》、《漢語大字典》、《新華字典》和《通用規範漢字字典》等。在字形方面,簡化字的部首採用2009年國家語委發布的《漢字部首表》,即201個主形部首和99個附形部首,非簡化字採用214部首體系,來源於《康熙字典》。簡化字和繁體字的筆畫數屬性參考《通用規範漢字字典》等。結構類型(六書)屬性參考《說文解字》。字音方面,現代漢語拼音和注音字母主要參考《通用規範漢字字典》和民國時期《國語辭典》等;近代音來源於《中原音韻》;中古音來源於《廣韻》。字義方面,常用義項來源於《通用規範漢字字典》,並給出歷代辭書的釋義內容。
在每個字的“用例”一欄,系統選取具有代表性的傳世文獻作為古籍用例的來源,包括十三經、二十五史、二十二子等三大典籍系統,提取漢字在這些文獻中的使用例句,供研究者參考使用。
檢索方式
與查字典類似,為方便使用者更便捷地輸入需要檢索的字,系統提供了單字、拼音、部首、部件、筆畫等五種可輸入的檢索方式,使用者可以根據自己的喜好和需求,選取適合自己的方式。除單字檢索外,還可以滿足綜合檢索、專書檢索和歷代字形檢索。
平台作用
資源庫可作為文字和文化愛好者提高文化知識和綜合素養的學習平台,為傳統文化愛好者提供權威的學習內容;可以作為基礎教育及漢語國際教育領域的教學平台,為學生學習、教師備課提供豐富的教學資源,從而更好地服務中國基礎教育;可作為文字學及相關專業領域專家學者的科研平台,為專家學者提供對數據資源進行深度挖掘的工具,彌補傳統手工獲取資源、聯繫資源方式的局限;可作為漢字類數位化產品的開發平台。