龍語瀚堂典籍資料庫,2010年起改名為“瀚堂典藏資料庫”,採用基於七萬漢字 Unicode 四位元組編碼和自然語言全文檢索的通用瀏覽器模式的典籍資料庫。《瀚堂典藏》古籍資料庫以精準校對的國小工具(文字、音韻、訓詁)、古代類書、出土文獻類數據為基礎,大量納入包括經史子集,以及中醫藥典籍、古典戲曲、敦煌文獻、儒、釋、道等歷代傳世文獻,以及大型叢書、史書、方誌、民國報刊等,涵蓋文史哲等專業的教學和研究工作中所套用到的專業古籍文獻數據。至 2010 年,《瀚堂典藏》精細加工入庫的圖書種類已達萬餘種,圖片數量 1200 多萬張,文字總量超過 17 億字,可在通用瀏覽器條件下,利用專利認證的超高速檢索引擎全文跨庫檢索和連續圖文對照閱讀的記錄條目數 1500 萬條以上,總量並持續定期增加中。
傳統的計算機二位元組編碼技術只能處理2萬多個漢字,對大量的生僻字、俗體字、異體字、通假字、避諱字和多語種文字無能為力,並沒有從根本上解決漢字數位化、網路化的問題。採用Unicode四位元組編碼技術的“瀚堂典籍資料庫”,從根本上徹底突破了古籍整理和研究中生僻漢字數位化的瓶頸,完善了漢字信息網路化的平台,開創性地實現了所有漢字及多語種文獻的數位化,從而結束了歷史文獻和出土文獻研究手工抄寫、圖片替代、生硬造字的歷史,也標誌著計算機漢字處理開始進入到了四位元組字元的領域。
瀚堂典藏資料庫以精準校對的國小工具類數據、出土文獻類數據為基礎,陸續納入包括儒、釋、道的各類傳世文獻,未來將在龐大的數據支持下,根據不同專業領域對特定數據的學術需求,從而提供更具針對性的專題文獻類數據。同時在此基礎上,嘗試蒙、藏等少數民族及基於UNICODE多語種文獻的信息處理和檢索技術,從而納入更廣泛資源。
瀚堂典籍資料庫所搭建的國學研究數位化平台,所有生僻漢字可在微軟平台上自由編輯,不但徹底的解決了造字的繁瑣,極大提高工作效率,更便於學術成果在全球範圍內的廣泛傳播。資料庫所獨有的“知識鏈”特點使未來研究會延伸出更加獨特的角度和發掘出更多的研究領域。
1:獨特的內容規劃
瀚堂典藏資料庫採用四位元組編碼技術,以國小工具類數據和出土文獻類數據為核心,逐步納入大量傳世文獻,並以此為基礎,建設各種專題文獻。
國小工具類數據由於高達5%的生僻字頻率,歷來是各種古籍數位化工作不得不有意繞開的“雷區”。瀚堂典藏資料庫的國小工具類數據涵蓋大部分重要國小類典籍和類書類書籍,並以囊括所有國小書籍和大型類書為己任。該部分數據是國學研究的基礎性工具數據。
出土文獻類數據涵蓋大量甲骨文、金文、簡帛文、印章、石刻等出土文獻資料。提供器物照片、線圖、拓片、釋文等內容。該部分數據將是史學各領域研究的基礎性數據。
逐步納入的傳世文獻包括儒、釋、道的典籍文獻,力圖呈現中國文化的輪廓性數據。
2:具有在通用瀏覽器上自由編輯和瀏覽的功能
採用B/S模式的“龍語瀚堂典籍資料庫”,無需下載任何客戶端,即可在通用瀏覽器上
進行閱讀和編輯。由於該資料庫採用四位元組編碼技術,徹底解決這些四位元組漢字在計算機平台上的錄入、顯示、編輯、檢索、查詢和管理。全庫無造字,所有文字可以自如的在MS-office上進行複製、貼上和通過網際網路進行廣泛發布。
3:獨有的四位元組自然語言全文檢索技術
相對於基於二位元組字元系統的(即UCS-2)的網際網路全文檢索,“瀚堂典籍資料庫”支持四位元組字元(即UCS-4)、基於網際網路的自然語言海量文本全文超高速檢索系統。該引擎可以從海量的含有UCS-4字元的文本中在毫秒量級內進行信息抽取。
4:眾多專利技術形成對核心技術的專利保護
由於在四個位元組字元方面擁有的核心技術和專利,和對含有四位元組漢字內容的著作權群,形成了對以UCS-2為技術核心的古籍資料庫及其它檢索網站的戰略優勢,為其主導甚至全球範圍的網路檢索領域的發展、建構領先的超級知識庫提供堅實的技術保證。
經、史、子、集各部集成
資料庫按照傳統分類的“經部”、“史部”、“子部”、“集部”,分別設有經部文獻集成、史部文獻集成、子部文獻集成、集部文獻集成,收錄並呈現中國歷代傳世文獻的輪廓化數位化資源。
經部集成,下收國小類、四部叢刊經部、四庫全書經部、皇清經解、十三經等相關子目。其中國小工具類數據還分為文字、音韻、訓詁、異體字字典、UNICODE字典、中國文字等。
史部集成下有二十四史和清史稿、紀事本末、史料筆記等子目。
子部集成下除四部叢刊子部、四庫全書子部外,還設有類書、中醫藥文獻、佛教典籍、道教典籍等專題子目。
集部集成下,設詩文總集、詩文別集、文學評論、古典小說、古典戲曲等專題子目。
專題文獻類數據
專題文獻類數據以提供更具學科針對性的研究性數據為特點。截至2014年,下設“書目”、“大家書房”、“台灣文獻”、“漢譯世界名著”、“出土文獻”、“敦煌文獻”幾個子目。
出土文獻類數據分為甲骨文、金文·青銅器、簡帛、印章、錢幣、石刻等六大部分。該部分數據涵蓋甲骨文、金文、簡帛文、印章、石刻等文獻資料。未來陸續供器物的照片、線圖、物理數據、拓片、釋文等內容。為文史領域研究人員提供儘可能全的考古文獻資料。