研究所簡介
北京大學計算語言學研究所 簡稱:北大計算語言所 英文名稱:Institute of Computational Linguistics (ICL), Peking University;研究所成立18年來所取得的一系列成果在國內外學術界和產業界產生了廣泛的影響並取得顯著的效益,2004年研究所工作人員包括在職研究人員和博士後研究人員18名,其中14名有博士學位、教授4名、副教授6名,同時還有在讀博士和碩士研究生30多名、本科實習生10餘名。
著名語言學家、前北京大學副校長朱德熙先生擔任了研究所第一任所長。計算機系俞士汶教授長期擔任了研究所常務副所長,中文系陸儉明教任所副所長。計算語言研究所掛靠在北京大學信息科學技術學院,現任所長由北大信息與工程科學學部主任、中國科學院院士楊芙清教授兼任;日常工作由常務副所長孫斌博士、副所長王厚峰博士和副所長
詹衛東博士(中文系)負責。研究的主要的方向
基礎資源的研究與建設
計算詞典學與機器詞典,綜合型語言知識庫,語料庫語言學與語料庫加工技術,術語學、術語自動提取、術語標準化研究等。
基礎理論、NLP的模型和方法
計算語言學基礎,自然語言處理核心技術,現代漢語語法,漢語的詞/句法/語義分析,NLP統計模型,語言處理的資訊理論方法等。
基礎套用技術
機器翻譯的方法、技術與系統實現,信息檢索與提取,自然語言信息處理系統的評價方法和技術,受限漢語及其輔助寫作系統,中國古詩詞計算機輔助研究等。
重點研究課題
■語言模型與分析技術
■語料庫語言學
■信息檢索與提取的模型與系統
■計算語義學
■自然語言處理系統評價技術
■計算詞典學
■機器翻譯的理論、技術與系統實現
■術語學與術語標準化
■中國古詩詞計算機輔助研究
■受限漢語及其輔助寫作系統
計算語言學研究所在計算機系開設了《計算語言學》、《自然語言處理技術》等研究生課程,出版教材《計算語言學概論》。已培養獲得博士學位研究生10名、獲得碩士學位的研究生10餘名、博士後工作人員近10名,接待國外訪問學者3名,國內訪問學者7名。
研究所承擔和完成的項目包括國家重點基礎研究發展規劃(973)項目、國家高技術研究發展計畫(863)、國家自然科學基金項目、教育部教專項資助項目、國家社科研究規劃項目、國家語言文字套用研究科研項目、國家質檢局中國標準研究院項目、大百科全書出版社合作項目、IBM-北大創新研究院項目以及北大985項目等三十多項。
科研成果
■綜合型語言知識庫(包括:現代漢語語法信息詞典、大規模標註語料庫、面向機器翻譯的語義詞典和面向信息檢索與信息提取的中文概念詞典等)已初具規模,在語言信息處理界發揮了作用。
■中文自動切分與詞性標註、中文自動注音、漢英機器翻譯(合作)、古詩詞計算機輔助研究和中文信息提取等工具軟體或套用系統有一定影響。已經取得了屬於國家科技攻關、國家自然科學基金、“863”高技術項目的“機器翻譯譯文質量評估軟體”、“日漢機器翻譯系統”(合作)、“機器翻譯與自然語言處理的自動評價”等成果。
■計算語言所的科究成果獲得政府部委級與北京大學的多項獎勵,部分成果已傳播到世界各地,如美國、日本、德國、法國、韓國、新加坡、瑞典以及香港、台灣和內地等。Microsoft、IBM、Xerox、Intel、Fujitsu、NTT、松下、Saillabs、Enpia、佳能、東芝、NEC、青鳥、聯想、北佳等50餘家國內外大公司和研究機構從北大購買了科研成果許可使用權,或者同北大計算語言所共享合作研究成果。
■北大計算語言學研究所同國內主要研究機構以及港、台、新加坡、歐美等地區的大學和公司建立了廣泛密切的學術聯繫,已成為具有廣泛影響的語言信息處理研究基地。
自然語言信息處理研究任重道遠。北大計算語言所正努力進行資源、理論和套用方面的探索,尋找發展契機和突破口,並堅持理論探討同大規模語言工程實踐相結合,強調語言知識表示的整體性和理論套用的針對性。北大計算語言所兼收並蓄國內外計算語言學研究的新思想與新方法,並緊密結合漢語的特點提出適合漢語信息處理的綜合型語言知識庫的構建計畫。北京大學計算語言學研究所期望與同行一道攻關,密切協作,把語言信息處理研究推向新的高峰。