漢語句義結構標註語料庫

漢語句義結構標註語料庫

句義結構分析是漢語語義分析中不可逾越的重要環節,為了滿足漢語句義結構分析的需要,北京森林工作室(BFS)基於現代漢語語義學理論構建了一種層次化的漢語句義結構模型,定義了標註規範和標記形式,建設了一個漢語句義結構標註語料庫BFS-CTC(Beijing Forest Studio – Chinese Tagged Corpus)。

基本介紹

  • 中文名:漢語句義結構標註語料庫
標註內容方面,組織結構方面,來源規模方面,功能研究,

標註內容方面

基於句義結構模型的定義標註了句義結構句型層、描述層、對象層和細節層中所包含的各個要素及其組合關係,包括句義類型、謂詞及其時態、語義格類型等信息,並且提供了詞法和短語結構句法信息,便於詞法、句法、句義的對照分析研究。

組織結構方面

該語料庫包括四個部分,即原始句子庫、詞法標註庫、句法標註庫和句義結構標註庫,可根據研究的需要,在詞法、句法、句義結構標註的基礎上進行深加工,在核心標註庫的基礎上添加更多具有針對性的擴展標註庫,利用句子的唯一ID號進行識別和使用。

來源規模方面

原始數據全部來自新聞語料,經過人工收集、整理,合理覆蓋了主謂句、非主謂句、把字句等六種主要句式類型,規模已達到50000句。

功能研究

BFS-CTC基於現代漢語語義學,提供了多層次的句義結構標註信息,在兼容現有標註規範的情況下進行了詞法和語法標註。BFS標註的詞法、句法及句義既可以單獨使用也可綜合使用,可用於自然語言處理多方面的研究。
為共同推動漢語語義分析的研究和發展,北京森林工作室(BFS)從2013年4月15日起對外開放下載3,000句句義結構標註示例,更多句義結構標註語料可向BFS申請後免費使用。句義結構的基本形式如下圖所示:
漢語句義結構標註示例漢語句義結構標註示例

相關詞條

熱門詞條

聯絡我們