基於動態流通語料庫的漢語熟語單位研究

圖書信息

出版社: 北京語言大學出版社; 第1版 (2009年6月1日)

平裝: 270頁

正文語種: 簡體中文

開本: 16

ISBN: 9787561923108

條形碼: 9787561923108

尺寸: 22.6 x 15.4 x 1.8 cm

重量: 422 g

作者簡介

楊建國，北京語言大學首都國際文化研究基地副研究員，碩士研究生導師。主要研究方向為語言學及套用語言學、漢語文化教育等，已發表語言、文化及教育類論文30餘篇。曾參與編寫《四庫大辭典》《中國傳統文化》等工具書及教材。

內容簡介

《基於動態流通語料庫的漢語熟語單位研究》基於漢語詞典學界和中文信息處理界重“詞”輕“語”的現象，對詞組研究、熟語研究進行了反思，提出“熟語單位”(IdiomUnit，IU)的概念。所謂“熟語單位”，就是“結合緊密，使用穩定”、功能相當於熟語的結構單位，是符合人的認知規律並被人們經常當做一個詞來使用的定型化了的固定短語或凝固表達式。我們判別IU的三條原則為：是否“結合緊密，使用穩定”；是否符合人們的認知規律(IU的長度一般為7±2)；流通度是否達到一定的閾值。IU理論上包括一切具有熟語性的詞語組合單位。《基於動態流通語料庫的漢語熟語單位研究》討論的IU範圍包括三字格中的慣用語和像“差不多、靠不住、來不及”這樣介於詞和短語之間的結構串，四字格中的成語和新固定短語，簡稱略語、插入語和字母詞語等。

本研究選用的是《人民日報》2001-2003年三年的文本，約8000萬字。文章以動態語言知識更新理論為指導，以流通度理論為基礎，以年平均流通度閾值(0.5)作為主要篩選依據，運用規則和統計相結合的方法對“熟語單位”(IU)進行了初步的提取研究，並對部分提取結果的噪聲環境作了定量與定性分析。

對於IU的提取，我們採取的策略和基本步驟是：

(1)利用點號和“的、是、在、和、了、有”等高頻詞(字)將文本化短；自動提取時犧牲包含切分點的字元串，該部分字元串另行補救。

(2)數據格式轉換。將切分得到的形式上“完整”的2-8字串轉為資料庫格式。

(3)統計3-5字串的頻度、散布度和流通度。

(4)用字元串全年的平均流通度閾值進行篩選。

(5)對五音節(含)以上字串進行分詞並加以詞性標註，對其中的3字串、4字串和符合“N+N”、“N+V”、“V+N”、“V+V”等語法組合規則的相鄰字元串(二元組)進行抽取；再對抽取的字元串重複上面的第(3)和第(4)步。

(6)對篩選得到的字元串進行噪聲剔除，全部進行重新切分並加以詞性標註，然後運用靜態規則模板(共30條規則)再次過濾。

(7)藉助輔助手段對熟語單位進行直接抽取。

(8)得到三至五字格熟語單位表(約13500條)。

基於動態流通語料庫的漢語熟語單位研究

基本介紹

圖書信息

作者簡介

內容簡介

目錄

相關詞條

熱門詞條