語料庫語言學-工具與案例

語料庫語言學-工具與案例

《語料庫語言學-工具與案例》是2020年外語教學與研究出版社出版的圖書。作者是劉華。本書基於真實問卷調查數據分析,符合漢語研究的各項需求,特別是貼合了漢語研究者文科生的動手特點,軟體架構、界面設計和編碼清晰簡潔,將複雜的統計、計算過程隱藏於後台,前端一鍵式、步驟式操作,簡單易用。

基本介紹

  • 書名:語料庫語言學-工具與案例
  • 作者:劉華
  • 出版社:外語教學與研究出版社
  • ISBN:9787521322835
內容簡介,圖書目錄,作者簡介,

內容簡介

"漢語助研"是作者自主開發的,面向語言研究者,特別是漢語和漢語教學研究者的一款軟體。軟體力圖幫助語言研究者比較輕鬆地建設語料庫,使用語言大數據進行語言研究。漢語助研系統是國內外一個全面綜合了語料庫建設、檢索和統計功能的輔助漢語研究的軟體系統,集成了基於語料庫方法的漢語字、詞、句、篇研究的各項輔助功能,系統能很好地貼合漢語研究各方面的統計需求,功能針對性、實用性強。
漢語助研系統基於真實問卷調查數據分析,符合漢語研究的各項需求,特別是貼合了漢語研究者文科生的動手特點,軟體架構、界面設計和編碼清晰簡潔,將複雜的統計、計算過程隱藏於後台,前端一鍵式、步驟式操作,簡單易用。

圖書目錄

理論篇
1 語料庫語言學概述 / 2
1.1 語料庫語言學的學科基礎 / 2
1.1.1 語料庫語言學的產生原因 / 2
1.1.2 語料庫語言學的理論基礎 / 2
1.2 語料庫的定義、特點與分類 / 3
1.2.1 語料庫的定義 / 3
1.2.2 語料庫的特點 / 4
1.2.3 語料庫的分類 / 5
1.3 語料庫語言學的定義 / 6
1.3.1 前人論述 / 6
1.3.2 語料庫語言學定義 / 7
1.4 語料庫語言學的研究內容與方法 / 8
1.4.1 語料庫語言學的研究內容 / 8
1.4.2 語料庫語言學的研究方法 / 8
2 語料庫的建設 / 10
2.1 概述 / 10
2.1.1 語料庫建設的基本過程 / 10
2.1.2 語料庫建設面臨的問題 / 10
2.2 語料庫建設的原則和規範 / 11
2.2.1 語料庫總的建設原則 / 11
2.2.2 語料庫的不規範性 / 12
2.3 語料庫建設的平衡性與代表性 / 13
2.3.1 規模、語體、時間與空間 / 13
2.3.2 流通度 / 15
2.4 語料庫建設的元數據與信息欄位 / 19
2.4.1 元數據 / 19
2.4.2 信息欄位 / 23
2.4.3 元數據、信息欄位舉例 / 24
2.5 語料庫建設方法 / 27
2.5.1 總體設計 / 27
2.5.2 具體實施 / 27
3 語料庫的加工標註 / 31
3.1 中文自動分詞 / 32
3.1.1 詞與自動分詞 / 32
3.1.2 中文分詞的特點和難點 / 32
3.1.3 常見的中文分詞方法 / 34
3.2 中文詞性標註 / 35
3.2.1 詞性、詞類與詞性標註 / 35
3.2.2 詞性標註難點 / 35
3.2.3 常見詞性標註方法 / 36
3.3 自動句法分析 / 37
3.3.1 概述 / 37
3.3.2 句法分析分類 / 38
3.3.3 依存句法分析 / 39
3.4 語義分析 / 41
3.4.1 詞語級語義分析 / 41
3.4.2 句子級語義分析 / 43
3.4.3 篇章級語義分析 / 44
4 術語說明 / 46
4.1 頻次 頻率 文本數 / 46
4.1.1 頻次 / 46
4.1.2 頻率 / 46
4.1.3 文本數 / 46
4.2 累加頻率 覆蓋率 使用率 高頻詞語 / 47
4.2.1 累加頻率 / 47
4.2.2 覆蓋率 / 47
4.2.3 使用率 / 47
4.2.4 高頻詞語 / 48
4.3 頻序 頻序比 頻率差 / 48
4.3.1 頻序 / 48
4.3.2 頻序比 / 48
4.3.3 頻率差 / 49
4.4 字種 字種數 詞種 詞種數 / 49
4.4.1 字種 / 49
4.4.2 字種數 / 49
4.4.3 詞種 / 49
4.4.4 詞種數 / 49
4.5 共用 獨用 / 50
4.5.1 共用 / 50
4.5.2 獨用 / 50
工具篇
5 網頁批量下載 / 52
5.1 具有數字序列規律的網頁下載 / 52
5.1.1 搜尋網頁 / 52
5.1.2 批量生成網址 / 54
5.1.3 創建工程 / 55
5.1.4 運行工程 / 57
5.2 具有時間序列規律的網頁下載 / 58
5.3 無數字、無日期序列的規律網頁下載 / 59
5.4 無任何規律網頁的批量下載 / 60
6 網頁信息抽取建庫 / 65
6.1 網頁內容解析原理 / 65
6.2 程式操作圖示 / 67
6.2.1 打開待處理html 資料夾 / 67
6.2.2 展示待處理html 檔案的文本內容 / 68
6.2.3 選擇抽取欄位的起止標記 / 69
6.2.4 選擇抽取結果保存的資料夾和檔案名稱 / 70
6.2.5 檢查所有網頁的抽取起止標記是否正確 / 71
6.3 語料庫結果展示 / 71
7 例句檢索 / 73
7.1 程式操作圖示 / 73
7.1.1 打開、保存資料夾 / 73
7.1.2 選擇檢索模式 / 73
7.1.3 單擊運行程式 / 74
7.2 檢索結果展示 / 74
8 例句分析 / 75
8.1 程式操作圖示 / 75
8.1.1 檢索語料例句 / 75
8.1.2 打開、保存資料夾 / 75
8.1.3 選擇例句集來源、輸入前後標記 / 76
8.1.4 單擊運行程式 / 76
8.2 統計結果展示 / 77
9 用字統計分析 / 78
9.1 程式操作圖示 / 78
9.1.1 打開語料庫資料夾 / 78
9.1.2 設定保存結果資料夾及名稱 / 79
9.1.3 運行統計功能 / 80
9.2 統計結果展示 / 81
9.2.1 總的漢字使用的摘要報告 / 81
9.2.2 漢字分類使用情況 / 81
9.2.3 標點符號和漢字部件的使用情況 / 82
9.2.4 漢字字表的覆蓋率情況 / 83
9.2.5 不同排序方式的字表 / 83
9.2.6 與其他字表對比的數據 / 85
10 用詞用語統計分析 / 86
10.1 程式操作圖示 / 86
10.2 統計結果展示 / 86
10.2.1 基本詞語表 / 86
10.2.2 頻次與詞種數 / 87
10.2.3 高頻詞語用字統計 / 87
10.2.4 高頻詞語詞長統計 / 88
10.2.5 覆蓋率與詞種數關係 / 88
10.2.6 詞性及其頻次的統計結果 / 89
10.2.7 詞性及其詞種數的統計結果 / 89
10.2.8 成語使用結果 / 89
10.2.9 與《漢語水平辭彙與漢字等級大綱》(辭彙大綱)對比 / 90
11 字詞表對比分析 / 91
11.1 程式操作圖示 / 91
11.1.1 選擇對比項目和參數 / 91
11.1.2 打開、保存資料夾 / 91
11.1.3 單擊運行程式 / 92
11.2 統計結果展示 / 92
11.2.1 頻率差結果 / 92
11.2.2 頻序比結果 / 93
11.2.3 共獨用結果 / 94
12 字詞表分布分析 / 95
12.1 程式操作圖示 / 95
12.1.1 選擇分布計算的大綱和項目 / 95
12.1.2 打開、保存資料夾 / 96
12.1.3 單擊運行程式 / 96
12.2 統計結果展示 / 97
12.2.1 在《等級大綱》中的分布 / 97
12.2.2 在《新漢語水平考試大綱》中的分布 / 97
13 詞語搭配抽取及分析 / 98
13.1 搭配抽取 / 99
13.1.1 程式操作圖示 / 99
13.1.2 統計結果展示 / 99
13.2 搭配過濾 / 101
13.2.1 程式操作圖示 / 101
13.3 搭配分析 / 102
13.3.1 程式操作圖示 / 102
13.3.2 統計結果展示 / 102
14 詞語按主題聚類 / 104
14.1 程式操作圖示 / 104
14.1.1 打開、保存資料夾 / 104
14.1.2 選擇聚類的底表和詞語數 / 105
14.1.3 單擊運行程式 / 105
14.2 統計結果展示 / 105
15 篇章風格統計分析 / 107
15.1 程式操作圖示 / 108
15.1.1 打開、保存資料夾 / 108
15.1.2 輸入特定字詞 / 108
15.1.3 單擊運行程式 / 108
15.2 統計結果展示 / 109
案例篇
16 國際漢語教學語料庫建設 / 112
16.1 漢語口語教學語料庫 / 112
16.1.1 話題庫建設 / 112
16.1.2 話題分類、難度分級的常用會話資源庫 / 113
16.2 商務漢語教材語料庫 / 114
16.2.1 商務漢語教材語料庫 / 114
16.2.2 商務漢語功能項目庫 / 114
16.2.3 商務漢語功能項目分類語料庫 / 115
16.3 中國小華文教材語料庫 / 116
16.4 少兒漢語教材語料庫 / 117
16.4.1 主題庫 / 117
16.4.2 教材語料庫 / 117
16.4.3 主題分類語料庫 / 118
16.5 旅遊漢語教材語料庫 / 118
16.5.1 旅遊漢語教材語料庫 / 118
16.5.2 旅遊漢語話題分類語料庫 / 118
17 全球華語語料庫建設及功能研究 / 120
17.1 全球華語語料庫建設的必要性和意義 / 120
17.2 全球華語語料庫建設 / 122
17.2.1 語料庫建設的基本原則 / 122
17.2.2 語料來源與獲取方法 / 124
17.2.3 語料庫構成及比例 / 125
17.2.4 語料庫信息欄位及存儲格式 / 126
17.3 全球華語語料庫深加工 / 127
17.3.1 選取核心庫 / 127
17.3.2 分詞標註詞性、人工校對 / 128
17.3.3 基本字詞信息統計 / 128
17.3.4 音視頻資源標註處理 / 128
17.3.5 華裔學習者作文和口語語料庫偏誤標註 / 129
17.4 全球華語語料庫網路服務平台介紹 / 129
17.4.1 子語料庫定製系統 / 129
17.4.2 網路版字詞檢索系統 / 129
17.4.3 網路版全文例句檢索系統 / 129
17.4.4 音視頻資源點播系統 / 130
17.5 結語 / 130
18 東南亞國小華文教材課文用字研究 / 132
18.1 語料和調查對象說明 / 132
18.2 各教材課文用字基本情況 / 133
18.2.1 字次與字種數 / 134
18.2.2 各教材前100 字共用獨用情況 / 134
18.2.3 各教材課文用字在《等級大綱》(漢字大綱)中的分布
情況 / 136
18.2.4 新加坡兩套教材課文用字對比 / 138
18.2.5 越南、泰國、印尼五套教材課文用字對比 / 139
18.3 各教材課文用字分年級情況 / 140
18.3.1 各教材分年級字次和字種數基本情況 / 140
18.3.2 分年級課文用字的《等級大綱》(漢字大綱)分布情況 / 142
18.3.3 課文用字字種數按年級增量情況 / 144
18.4 東南亞國小華文教材和中國國小語文教材課文用字對比 / 145
18.4.1 基本情況 / 146
18.4.2 分段的共用獨用調查 / 147
18.4.3 基於頻序比的漢字使用對比分析 / 149
19 東南亞國小華文教材課文用詞研究 / 151
19.1 馬來西亞《華文》教材課文用詞調查 / 151
19.1.1 基本情況 / 151
19.1.2 頻次與詞種數的關係 / 151
19.1.3 詞語的覆蓋率 / 152
19.1.4 高頻詞的詞長分布 / 154
19.1.5 成語調查 / 155
19.1.6 課文用詞與《等級劃分》(辭彙大綱)的比較 / 159
19.1.7 課文用詞按年級統計情況 / 160
19.2 馬來西亞《華文》教材課文用詞與國小《語文》對比 / 161
19.2.1 基本情況 / 161
19.2.2 頻次與詞種數的關係對比 / 162
19.2.3 詞語的覆蓋率對比 / 163
19.2.4 高頻詞的詞長分布 / 166
19.2.5 成語的對比分析 / 167
19.2.6 按年級對比馬-《華文》與人教《語文》課文用
詞情況 / 168
19.2.7 高頻詞的頻序比 / 170
19.3 東南亞不同層次國小華文教材對比 / 171
19.3.1 各層級教材課文用詞基本情況對比 / 172
19.3.2 各層級教材課文用詞按年級統計情況 / 178
19.3.3 各層級教材課文用詞與《等級劃分》(辭彙大綱)的比
較 / 187
19.4 結語 / 191
20 少兒漢語話題及話題詞表構建 / 194
20.1 術語及語料庫介紹 / 195
20.1.1 話題詞表、話題種子詞 / 195
20.1.2 詞語聚類 / 195
20.1.3 話題詞語、話題通用詞、話題專類詞 / 196
20.1.4 相關語料 / 196
20.2 少兒漢語話題與話題庫的構建 / 199
20.3 少兒漢語話題詞表的構建標準與方法 / 203
20.3.1 少兒漢語話題詞表的構建理論 / 203
20.3.2 少兒漢語話題詞表的選詞標準 / 205
20.3.3 少兒漢語話題詞表的分類 / 205
20.3.4 話題詞表的構建方法 / 207

作者簡介

劉華,男,1975年生,博士,英國謝菲爾德大學訪問學者,暨南大學教授、暨南傑青、博士生導師、博士後合作導師,廣東省"千百十"省級培養對象,國家語委語言文字套用研究優秀中青年學者,北京成像技術高精尖創新中心(首都師範大學)、北京語言資源高精尖創新中心(北京語言大學)兼職研究員。

相關詞條

熱門詞條

聯絡我們