《統計語言學》是清華大學出版社2014年出版的,作者是劉穎
基本介紹
- 書名:統計語言學
- 又名:statistical linguistics
- 作者:劉穎
- ISBN:9787302378150
- 定價:56
- 出版社:清華大學出版社
- 出版時間:2014.09.01
- 裝幀:平裝
- 定義:數理語言學的一個分支
- 中文名:統計語言學
- 研究領域:統計語言單位的出現頻率
編輯推薦,研究領域,發展歷史,主要研究價值,圖書簡介,圖書目錄,
編輯推薦
研究領域
統計語言學的研究領域目前主要包括以下幾個方面:
②統計作家的用詞頻率、詞長分布和句長分布,以了解作家運用語言的風格;用這種方法還可判定匿名文章的作者。
④採用資訊理論方法研究語言的熵和羨餘度。語言的熵就是在交際過程中語言符號出現的不定度。不定度的大小與語言的熵的高低一致。當語言的接收者接收到語言符號之後,不定度被消除,熵等於零,因而在交際過程中,語言接收者所得到的信息量恰恰等於被消除的熵。語言的羨餘度是指語言中超過傳遞最少需要量的信息量的比例,在一般情況下,人們為了保證對方能夠理解,總是提供比實際需要多得多的信息量,因此,不論在書面語還是口語中,語言都有羨餘度。
⑤探討語言的一般統計規律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號越大,詞的頻率越小,序號與頻率之間的關係可以用數學公式描述為一定的統計規律,這個統計規律叫做齊夫定律,因其研究者之一、美國語文學家G.K.齊夫而得名。 ⑥運用隨機過程論來研究語言,把語言看成彼此聯繫的字母序列,前一個字母決定後一個字母的出現,於是形成一條字母鏈,叫做馬爾科夫鏈,因其最早的研究者俄國數學家A.A.馬爾科夫而得名。
⑦研究文章中兩個詞之間、兩個語法範疇之間、兩個語義類之間或兩個句法類型之間的間距,以揭示文章在句法或語義上的特徵。
⑧研究語言的辭彙與文章長度的關係,以揭示文章中辭彙的豐富程度和差異程度。
發展歷史
統計語言學在數理語言學中有比較悠久的歷史。古印度語法學家在研究《吠陀》時,就進行過單詞和音節數目的統計。1851年,英國數學家A.德·摩爾根 (1806~1871) 曾把詞長作為文章風格的一個特徵加以統計研究。蘇格蘭學者L.坎貝爾於1867年、德國學者W.迪丁貝爾格於1881年都曾採用統計方法確定柏拉圖著作的寫作時期。1887年,美國學者T.C.門登霍爾對英國文學作品、特別是莎士比亞的作品進行過統計分析。1913年,馬爾科夫研究了俄語中字母序列的生成問題,提出了馬爾科夫隨機過程論。1935年,齊夫發表了齊夫定律。1944年,英國數學家G.U.尤勒在《文學詞語的統計分析》一書中廣泛使用機率和統計方法來研究語言。1950年,美國學者M.斯瓦德士進行了語言年代學的研究。1951年,美國數學家C.申農採用資訊理論的方法研究書面英語中的熵和羨餘度; 美國學者 V.英格韋對句法現象進行了間距分析。1954年,法國學者P.基羅根據文章中詞的頻率分布提出了辭彙豐富度的概念。1956年,英國學者G.赫爾丹出版了《語言是選擇和機遇》一書,系統總結了統計語言學的研究成果。近30年來,在語言統計中日益廣泛地使用計算機,逐漸改變了傳統的手工查頻、統計的辦法,提高了統計的效率和精度。
主要研究價值
統計語言學主要研究
語言單位的出現頻率
作家的用詞頻率、詞長分布和句長分布,以確定作家的寫作風格
計算語言存在的絕對年代以及親屬語言從共同原始語分化出來的年代
圖書簡介
統計語言學是一門涉及語言學、計算機科學和數學等多門學科的交叉學科,覆蓋面廣。本書詳細闡述語言統計知識、語言統計的R語言實現、統計結果的直觀展示和統計結果的語言分析。主要介紹語言學的基本統計、參數假設檢驗、非參數假設檢驗、方差分析、文本聚類、文本分類和綜合運用這些統計知識的計量風格學研究。
本書結構完整,層次分明,條理清楚。既便於教學,又便於自學。可作為中文、外語、計算機等專業高年級本科生和研究生教材,也可供從事語言統計和計量分析的研究者參考。
本書結構完整,層次分明,條理清楚。既便於教學,又便於自學。可作為中文、外語、計算機等專業高年級本科生和研究生教材,也可供從事語言統計和計量分析的研究者參考。
前言
統計語言學,研究如何利用機率論、數理統計、資訊理論等統計的、非離散數學的方法和計算機來對自然語言進行統計和分析。自然語言是其統計和分析的對象,機率論和數理統計等統計知識是其統計的理論基礎,計算機是其可以實現統計的工具。因此,對語言進行統計不僅要有語言學方面的知識,而且還要有數學和計算機科學方面的知識。
本書分9章,詳細闡述如何把語言學知識、數學知識和計算機知識結合起來對語言進行統計和分析。
第2章主要介紹了語料庫的相關內容。闡述了語料庫的定義、特點,根據不同標準的分類,並對國內外具有重要意義的語料庫、其加工標註和套用進行了詳細介紹。
第3章主要介紹了語言研究中的基本統計量:包括機率論和統計學的一些基本知識,方差、標準差、平均數、頻率、機率,以及互信息、Dice係數、對數似然比、N元模型、漢字熵、Zipf法則、Z評分、Yule圖、Fuchs公式以及詞語的使用度和通用度等等。
第4章主要介紹了在語言研究中廣泛使用的假設檢驗,根據語言研究中的總體是否為常態分配,分為參數假設檢驗與非參數假設檢驗。討論了參數假設檢驗中的U檢驗、t檢驗、F檢驗以及χ2檢驗;非參數假設檢驗中的χ2檢驗以及秩和檢驗。詳細地比較了不同檢驗使用的條件、公式和套用領域。
第8章介紹了在語言研究中經常使用到的一種程式語言——R語言,其具有強大的統計分析功能和繪圖功能。重點介紹了R的基本操作、主要繪圖功能,以及本書中用於語言研究的統計方法的R語言實現。
本書可作為中文、外語、計算機等專業高年級的本科教材,教授時間可為32~64學時。如果學生掌握了語言學知識和基本的統計理論,並能用R語言實現本書介紹的統計模型,則對學生掌握計算機統計自然語言和分析語言打下堅實基礎。
本書在寫作時儘量做到通俗易懂,所有的統計都利用真實的小說語料進行了示例和分析。本書的讀者如果具有一定的機率和統計知識和R語言編程,則能自如地利用本書的統計知識進行語言處理。若在此基礎上還掌握計算機編程知識(資料庫、Java編程或C語言編程),則可容易地擴展本書的現有內容並進行更廣泛的語言統計和分析。
本書的寫作參考了許多學者的論文和著作,本書能夠出版與他們所作的工作緊密相關,謹向他們表示衷心感謝。
由於本人水平和時間限制,本書難免存在疏漏和不足之處。歡迎各位讀者批評指正。
2014年7月15日
圖書目錄
第1章概論
1.1統計語言學
1.2統計語言學與其他學科
1.2.1計量語言學
1.2.2計算語言學
1.2.3語料庫語言學
1.2.4與三個學科的聯繫與區別
1.3使用統計方法研究的語言特徵
1.4統計語言學基本研究方法
1.5統計語言學研究的步驟
1.6統計的語言學套用
第2章語料庫
2.1語料庫的定義
2.2語料庫的類型
2.2.1口語語料庫與書面語語料庫
2.2.2單語語料庫、雙語語料庫與多語語料庫
2.2.3通用語料庫與專用語料庫
2.2.4共時語料庫與歷時語料庫
2.2.5動態語料庫與靜態語料庫
2.2.6同質語料庫與異質語料庫
2.2.7生語料庫與標註語料庫
2.3國內外主要語料庫
2.3.1國外的語料庫
2.3.2國內的語料庫
2.4本章小結
第3章統計在語言研究中的基本套用
3.1統計學的基本概念
3.1.1總體、個體、樣本
3.1.2參數與統計量
3.1.3常量、變數
3.1.4實際值與觀測值
3.2平均數
3.2.1簡單算術平均數
3.2.2加權算術平均數
3.3方差與標準差
3.3.1未分組數據的方差與標準差
3.3.2分組數據的方差與標準差
3.4.1機率論中的常用概念
3.4.2機率
3.4.3獨立性
3.4.4貝葉斯定理
3.4.5頻度與頻率
3.5互信息
3.6 Z評分
3.7Dice係數
3.8Phi平方係數(Φ2)
3.10N元模型
3.10.1N元語法
3.10.2N元語法模型
3.11語言學三大統計規律
3.11.1Zipf法則
3.11.2MenzerathAltmann定律
3.11.3PiotrowskiAltmann定律
3.12熵
3.12.1靜態平均信息熵
3.12.2極限熵
3.13Yule 圖
3.14Fuchs公式
3.15使用度與通用度
3.15.1使用度
3.15.2通用度
3.16本章小結
第4章假設檢驗
4.1假設檢驗的相關概念
4.1.1假設檢驗的基本原理
4.1.2假設的分類
4.1.4雙尾檢驗與單尾檢驗
4.1.5假設檢驗的一般步驟
4.1.6假設檢驗中的兩類錯誤
4.2參數假設檢驗
4.2.1常態分配
4.2.2U檢驗
4.2.3t檢驗
4.2.4χ2檢驗
4.2.5F檢驗
4.2.6參數假設檢驗比較
4.3非參數假設檢驗
4.3.1χ2檢驗
4.3.2秩和檢驗
4.3.3非參數假設檢驗比較
4.4本章小結
第5章方差分析
5.1方差分析的定義及基本思想
5.1.1方差分析的定義
5.1.2方差分析的基本思想
5.2方差分析的基本概念和使用條件
5.2.1方差分析中的基本概念
5.2.2使用方差分析的條件
5.3方差分析的類型和一般步驟
5.3.1方差分析的類型
5.3.2方差分析的一般步驟
5.4單因素方差分析
5.4.1各個因素水平間的樣本容量相同
5.4.2各個因素水平間的樣本容量不完全相同
5.4.3方差分析中的多重比較
5.5雙因素方差分析
5.5.1無重複雙因素方差分析
5.5.2可重複雙因素方差分析
5.6本章小結
第6章文本聚類
6.1文本聚類概述
6.1.1文本聚類定義
6.1.2文本聚類的流程
6.2文本聚類中的數據
6.2.1聚類分析中使用的數據結構
6.2.2數據歸一化處理
6.3相似度計算
6.3.1文本相似度的計算
6.3.2特徵相似度的計算
6.4聚類算法
6.4.1層次聚類
6.4.2劃分聚類
6.4.3劃分聚類與層次聚類的聯繫和區別
6.5文本聚類性能評價
6.5.1純度
6.5.2歸一化互信息
6.5.3精確度
6.5.4F值
6.6本章小結
第7章文本分類
7.1文本分類的定義
7.2分類方法
7.2.1基於知識工程的方法
7.2.2基於機器學習的方法
7.3分類步驟與流程
7.4文本表示與特徵選擇
7.4.1特徵項選擇
7.4.2詞袋模型
7.4.3向量空間模型
7.4.4特徵篩選與權重
7.5向量相似度測量
7.6分類模型
7.6.1樸素貝葉斯(Nave Bayes)
7.6.2k最近鄰(kNearest Neighbor)
7.6.3支持向量機(Support Vector Machines)
7.7文本分類的評價
7.7.1準確率、召回率
7.7.2正確率、錯誤率
7.7.3F值
7.7.4微平均和宏平均
7.8本章小結
第8章R語言簡介
8.1R語言的幫助檔案
8.1.1R的基本知識線上幫助
8.1.2R程式中的關鍵字元及函式的線上幫助
8.2R程式包
8.2.1程式包的安裝
8.2.2程式包的載入
8.3R語言的數據結構及基本函式
8.3.1R語言的對象類型
8.3.2R語言的對象的建立
8.3.3數值型向量的常用統計函式
8.4數據的讀取和存儲
8.4.1數據的讀取
8.4.2數據的存儲
8.5R的基本繪圖
8.5.1餅圖(Pie Plot)
8.5.2條形圖(Barplot)
8.5.3直方圖(Hist)
8.5.4折線圖(Matplot)
8.5.5箱線圖(Boxplot)
8.5.6散點圖(Scatter Diagram)
8.5.7散點圖矩陣(Scatterplot Matrices)
8.6假設檢驗
8.6.1參數假設檢驗
8.6.2非參數假設檢驗
8.7方差分析
8.7.1方差齊性檢驗
8.7.2單因素方差分析
8.7.3雙因素方差分析
8.8本章小結
第9章計算風格學研究
9.1計算風格學研究使用的語言特徵
9.1.1字元方面
9.1.2辭彙方面
9.1.3句子方面
9.1.4詞類方面
9.1.5短語和語法結構方面
9.1.6段落方面
9.2計算風格學研究中常使用的方法
9.3莫言與余華小說計算風格學研究
9.3.1基於頻率的風格分析
9.3.2假設檢驗的文本風格分析
9.3.3基於文本聚類的風格分析
9.3.4基於文本分類的風格分析
9.3.5小結
9.4本章小結
附錄常用的統計數表
附表1標準常態分配函式數值表
附表2正態性檢驗統計量W的係數ai(n)的值
附表3正態性檢驗統計量W的 α分位數Wα表
附表4正態性檢驗統計量Y的α 分位數Yα表
附表5t檢驗臨界值表
附表6χ2檢驗臨界值表
附表7F檢驗臨界值表
附表9統計量H的分位數H1-α(r,f)表
附表10多重比較q1-α(r,f)表
參考文獻