東亞太平洋區域語言相似關係計量研究

東亞太平洋區域語言相似關係計量研究

《東亞太平洋區域語言相似關係計量研究》是2017年11月南京大學出版社出版的圖書,作者是趙志靖。

基本介紹

  • 中文名:東亞太平洋區域語言相似關係計量研究
  • 作者:趙志靖
  • 出版社:南京大學出版社
  • ISBN:9787305195914
內容簡介,圖書目錄,

內容簡介

19世紀中到20世紀初,歷史語言學成功地解決了大部分歐洲語言的系屬關係問題,從而擴大研究範圍,對世界語言進行譜系分類,闡述語言間的淵源關係。亞洲語言最早從研究印度支那語言的歷史關係開始,逐步建立漢藏語系。漢藏語言的系屬分類研究已有近200年歷史,近百年來,學界對漢藏語系分類存在較大分歧,導致一系列語言譜系分類的爭議,涉及東亞大陸、東南亞半島以及南太平洋區域整個東南半球的語言,包括侗台語、苗瑤語、藏緬語、漢語、南亞語、南島語等。迄今為止,學界提出了台卡岱語系、漢藏語系、南島語系、南亞語系,以及澳泰語系和華澳語系等諸多觀點,觀點的爭論從具體語言的歸屬到語族之間關係等都有涉及,學者們為如何分類爭論不休,很難取得共識。
傳統的語言分類方法,憑經驗做定性分析,無法做語言之間關係程度的量化描述。詞源統計法雖然能夠對語言間關係做量化描述,但其本質是同源詞的選取問題,而這就依賴於專家經驗,因此該方法並不客觀,容易引起爭議。針對前人圍繞漢藏語言分類研究出現的爭議和分歧,本書的目標是依據計算語言學的原則,利用計算機手段,建立客觀的、不依賴人主觀判斷的、可重複的語言分類系統。本書採用計算機技術和統計方法,依據一定的數學模型,編制特定的電腦程式來研究語言之間的相似關係,使得語言相似關係的研究形式化、算法化、自動化。
客觀的語言距離的測量方法是基於語言本身的差異。最近這些年,編輯距離被證明測量語言或方言間距離是有效的。編輯距離可套用於不同的語言學領域,如計算語言學和方言學等。Kessler於1995年第一次利用編輯距離測量愛爾蘭蓋爾語方言間的語言距離。從那以後,有很多的研究用這種方法來測量語言或方言間的距離,例如將編輯距離套用於測量荷蘭方言、撒丁語、挪威語、斯堪的納維亞語和德語等。以上大部分研究的是歐洲語言。除此之外,編輯距離還被套用於印歐語系、南島語系、突厥語、印度伊朗語系、瑪雅語系、米塞-索克語系、奧托-曼格安語系、Huitotoan-Ocaina、Tacanan、Chocoan、穆斯科格語系、南亞語系等。編輯距離在德國馬普所已有實踐,獲得較好成果,被證明是研究西方語言之間的語言距離的有效方法。編輯距離指的是字元串A轉化為字元串B所需的最少編輯數。那么相應地套用到語言學中,一個語言變體的一串語音表達可以相應地對應到另一個語言變體的一串語音表達。編輯距離可以發現一個語音變換為另一個語音所需的最少編輯運算元。我們假設這反映了語音差異的感知方式和語言演化過程中的變化現象。那么基於任何一個關係詞的不同語言的語音表達間的編輯距離,不同語言間的語言距離就可以被計算出來了。
但是,Greenhill對基於編輯距離的語言分類方法提出了質疑。Greenhill(2011)通過對南島語族的語言數據進行二次抽樣,選取其中的三個語言子集來測試基於編輯距離的語言分類方法的性能。結果表明,編輯距離法的分類結果與歷史比較法相比,其正確率只有40%;通過使用統一的標音法對語言進行標音後,其正確率提高到最高65%。他認為編輯距離法不能精確地辨識語言之間的關係,並且,導致該方法性能低的主要原因是編輯距離在語言學方面的幼稚性。
基於Greenhill的研究結論,本書利用Almeida&Braun調音系統對傳統的編輯距離算法進行了改進,提高了編輯距離語言分類方法的性能。然後,利用印歐語6種語言和漢藏語藏語支7種方言對改進的編輯距離算法進行了驗證試驗。試驗結果表明,改進編輯距離算法的分類結果與已有的傳統語言學的研究結果是基本一致的,進而說明本書的改進編輯距離算法是可行的,其分類結果是可信的、客觀的,可用於語言相似關係的計算並對其進行自動分類。
以上系統化的語言相似關係計量研究實現了算法化、自動化,不依賴人的主觀意識判斷。最後,本書將上述建立好的分類系統套用於漢藏語系的語言相似關係的研究中,對東亞大陸以及東南亞—太平洋區域77種語言/方言(漢語、藏緬語、侗台語、苗瑤語、南島語、南亞語)進行分類,得到本書的語言分類結果,並提出了一些自己的看法。
本書通過對漢語族、藏緬語族、南島語族、侗台語族、苗瑤語族、南亞語族中的77種語言/方言做計量分類研究表明,本書提出的改進編輯距離語言分類方法可以套用於東亞語言的研究中,完全可以拓展至中國境內所有語言或方言,從而對中國的語言或方言做出全面而準確的比較科學的分類。
本書改進了編輯距離算法,並通過印歐語和藏語方言驗證了改進算法在語言相似關係計量研究中的可信性、有效性和客觀性,並將該算法套用於東亞-太平洋區域語言相似關係研究中,對東亞-太平洋區域語言之間關係做出了科學的測定和分類。本書方法是傳統語言學研究的有益補充,也為語言計量研究提供了一條新思路;本書對東亞-太平洋區域語言之間關係做出了自己的分類,提出了自己的超級語系。
跟前人的分類對比,本書的結論使以前爭論不清、各有疑問的問題在新的創新研究下呈現出新的價值和意義,無論持什麼分類觀點的學者,都可以從本書受到啟發。本書方法對長久以來學術界因為傳統語言學研究產生的爭論提供一種可能的解決方案。
對於新發現語言,可以利用本書方法進行快速分類,再結合歷史比較法確定該語言與其他語言之間的關係。
本書方法能套用於非常大的語言樣本,這有利於大規模語言數據的統計研究和可以揭示之前未知的語言發生關係。
通過對漢語族、藏緬語族、南島語族、侗台語族、苗瑤語族、南亞語族中的部分語言做計量分類,本書方法完全可以拓展至中國境內所有語言及方言,從而對中國的語言及方言做出全面而準確的比較科學的分類。但是由於語料、時間、經費等的限制,我們還無法對更多的中國的語言及方言做出分類,其理論和方法還未得到更多語言的檢測和修正。
從方言或親屬語言的差異中推斷其不同形式所反映的年代順序,以便弄清語言發展的時間層次,也就是語言分化時間點問題,這個工作是歷史語言學的重要環節,目前漢藏語分類在這方面的工作沒有開展起來。而德國的馬普所已經開始這方面研究了,其能夠基於編輯距離得到的辭彙相似度自動計算父語言分化為子語言的時間點。本書限於時間關係未做該方面的研究工作,希望在以後的時間裡繼續深入下去,以期為漢藏語研究添磚加瓦。

圖書目錄

序言 II
第1章 語言關係觀概述 1
1.1三種主要觀點 1
1.1.1 李方桂的中國語言關係觀 1
1.1.2 本尼迪克特的東亞語言關係觀 3
1.1.3 沙加爾的東亞超級語系觀 11
1.2 本書研究角度 16
1.3章節安排 17
第2章 語言關係研究方法論 19
2.1歷史比較法 19
2.1.1 西方學者的研究方法 19
2.1.2 國內學者的研究方法 22
2.2計量法 23
2.2.1 特徵統計法 23
2.2.2 詞源統計法 27
2.2.3 對歷史比較法和計量統計法的評論 31
2.3 自動相似關係判斷法 33
2.3.1 方法闡述 34
2.3.2 結果舉例 34
2.3.3 ASJP的進一步發展 37
2.4本書採用的方法 37
第3章 編輯距離算法與改進 40
3.1 序列比對 40
3.2 編輯距離算法簡介 41
3.2.1 編輯距離定義 41
3.2.2 編輯距離算法的計算步驟 42
3.2.3 編輯距離原理 43
3.2.4 回溯路徑 44
3.2.5 路徑選擇 45
3.2.6 歸一化 46
3.2.7 最長對齊序列長度的計算 47
3.2.8 語言學套用案例 47
3.3 元音及輔音間距離的計算 49
3.3.1 Almeida&Braun調音系統簡介 49
3.3.2 元音及輔音間的距離 51
3.4 基於ALMEIDA&BRAUN調音系統的編輯距離算法改進 55
3.5 語言距離計算 56
3.5.1 比較詞表的選擇 56
3.5.2 計算過程 58
3.6 語言距離分析 60
3.6.1 聚類分析 61
3.6.2 多維尺度分析 62
第4章 改進編輯距離算法的驗證 64
4.1 印歐語 64
4.1.1 印歐語的分類 64
4.1.2 印歐語的譜系圖 66
4.1.3 改進編輯距離的語言分類結果 69
4.2 藏語 70
4.2.1 藏語方言的分布 70
4.2.2 藏語方言的分類 71
4.2.3 改進編輯距離的語言分類結果 72
4.3 總結 76
第5章 東亞-太平洋區域語言分類 77
5.1 諸家的分類 77
5.2 本書的分類 80
5.2.1 語言材料 80
5.2.2 距離矩陣 82
5.2.3 語言關係分類結果 82
5.2.4 每個語族的內部分類 87
5.3 本書方法與詞源統計法的比較 111
第6章 結語 114
6.1 總結 114
6.2 基於本書方法得到的語言觀點 115
參考文獻 118

相關詞條

熱門詞條

聯絡我們