內容簡介
語料庫語言學和計算語言學為促進自然語言處理技術快速發展的兩門基礎學科。《英語語料庫與自動語法分析》系這兩個領域的一本專著,它以國際英語語料庫為背景,著重探討大型語料庫的語法分析,尤其是英語口語材料給計算機自動處理帶來的一系列難題,書中涉及基於機率的自動詞類識別和基於實例的自動句法分析這兩大技術,並有專門章節來探討句法分析的評測問題,對AUTASYS和THE SURVEY PARSER這兩個軟體系統的實際表現進行了深入的量化評測。此外,本書還探討了介詞短語的自動分析,特別是這類短語的句法功能的自動判定,並對自動語法分析在語音合成及語音識別中的套用做了相應的說明。
作者方稱宇博士曾任英國倫敦大學學院英語用法調查中心副主任,協助著名語法學家Sidney Greenbaum教授進行國際英語語料庫的創建與研究,隨後在英國倫敦大學學院的語音和語言學系任高級研究員。現執教於香港城市大學,在中文、翻譯及語言學系教授計算語言學、語料庫語言學和認知語言學等課程,並任韓禮德語言研究智慧型套用中心核心成員。
本書為純英文,適合英語類語言工作專業人員閱讀。
圖書前言
從1993年到2005年,我在倫敦大學學院(University College London,簡稱UCL)從事科研和教學工作。本書記載了我多年來在語料庫語言學和計算語言學這兩個領域的主要研究心得和成果。
上世紀90年代,是英國語料庫語言學發展的黃金時期。倫敦的Randolph Quirk教授和Sidney Greenbaum教授、蘭開斯特的Geoffrey Leech教授、伯明罕的John Sinclair教授都在進行語料庫的開發工作。
當時,Sidney Greenbaum教授任UCL的英語用法調查中心(Survey of English Usage)主任,正在從事國際英語語料庫(The International Corpus of English)的創建工作。100萬字的英國英語語料已經採集完畢,語法標碼也己完成,但句法分析遇到不少困難。一是所用的句法分析系統不適用,每輸入一個語句,常生成幾十、上百、甚至上千棵句法樹,然後再人工選取,十分耗時耗力。二是所用的形式語法不適用。當時的語法為英語書面語所寫,而100萬字的英國英語語料包含60萬字的口語,所以幾乎每天都要開會討論一些語句的具體處理,語法的某些部分乾脆需要重寫,尤其是不同層次上的並列結構。儘管如此,最後還是有大約30%的語句,自動句法分析系統根本無法應付。
於是,Sidney Greenbaum教授和我在1994年一同撰寫了一份項目申請書,然後約見了英國工程及物理科學研究委員會(Engineering and Physical Sciences Research Council)的有關人員,其中包括Nigel Birch先生和Mark Tatham教授,提出了我們的研究構想。這份申請最後通過了委員會的評審,獲得了一筆約50萬英鎊的資助,專門用於研製一個新的自動句法分析系統並重寫一部新的、可用於英語口語分析的形式語法。
研究項目的主要思路就是將已經分析過的語料庫變成一個句法知識庫,從中提取短語結構語法規則,並通過基於實例的手段,在知識庫中為待分析語句提取一棵最佳句法樹。這樣的句法分析機制涉及幾個重要課題:首先需要一個高質量的自動詞類標碼系統,不僅能對大類進行判別,而且能對小類的細分進行快速、有效的精確分析,比如說動詞的配價問題。然後,我們需要一個短語分析系統,將待分析語句處理成一個短語結構集,然後據此計算句法相似度,最終生成相應的句法樹。這樣一種句法分析途徑,具有強勁、高效、精確和自動學習等特性,在對國際英語語料庫及其他海量語料庫的處理中得到廣泛檢測和驗證。
本書對上述各個部分的研究進行了詳細的描述,對系統的實際表現進行了深入的量化評測,並有專門章節來探討句法分析的評測問題。除此之外,還探討了介詞短語的自動分析,特別是這類短語的句法功能的自動判定,因為這一研究和句法相似度分析有著密切的關係。同時,本書還就自動語法分析在語音合成及語音識別中的套用做了相應的介紹和說明,希望對讀者能有所幫助。
我的不少朋友及同事都看過本書的初稿或部分章節,並提出過許多建議,在此表示感謝,特別是倫敦大學學院的John Campbell教授和Mark Huckvale博士、倫敦國王學院的Jonathan Ginzburg博士、利茲大學的Eric Atwell先生、瑞典隆德大學的Jan Svartvik教授及商務印書館上海信息中心主任錢厚生教授。當然,我對書中的所有錯誤負全責,並懇請讀者提出寶貴批評和建議。
最後,我以此書來緬懷先父對我的言傳身教和恩師Sidney Greenbaum教授對我的栽培,並感謝家人對我的關心和支持。
圖書目錄
Preface
前言
List of Figures
List of Tables
Abstract
1. Introduction
1.1. What is Parsing?
1.2. The Introspective View
1.3. The Retrospective View
1.4. Data-Oriented Parsing
1.5. General Problems
1.6. The Proposed Research
1.6.1. Background to the Proposed Research
1.6.2. The Basic Approach of the Proposed Research
1.6.3. The Strengths and Novelties of the Proposed Approach
1.6.3.1. Automated Grammar Generation
1.6.3.2. De-Lexicalised Terminal Nodes
1.6.3.3. Global Parse with Subcategorisation Features
1.6.3.4. High-Quality Partial Parse
1.6.3.5. Intrinsic Ability to Learn
1.7. The Organisation of the Book
2. The Automatic Analysis of English Word Classes
2.1. An Overview of Word Class Tagging
2.2. Major Word Class Tagging Schemes
2.2.1. The Lancaster-Oslo/Bergen Tagging Scheme
2.2.1.1. The Lancaster-Oslo-Bergen Corpus
2.2.1.2. The Lancaster-Oslo-Bergen Tag Set
2.2.1.3. Summary
2.2.2. The International Corpus of English Tagging Scheme
2.2.2.1. The International Corpus of English
2.2.2.2. The International Corpus of English Tag Set
2.2.3. A Comparison of LOB and ICE
2.3. Word Class Tagging Methodologies
2.3.1. The Rule-Based Approach
2.3.2. The Probabilistic Approach
2.4. AUTASYS: A Hybrid Tagging System
2.4.1. A Probabilistic Approach Using the LOB Tag Set
2.4.1.1. The Tag Assignment Module
2.4.1.1.1. Tokenisation
2.4.1.1.2. The treatment of"."
2.4.1.1.3. The treatment of"'"
2.4.1.1.4. Sentence boundary markers
2.4.1.2. Orthographic Analysis
2.4.1.3. Lexicon Lookup
2.4.1.3.1. The lexicon
2.4.1.3.2. The coverage of the lexicon
2.4.1.4. Morphological Analysis
2.4.2. The Idiom Identification Module
2.4.3. The Probabilistic Tag Selection Module
2.4.3.1. The Bigram Probabilistic Matrix
2.4.3.2. Implementing Probabilistic Tag Selection
2.4.4. The Rule-Based Refinement Module
2.4.5. Empirical Evaluation
2.4.6. Permissive AUTASYS-LOB Disagreements
2.4.6.1. NNP-NPT
2.4.6.2. JJ-JJB
2.4.6.3. NNP-NPL
2.4.6.4. RB-NN
2.4.7. Summary
2.5. A Rule-Based Approach towards LOB to ICE Translation
2.5.1. Solutions for Verbs
2.5.1.1. Auxiliary vs. Lexical
2.5.1.2. Monotransitive vs. Complex Transitive
2.5.1.3. Finite vs. Nonfinite
2.5.2. Closed Sets
2.5.3. Initial Results
2.5.4. Problems
2.5.5. Summary
3. The Automatic Induction of a Formal Grammar
4. Robust Practical Analogy-Based Parsing
5. Extensive Evaluations of the Survey Parser
6. The Resolution of Prepositional Phrases
7. Conclusions and Further Work
References
Appendix A: A List of LOB Tags
Appendix B: A List of ICE Tags
Appendix C: A List of AUTASYS Idioms
Appendix D: A List of ICE Parsing Symbols
Appendix E: A List of ICE Prepositions in Descending Frequency Order
Appendix F: A Distributional Profile of ICE-GB Prepositions
Index