布朗語料庫,第一個機讀語料庫,也是第一個平衡語料庫。
基本介紹
- 中文名:布朗語料庫
- 別稱:機讀語料庫,平衡語料庫
- 產生於:一九六0年代 中期
- 語料庫:一百零一萬四千三百詞
布朗語料庫(Brown Corpus)在一九六0年代 中期構建的一個具代表性的平衡語料庫包含各種不同的文體,根據抽樣調查決定了一個他們認為英文平衡語料庫應有的分布,再根據此一分布收集了百萬詞的語料,並加上詞類標記,輸入電腦。建構成了第一個機讀 語料庫,也是第一個平衡語料庫。儘管由現在理論及技術的水準看來,布朗的資料及平衡方式略嫌粗糙,可是這個語料庫一直是 (英語) 平衡語料庫的標準,甚至到了八十年代新構建的英語平衡語料庫如lob(Lancaster-Oslo/Bergen,英國英文)及London-Lund(英語口語),都還遵循布朗語料庫的架構。足見這種平衡語料庫在各種語言學研究上有其不可取代的價值。[3.]布朗語料庫收集了500個連貫英語書面語,文本每個文本超過2000詞,整個語料庫約一百零一萬四千三百詞。