基本介紹
- 中文名:TIMIT
- 外文名:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus
- 領域:自然語言處理
簡介,語料庫,語料庫列表,多語,英文,中文,參見,
簡介
TIMIT(英語:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州儀器、麻省理工學院和SRI International合作構建的聲學-音素連續語音語料庫。TIMIT數據集的語音採樣頻率為16kHz,一共包含6300個句子,由來自美國八個主要方言地區的630個人每人說出給定的10個句子,所有的句子都在音素級別(phone level)上進行了手動分割,標記。70%的說話人是男性;大多數說話者是成年白人。
語料庫
語料庫列表
多語
- 點通多語言語音語料庫
- 賓州大學語料庫
- Wikipedia XML 語料庫
英文
- Collin's Cobuild Project - 成果:Collin's當代英語辭典、及當代英語文法。
中文
- 中央研究院平衡語料庫
- LIVAC漢語共時語料庫
- 北京大學語料庫
- 蘭開斯特大學漢語平衡語料庫
- 蘭開斯特-洛杉磯漢語口語語料庫
- 語料庫語言學線上
- 北京森林工作室漢語句義結構標註語料庫
參見
- 萬能翻譯機
- 電腦語言學
- 受限自然語言
- 資訊檢索
- 隨機文法
- 機器記者
- 寫作自動評分
- 生物醫學檔案探勘系統