TIMIT

簡介

TIMIT（英語：The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus），是由德州儀器、麻省理工學院和SRI International合作構建的聲學－音素連續語音語料庫。TIMIT數據集的語音採樣頻率為16kHz，一共包含6300個句子，由來自美國八個主要方言地區的630個人每人說出給定的10個句子，所有的句子都在音素級別（phone level）上進行了手動分割，標記。70%的說話人是男性；大多數說話者是成年白人。

語料庫

語料庫一詞在語言學上意指大量的文本，通常經過整理，具有既定格式與標記；事實上，語料庫英文 "text corpus" 的涵意即為 "body of text"。

語料庫列表

多語

點通多語言語音語料庫
賓州大學語料庫
Wikipedia XML 語料庫

英文

Collin's Cobuild Project - 成果：Collin's當代英語辭典、及當代英語文法。

中文

中央研究院平衡語料庫
LIVAC漢語共時語料庫
北京大學語料庫
蘭開斯特大學漢語平衡語料庫
蘭開斯特-洛杉磯漢語口語語料庫
語料庫語言學線上
北京森林工作室漢語句義結構標註語料庫

參見

萬能翻譯機
電腦語言學
受限自然語言
信息抽取
資訊檢索
自然語言理解
潛在語義索引
潛在語義學
隨機文法
機器記者
寫作自動評分
生物醫學檔案探勘系統

TIMIT

基本介紹

簡介

語料庫

語料庫列表

多語

英文

中文

參見

相關詞條

熱門詞條