TIMIT

TIMIT(英語:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州儀器麻省理工學院和SRI International合作構建的聲學-音素連續語音語料庫。

基本介紹

  • 中文名:TIMIT
  • 外文名:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus
  • 領域:自然語言處理
簡介,語料庫,語料庫列表,多語,英文,中文,參見,

簡介

TIMIT(英語:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州儀器麻省理工學院和SRI International合作構建的聲學-音素連續語音語料庫。TIMIT數據集的語音採樣頻率為16kHz,一共包含6300個句子,由來自美國八個主要方言地區的630個人每人說出給定的10個句子,所有的句子都在音素級別(phone level)上進行了手動分割,標記。70%的說話人是男性;大多數說話者是成年白人。

語料庫

語料庫一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記;事實上,語料庫英文 "text corpus" 的涵意即為 "body of text"。

語料庫列表

多語

  • 點通多語言語音語料庫
  • 賓州大學語料庫
  • Wikipedia XML 語料庫

英文

  • Collin's Cobuild Project - 成果:Collin's當代英語辭典、及當代英語文法。

中文

  • 中央研究院平衡語料庫
  • LIVAC漢語共時語料庫
  • 北京大學語料庫
  • 蘭開斯特大學漢語平衡語料庫
  • 蘭開斯特-洛杉磯漢語口語語料庫
  • 語料庫語言學線上
  • 北京森林工作室漢語句義結構標註語料庫

參見

相關詞條

熱門詞條

聯絡我們