Google於2011年12月2日推出廣東話語音搜尋服務,用家只需透過Android或iPhone手機下載免費的應用程式(app),點擊麥克風符號,再說出關鍵字,熒幕隨即顯示搜尋結果。由於港人懶音甚多,Google找來逾500名市民協助錄音製作資料庫,懶音亦一併收錄,令系統懂得自動將「痕身銀行」糾正為「恒生銀行」。
基本介紹
- 中文名:google廣東話語音搜尋
- 類型:語音搜尋
- 語言:廣東話
- 費用:免費
基本介紹,背後的故事,
基本介紹
該廣東話版本的語音搜尋,是繼國語及台灣國語之後,第三個中文版本。外語版本則已有英、日、法、韓語等。現時美國Android或iPhone手機用家中,有25%會使用「語音搜尋」。
Google技術總監陸韻晟昨聯同研究科學家宋雲軒出席發布會,示範使用搜尋app。他舉例說,只要開啟app的語音搜尋功能,然後說︰「香港尖沙嘴日本料理」,手機熒幕會隨即顯出Google搜尋到的食店網站及相關地圖位置。陸指廣東話語句經常中英夾雜,如「爛gag」(爛笑話)等詞語,在語音搜尋app一樣能辨認。
背後的故事
語音一向是人們與手機互動的最自然方式。事實上,說話通常比打字更快更容易。Google在開發英語、國語和日語版本的「語音搜尋」(Voice Search)之後,陸續支援多種語言版本,當中包括韓語、法語、德語、義大利語、西班牙語、捷克語、波蘭語、俄語和土耳其語。現在,輪到香港人最熟悉的廣東話了。
廣東話向來被寓為全球最難學的語言之一,而Google認為在手機平台上,由於鍵盤通常很細小,中文輸入往往比拉丁字母困難得多。香港常用的中文輸入法包括倉頡及手寫輸入,倉頡並不是一個易上手的輸入法,而手寫輸入法雖然易學,但就有慢的缺點。兩者對香港用戶來說都不是一個理想的手機搜尋輸入法。Google因而相信,開發廣東話語音搜尋服務能解決香港用戶缺乏理想的手機輸入法的問題。
不過,在開發過程中,Google亦遇到不少挑戰,有些是廣東話獨有的,有些是亞洲語言共通的,也有是開發任何語言的語音搜尋都會遇到的,以下就是我們在開發過程中遇到的一些有趣的挑戰:
數據收集
對比起英文,現時全球只有很少廣東話資料庫夠大夠齊全,足以用來訓練一套辯識系統。建立一套辯識系統同時需要聲音及文字數據,聲音數據方面,Google用了DataHound收集技術,透過智慧型手機錄下及上載大量義工的廣東話聲音樣本。文字數據方面,香港谷歌的搜尋紀錄是最好的資料庫,能快速且準確地訓練語言模型。
中文辭彙限制
中文與西方語文不同,詞與詞之間並沒有空格分開,為了限制說話辯認器(speechrecognizer)的詞庫大小,及簡化詞典開發,Google選擇了用字,而非詞語,作為系統的基本組成單元,因此亦容許不同字有不同的讀音。
中英夾雜
Google發現香港用戶比起國內及台灣的用戶更喜歡在說話時夾雜英文,例如中國用戶的搜尋平均有10%夾雜英文,台灣是15%,然而香港則有30%的搜尋是中英夾雜的。要建立一個能準確辯認中英夾雜句子的系統,Google把英文詞語連上一系列相關廣東話發音單元上。
音調問題
雖然語言學家就廣東話究竟有多少個音調仍未有共識,6個、7個、9個或10個都有人提出,但無論如何,還是一個字:多。為了準確辨認廣東話,Google把一個音調加一個母音(vowel)的組合當成一個辨認單元,為了不讓最後的模型變得太複雜,工程師們把一些很少用到的組合合成一個單一模型。
音譯詞很多
由於廣東話里音譯詞很多,同一個詞,有些香港用戶喜歡用英文原文,有些則喜歡用中文音譯詞(例如:「Jordan」與「佐敦」),這對訓練及評估系統都帶來不少挑戰。開發人員最後決定用一套算法,透過搜尋結果是否準確覆核辯認出來的字詞,而不是透過檢查說話辯認器辯認出來的字連起來是否有意義來覆核。
不同的口音及嘈雜的環境
不同的人說話帶有不同口音,而他們在使用語音搜尋時,亦身處各種截然不同的環境,例如辦公室、捷運、商場等。為了令搜尋系統在各種環境都能準確運作,Google收集了不同人在不同環境說話的音頻數據輸入系統,令其更準確。