實際套用
在 2015 年,谷歌通過基於CTC 訓練的 LSTM 程式大幅提升了安卓手機和其他設備中語音識別的能力,其中就使用了Jürgen Schmidhuber的實驗室在 2006 年發表的方法。百度也使用了 CTC;蘋果的 iPhone 在 QuickType 和
Siri 中使用了 LSTM;微軟不僅將 LSTM 用於語音識別,還將這一技術用於虛擬對話形象生成和編寫程式代碼等等。亞馬遜 Alexa 通過雙向 LSTM 在家中與你交流,而谷歌使用 LSTM 的範圍更加廣泛,它可以生成圖像字幕,自動回復電子郵件,它包含在新的智慧型助手 Allo 中,也顯著地提高了谷歌翻譯的質量(從 2016 年開始)。目前,谷歌數據中心的很大一部分計算資源現在都在執行 LSTM 任務。
工作原理
LSTM區別於
RNN的地方,主要就在於它在算法中加入了一個判斷信息有用與否的“處理器”,這個處理器作用的結構被稱為cell。
一個cell當中被放置了三扇門,分別叫做輸入門、遺忘門和輸出門。一個信息進入LSTM的網路當中,可以根據規則來判斷是否有用。只有符合算法認證的信息才會留下,不符的信息則通過遺忘門被遺忘。
說起來無非就是一進二出的工作原理,卻可以在反覆運算下解決神經網路中長期存在的大問題。目前已經證明,LSTM是解決長序依賴問題的有效技術,並且這種技術的普適性非常高,導致帶來的可能性變化非常多。各研究者根據LSTM紛紛提出了自己的變數版本,這就讓LSTM可以處理千變萬化的垂直問題。