情感識別綜述
定義
計算機對從
感測器採集來的信號進行分析和處理,從而得出對方(人)正處在的情感狀態,這種行為叫做情感識別。從
生理心理學的觀點來看,情緒是有機體的一種複合狀態,既涉及體驗又涉及生理反應,還包含行為,其組成分至少包括情緒體驗、情緒表現和情緒生理三種因素。目前對於情感識別有兩種方式,一種是檢測生理信號如呼吸、心律和體溫等,另一種是檢測情感行為如面部特徵表情識別、語音情感識別和姿態識別。
“情感識別”,並不是說計算機能直接識別或測量情感狀態,應該解釋為“通過觀察表情、行為和情感產生的前提環境來推斷情感狀態”。因為情感狀態是內在的並包含生理和心理的變化,這樣只能獲得情感狀態的一些可觀測的東西,如表情、行為等等。假設這些東西的觀測可靠的話,那么潛在的情感狀態就可以推斷出來。只有將情感識別看作一種模式識別問題、情感表達看作模式合成問題,計算機進行情感交流才具有可行性。
目的
事實上,人與人之間進行情感識別與情感交流存在著一定的客觀動機。分工與合作是人類提高社會生產力最有效的方式,人們為了更好地進行分工合作,一方面必須及時地、準確地通過一定的“
情感表達”方式向他人展現自己的價值關係,另一方面必須及時地、準確地通過一定的“情感識別”方式了解和掌握對方的價值關係,才能夠在此基礎上,分析和判斷彼此之間的價值關係,才能做出正確的行為決策。
總之,情感識別的
客觀本質或客觀動機就是人為了了解和掌握對方的
價值關係。
由於人與人之間存在不同類型的利益相關性,對方所展現的情感有時是完全準確的方式,有時是誇張掩飾的方式,有時卻是完全相反的方式,這時,人就需要不斷地調整和修正對方的情感表達的客觀價值內容,使自己的情感識別具有更高的及時性、準確性和完整性。
內容
人類可以通過視覺、味覺、聽覺、嗅覺和觸覺五個
器官來認識世界,而對於他人情感的識別主要是通過視覺和聽覺來完成的,即主要是通過人臉的情感識別、語言聲調的情感識別語言文字的情感識別來完成的。
人臉情感識別
識別方式
把用眼睛觀察到的視覺信息叫做圖象信息,如人臉的表情信息。一般的表情識別可以用單個感官完成,也可以用多個感官相配合來完成,它是一個整體識別和特徵識別共同作用的結果。具體說來,遠處辨認人,主要是依靠人臉的整體識別,而在近距離辨認人,主要是依靠人臉的特徵識別。人臉的整體識別和特徵識別雖然存在聯繫,但總體說是分開的、並行的處理過程。
隨著人臉的計算機處理技術(包括人臉檢測和人臉識別)不斷完善,利用計算機進行面部表情分析也就成為可能。由於各種面部表情本身體現在各個特徵點運動上的差別並不是很大,而表情分析對於人臉的表情特徵提取的準確性和有效性要求比較高,因而難以順利地實現。例如:嘴巴張開並不代表就是笑,也有可能是哭和驚訝等。所用到的識別特徵主要有:灰度特徵、運動特徵和頻率特徵三種。灰度特徵是從表情圖像的灰度值上來處理,利用不同表情有不同灰度值來得到識別的依據;運動特徵利用了不同表情情況下人臉的主要表情點的運動信息來進行識別;頻域特徵主要是利用了表情圖像在不同的頻率分解下的差別,速度快是其顯著特點。
具體的表情識別方法主要有三個:一是整體識別法和局部識別法,二是形變提取法和運動提取法,三是幾何特徵法和容貌特徵法。當然,這三個發展方向不是嚴格獨立的,恰恰相反,是相互聯繫,相互影響的,它們只是從不同側面來提取所需要的表情特徵,都只是提供了一種分析表情的思路。
通常面部表情識別模型都基於數位化的面部圖像或者一小段面部表情序列(例如先中性的,然後微笑,最後中性)的視頻。通常根據視頻識別要比根據靜態圖像識別更準確。視頻能捕捉某種表情形成過程的面部動作。
邏輯程式
當人通過視覺器官把他人面部的刺激信號接收並傳遞到人的大腦之中,大腦就會進行人臉檢測、人臉圖像預處理、人臉特徵提取等程式,然後,把以前存儲在大腦中的若干基本表情的人臉特徵(即
臉譜)提取出來,進行對比分析和模糊判斷,找出兩者的人臉特徵最接近的某種基本表情。這時,大腦皮層就會接通該基本表情所對應的興奮區與邊緣系統的神經聯繫,從而產生愉快或痛苦的情感體驗。同時,大腦皮層還會接通該基本表情所對應的興奮區與網狀結構的神經聯繫,從而確定愉快或痛苦的強度。
語音情感識別
語音情感識別是指由計算機自動識別輸入語音的情感狀態。一般來說,不同語言聲調錶情的語言信號在其時間構造、振幅構造、基頻構造和共振峰構造等特徵方面也有著不同的構造特點和分布規律。由此,只要把各種具體模式的語言聲調錶情在時間構造、振幅構造、基頻構造和共振峰構造等特徵方面的構造特點和分布規律進行測算和分析,並以此為基礎或模板,就可以識別出所有語言聲調中所隱含的情感內容。
將語音中的情感特徵化比面部表情的特徵化要難。面部表情信號傳達了個人特徵和表情,一般不傳達語言信息。另一方面,語音信號包含的是混合信息,包括說話者特徵、情感和說話內容中強調的辭彙和語法。計算機在語音情感的識別和合成方面的進展很慢。
隨著計算機多媒體技術的不斷發展,能處理包含在媒體中的情感信息的柔軟的擬人化的多媒體計算機系統的研究越來越引起人們的興趣。因為語音信號既是多媒體人機互動的主要利用方式,又是傳載情感信息的重要媒體,所以包含在語音信號中的情感信息的計算機處理研究就顯得尤為重要。
人腦邏輯程式
當人通過聽覺器官把他人的語言聲調信號接收並傳遞到人的大腦之中,大腦就會對其時間構造、振幅構造、基頻構造和共振峰構造等方面的特點和分布規律進行檢測、預處理和特徵提取,然後,把以前存儲在大腦中的若干基本表情的語言聲調信號的時間構造、振幅構造、基頻構造和共振峰構造等特徵方面的構造特點和分布規律提取出來,進行對比分析和模糊判斷,找出兩者的聲音特徵最接近的某種基本表情。
語言文字識別
語言和文字屬於第二信號系統,由於它們脫離了現實事物對於人的
條件反射活動的直接參與,從而可以更為廣泛地、普遍地、直接地、快速地、靈活地、多樣地、深入地對各種事物進行認識,從而可以使人類能夠對更為抽象、更為本質、更為遙遠、更為間接、更為廣泛、更為模糊、更為變化莫測的事物的價值關係進行認識和反應。
邏輯程式
當人通過聽覺器官把他人的語言信號接收並傳遞到人腦中,或者通過視覺器官把文字信號接收並傳遞到人腦中,大腦就會對其進行語義分析,對它們所描述事物的價值關係的目標指向、變化方式、變化時態、對方的利益相關性等進行判斷,從而確定和選擇情感表達的某種基本
模式。
生理模式識別
從生理信號中抽取出來的特徵模式可以用來識別情感。計算機在人做出表情(如悲痛或憤怒)的時候,觀察多種收集到的信號,然後分析哪種生理信號模式和特定情感狀態關係最密切。然後計算機系統套用先前分析的結果,根據收集到的原始數據來識別出包含在信號中最有可能的情感。這方面的研究還剛剛開始。
通常通過觀察所有數據的子集能判斷出哪種特徵值的辨別能力最強。試過所有可能的三種情感、兩種特徵值的組合,發現憤怒、悲痛和尊敬的組合或憤怒、高興和尊敬的組合中,情感是最容易識別出的。這兩種情況中,都有一個最佳的識別特徵值是
EMG信號的的平均值,但是另一個最佳特徵值卻是不同的。憤怒、悲痛和尊敬的組合中,標準化信號的第一次差分絕對值的平均值就是最佳的。而對憤怒、高興和尊敬的組合中,最佳選擇還是第一次差分絕對值的平均值,但這次是從EMG信號中得到的。