kismet

kismet

Kismet是一款模仿人頭部的機器人,由麻省理工學院的Cynthia Breazeal博士在二十世紀九十年代製作,是研究機器能否辨認和模仿人的情感的一項實驗。 Kismet 一詞來自一個土耳其語單詞,意為“命運”或“好運”。Kismet是一種為與人類進行社會互動而設計的自主機器人。一般來說,社會機器人已經集中在一群機器人上,比如成群結隊、覓食或分散,或者是成對的機器人與機器人的互動作用,比如模仿。這個項目的重點不是機器人與機器人的相互作用,而是構建與人類進行有意義的社會交流的機器人。這樣做,就有可能有一個社會老練的人幫助機器人獲得更複雜的溝通技能,並幫助它了解這些行為對其他人的意義。我們的方法受到嬰兒學會與成年人交流的方式的啟發。具體來說,社會互動的模式是一種看護嬰兒的模式,在這種模式下,人類充當機器人的看護者。

基本介紹

  • 外文名:Kismet
  • 類型:機器人
  • 發明者:Cynthia Breazeal
  • 發明時間:二十世紀九十年代
簡介,硬體設計和架構,軟體系統,基本特徵提取系統,動機系統,語言系統,視覺系統,聽覺系統,富有表現力的表情系統,發聲系統,研究進展,在人機遊戲中學習社會行為,方法,挑戰,

簡介

Kismet,是一款較早出現的社交機器人,由美國麻省理工大學人工智慧實驗室仿人機器小組(Humanoid Robotics Group)負責開發的。
仿人機器人,是對於傳統機器人概念的一種巨大的轉變。傳統的機器人,經常在遠離人的惡劣環境下進行一些工作。比如說,救災,超長時間重複工作,這些人類很難勝任的,而機器人卻得心應手。但是,健康,管家,娛樂這方面的需求的增加,所以必然需要機器人能夠與人進行近距離的交談,學習,互動娛樂等等。
Kismet其實就是這樣一款的仿人機器人,它具有視覺,聽覺,觸覺輸入,位置感應。然後,他可以進行對話,表情,體態等與人互動。
Kismet的樣子也是十分可愛的,整個形象還是很有卡通感覺的,也因該很受小朋友們的喜愛喔。彎彎的眉毛,大大的眼睛和耳朵,還有嘴巴,但是沒有鼻子,如果加上一個氣味的識別感測器,也可以有味道識別的功能喔,小編在想,氣味識別也是有很多用處的,比如液化氣和有害物質報警等等,這樣他就可以第一時間把信息傳遞給我們了。
Kismet具有平靜,感興趣,生氣,開心,沮喪,驚喜,噁心等表情定義,通過面部表情使我們覺得,他很具有感情表達的能力。
以下是Kismet設計的簡化視圖。
系統架構由六個子系統組成:低級特徵提取系統,高級感知系統,注意系統,動力系統,行為系統和電機系統。低級特徵提取系統從世界中提取基於感測器的特徵,高級感知系統將這些特徵封裝到可影響行為,動機和運動過程的感知中。注意系統隨時確定環境中最顯著和相關的刺激是什麼,以便機器人可以組織其關於它的行為。動機系統以穩態調節過程和情緒反應的形式調節和維持機器人的“健康狀態”。行為系統在競爭行為之間實現和仲裁。獲勝行為定義了當前任務(即目標)。機器人。機器人在其保留曲目中有許多行為,以及滿足的幾種動機,因此它的目標隨著時間而變化。電機系統通過協調輸出模式(致動器或聲音)來實現這些目標。對於Kismet,這些動作被實現為完成物理任務的運動技能,或通過社交信號完成任務的表達運動行為。
簡化視圖簡化視圖

硬體設計和架構

為了能使Kismet與人類正常地交流互動,它具有聽覺視覺和本體感受的能力輸入設備。 Kismet通過各種面部的表情,會發聲和移動來模擬人類的情緒。面部表情則是通過耳朵、眉毛、眼皮、嘴唇、下巴和頭部的運動產生的。這些物質材料的成本估計為25,000美元。此外,還有四個摩托羅拉68332處理器,九個400兆赫的計算機和一個500兆赫的計算機。
Kismet是一種富有表現力的機器人生物,它的感知和運動方式適合於人類的自然交流渠道。為了方便嬰兒和照顧者之間的自然互動,機器人配備了視覺、聽覺和本體感知感官輸入。運動輸出包括發聲、面部表情和調整眼睛注視方向和頭部方向的運動能力。注意,這些運動系統可以引導視覺和聽覺感測器到達刺激源,也可以用來顯示交流線索。
我們的硬體和軟體控制結構被設計來滿足實時處理視覺信號(接近30 Hz)和聽覺信號(8 kHz採樣率和10 ms幀視窗)的挑戰,最小延遲(小於500 ms)。高級感知系統、激勵系統、行為系統、運動技能系統和面部運動系統在我們實驗室開發的多執行緒Lisp的四台摩托羅拉68332微處理器上運行。視覺處理、視覺注意和眼/頸控制由9台運行QNX(實時Unix作業系統)的聯網400 MHz個人計算機完成。表達性語音合成和語音情感意圖識別工作在雙450 MHz PC機上運行NT,語音識別系統運行在運行Linux的500 MHz PC機上。

軟體系統

Kismet的社交智慧型軟體系統(SNS)是按人類智慧型行為的模型為基礎而設計的。它包含如下六個子系統

基本特徵提取系統

該系統被用來處理來自相機和麥克風的原始視覺聽覺信息。 Kismet的視覺系統可以執行眼睛檢測,運動檢測,以及膚色檢測(儘管有爭議)。當Kismet移動頭時,它會暫時禁用其運動檢測系統,以避免檢測自身的運動。它還使用立體相機來估計物體在其視野中的距離,例如檢測威脅 - 迅速移動的大而近的物體。
Kismet的聽覺系統主要是為了識別嬰幼兒講話中的情感。特別的,它可以檢測五種不同類型的情感意圖:批准禁止注意安慰中立。情感意圖分類器處理步驟如下:從記錄的語音樣本中提取音調平均值和能量(音量)方差等低級特徵。然後將情感意圖的類別建模高斯混合模型,並使用期望最大化算法將這些樣本進行分類。分類是通過多個階段完成的,首先將一個話語分為兩個一般組(例如安慰/中立與禁止/關注/批准)之一,然後進行更詳細的分類。這種系統架構顯著提高了情感分類的性能,如“批准”(“你是一個聰明的機器人”)與“注意”(“嘿,Kismet,我在這裡”)。

動機系統

Breazeal博士把自己與機器人的關係形容為“像幼兒與看守人的互動,我本人就是看守者,而機器人就像一個嬰兒”。這概述了在一個學習框架內設定的人機關係,Breazeal博士為Kismet的發展提供了支撐。它提供了Kismet能力的展示機會,描述了情緒與表情,表達了機器人的“動機狀態”,Brazeal博士說:“這是一種憤怒(笑)極度的憤怒,厭惡,興奮,恐懼,這是幸福,這是一個興趣,這個是悲傷,驚喜,這個是疲倦,這個在酣睡。
在任何時候,Kismet一次只能處於一種情緒狀態。然而,Breazeal指出Kismet沒有意識,所以沒有觸覺。

語言系統

Kismet用各種各樣的音素說出初始語言,類似於嬰兒的咿呀聲。它使用DECtalk語音合成器,改變音高,時間,發音等來表達各種情緒。語調用於在問題和陳述式的話語之間變化。嘴形同步對現實化很重要,因此開發者使用動畫策略:“簡單是成功的嘴唇動畫的秘訣”。因此,他們並不是完全模仿嘴唇的動作,而是“創造一個不受觀眾挑戰的視覺short hand”。

視覺系統

機器人的視覺系統由安裝在立體聲主動視覺頭上的四個彩色CCD相機組成。兩個寬視場(fov)攝像機安裝在中央並相對於頭部移動。這些是由Elmo Corporation製造的具有2.2mm鏡片的0.25英寸CCD口紅相機。它們用於決定機器人應該注意什麼,以及計算距離估計。還有一個攝像頭安裝在每隻眼睛的瞳孔內。這些是具有8mm焦距鏡頭的0.5英寸CCD中央凹相機,用於更高解析度的注意後處理,例如眼睛檢測。
Kismet有三個自由度來控制凝視方向和三個自由度來控制它的頸部。 Maxon DC伺服電機採用高解析度光學編碼器驅動自由度,實現精確的位置控制。這使得機器人能夠像人類一樣移動和定向其眼睛,從事各種人類視覺行為。這不僅從視覺處理的角度來看是有利的,而且人類也將通信價值歸因於這些眼睛運動。

聽覺系統

看護員可以通過佩戴小型不顯眼的無線麥克風來通過語音來影響機器人的行為。 該聽覺信號被送入運行Linux的500 MHz PC。 實時,低級語音處理和識別軟體由麻省理工學院的語言系統組開發。 這些聽覺功能被傳送到運行NT的雙450 mHz PC。 NT機器實時處理這些特徵以識別護理人員的口頭情感意圖。

富有表現力的表情系統

Kismet擁有15個DoF面部,可以顯示各種各樣的面部表情,以反映其“情緒化”狀態以及服務於其他交際目的。 每隻耳朵都有兩個自由度,讓Kismet以感興趣的方式振作耳朵,或者以一種讓人想起憤怒動物的方式折回它們。 每一條眉毛都可以在挫折中降低和皺起,向上抬起以獲得驚喜,或者向上傾斜眉毛的內角以獲得悲傷。 每個眼瞼都可以獨立打開和關閉,讓機器人眨眼或眨眼。 機器人有四個唇部執行器,每個角部有一個,可以向上捲曲以獲得微笑,向下捲曲可以皺眉。 下頜也有一個自由度。

發聲系統

機器人的發聲功能是通過發音合成器生成的。 底層軟體(DECtalk v4.5)基於Klatt合成器,該合成器模擬人類關節道的生理特徵。 通過調整合成器的參數,可以傳達說話人的個性(Kismet聽起來像一個小孩)以及為合成語音添加情感品質(Cahn 1990)。

研究進展

在人機遊戲中學習社會行為

我們正在探索如何通過利用培養看護人和未成熟學習者之間產生的互動類型來實現社會地位的學習。 對我們來說,學習者是一個擬人化的機器人平台。 它的主要感官輸入包括視覺,試鏡和其自由度的聯合旋轉。 其輸出包括發聲,頭部和眼睛方向以及面部表情。 機器人被設計成一個複雜的系統,在精神上類似於人類嬰兒。 也就是說,機器人以一種相當無助和原始的狀態開始,並需要一位老練和仁慈的看護人員的幫助來學習和發展。 看護機器人之間的互動純粹是社交的,就像母親與嬰兒的互動方式一樣。 針對學習的各種能力是人類嬰兒在出生後第一年展示的社交和溝通技巧。
這項工作的目標是如何建立一個更開放的學習系統的更大問題。許多基於學習的機器人研究都是針對訓練機器人來學習特定任務,模型,表示等等。通常,研究人員先驗地確定機器人要學習什麼任務(例如在辦公室環境中導航),然後相應地設計學習任務。一旦機器人可以執行任務以達到期望的成功度,則完成學習任務。但是,由於學習算法是針對特定任務精心定製的,因此必須精心設計新的學習算法,以便機器人學習不同的任務。機器人學習算法的設計是一個勞動密集型過程,並且證明難以在更複雜的環境中將當前技術擴展到更複雜的任務。
相比之下,這項工作探討了如何設計一個更開放的學習系統。為此,它深受兒童發展心理學的理論,觀察和實驗結果的啟發。這項研究的核心是弄清楚如何設計一個綜合學習系統,使學習者能夠從先前獲得的技能和認知結構中引導,以學習新的,更多樣化和更複雜的技能。人類嬰兒是我們希望我們的系統模仿的學習類型的主要參展者,通常被描述為具有發展形象,其中早期技能和能力被逐步修改,調整和構建,以產生更複雜,多樣或新的能力。

方法

我們的方法旨在利用人類嬰兒在學習與照顧者互動時可以獲得的許多相同的社會線索,約束和偏見。在學習早期技能時,可以使用從相對原始狀態開始,特別是當系統位於極其複雜的環境中時。與新生兒一樣,早期學習問題被簡化,因為粗略的初始感知能力和有限的運動技能限制了系統必須處理和學習的信息的複雜性。這使嬰兒有機會學習與其當前的感知,運動和認知能力相稱的技能,而不是用麻煩的複雜性轟炸新生兒。此外,看護人通過仁慈地設計環境和滿足嬰兒當前能力的任務,幫助簡化嬰兒的學習問題。例子包括使用顏色鮮艷的物體,吸引嬰兒注意顯著因素,協助嬰兒完成手頭的任務,等等。
學習者和看護者之間的互動形成了一個相互調節的過程。使用來自嬰兒的情緒反饋,護理人員協調學習情節以適應學習者當前的複雜程度。例如,如果學習者過度刺激(過於環境複雜性不堪重負),看護人必須簡化甚至暫停學習情節。或者,如果學習者看起來很無聊,那么看護人會對學習情節引入更多種類或更多難度。在學習過程中,學習者構建內部結構以實現更複雜的技能和能力。因此,它能夠處理稍微複雜的環境。因此,保持平衡,學習者總是有足夠的挑戰去學習已經擁有的東西,但是從來沒有完全被淹沒,所以幾乎沒有機會學習任何東西。隨著發展的進行,新的目標被學習,因為發現了有趣的結果以及實現它們的不同方法。

挑戰

這項工作必須解決許多困難問題。兩個主要問題是建立學習者和看護者之間自然,實時的互動動態,並提出一套適當的學習機制和基礎,以建立內部結構。僅僅感知方面是眾所周知的難題,我們將不得不將感知複雜性與實時性能進行權衡,以便將研究重點放在問題的學習和互動方面(而不是沉浸在複雜的視覺和聽覺處理中) )。這種權衡還有待確定。
從更廣泛的角度來看,這項研究不僅旨在建立一個開放式學習系統,而且還旨在建立一個人類可以與自然,本能的方式進行互動和訓練的系統。人類是高度社會化的生物,並使用各種線索和方式相互溝通。構建可以利用和理解類似社交線索的系統可以使人們更容易使用機器,並使人們能夠以更豐富的方式與機器進行通信。

相關詞條

熱門詞條

聯絡我們