誕生背景
在
達特茅斯會議之後的一段時期內,對人工智慧的研究主要限於符號處理範式(符號主義)。符號主義的局限性很快在實際套用中暴露出來,並催動了聯接主義的發展,形成了包括多層感知機、前向神經網路、循環神經網路,直至今日風靡學術界與產業界的深度神經網路等多種方法。這種用人工神經網路模擬認知過程的方法在適應、泛化與學習方面的確取得了很大的進展,但並未真正解決智慧型體與真實物理世界互動的難題針對以上問題,“具身智慧型”(Embodied AI)概念應運而生。
發展歷史
1950年,在圖靈論文《Computing Machinery and Intelligence》中具身智慧型被首次提出。
1986年,布魯克斯從控制論角度出發,強調智慧型是具身化(Embodied)和情境化 (Contextlized)的,傳統以表征為核心的經典AI進化路徑是錯誤的,而清除表征的方式就是製造基於行為的機器人。《How the Body Shapes the Way We Think》中通過分析“身體是如何影響智慧型的”對“智慧型的具身化”做了清晰的描述,這些工作為人工智慧的第三個流派——以具身智慧型為代表的行為主義方法奠定了基礎。
2023年,2023半導體大會上,英偉達創始人黃仁勛表示具身智慧型(Embodied AI)是能理解、推理、並與物理世界互動的智慧型系統,是人工智慧的下一個浪潮。
2024年3月17日,
OpenAI與人形機器人初創公司Figure合作推出了Figure 01機器人。一段長達2分35秒的視頻展示了Figure 01驚人的理解、判斷、行動和自我評估能力。
2024年3月23日,2024全球開發者先鋒大會開幕式上,上海市副市長
陳杰表示,將加強核心技術的突破,推動智慧型晶片關鍵技術和套用適配,打造更多元開放的智慧型計算生態,支持通用大模型和垂直大模型的研發,積極推進大模型和具身智慧型的融合發展。
理論支持
根據具身智慧型的技術實現邏輯,“知”是建立在“行”之上的,只有通過“具身”才能理解某個場景。甲骨文等古老漢字,絕大多數就是通過行為的表征來刻畫一個概念,比如“爭”的古老寫法中,代表兩個人的手拔一根繩子,因此,理解行為才是理解概念及場景的關鍵。
具身的概念是可檢驗、可測量的。人所理解的世界概念,其中既包括人類獨有的責任心、榮譽、感情、欲望等非具身的概念,也包括了杯子、車等實體以及相應行為的具身概念。
“知行合一”是具身智慧型的科學立場。根據具身智慧型的技術實現邏輯,“知”是建立在“行”之上的,也就是說只有通過“具身”才能理解某個場景。
特徵特點
具身智慧型首先要具備可供性。可供性意味著要讓機器知道物體和場景能夠提供的是什麼,比如整個身體、部件怎么和場景進行有效擬合。
具身智慧型還要具有功能性。具身智慧型在把物體作為工具使用的過程中,要能夠以任務執行為導向去理解功能。
具身智慧型需要實現因果鏈。就以上提到的“鏟土”例子,智慧型體能否順利鏟起土來是有因果關係的,例如控制揮動錘子的方式、動量、衝量等指標的改變程度和改變過程,需要用數學和物理的因果鏈來控制。
發展困境
智慧型體學習如何使用工具涉及到多個認知和智慧型過程,這個過程即使對人類來說也並不容易。讓機器人掌握工具使用所涵蓋的所有技能是一項有挑戰性的難題。
這項工作包括三個層面:其一是底層的運動控制。很多研究基於阻抗控制(Impedance control)來跟蹤工具使用的運動軌跡,或在不同階段改變力和運動約束,或使用基於學習的方法來控制機器人運動軌跡。在底層控制中,魯棒地執行運動軌跡是關注的核心。
其二是中間層表征。各種利於下游任務的中間表征被提出,以便更好地理解工具的使用。儘管引入這些表征有利於學習更多不同的工具使用技能,但它們目前仍然局限於工具的形狀和任務之間的幾何關聯。
其三是理解在工具使用中的涉及的高層概念,比如物體的功能性(Functionality)和可供性(Affordance),以及工具使用中涉及的因果關係與常識,從而實現更好的泛化能力。