手勢輸入方式:引　言,手勢識別的原理,手勢的概念,手勢識別的原理,手勢的輸入,手關

手勢輸入方式，是一種感測控制方式。

基本介紹

中文名：手勢輸入方式
類型：科技
方式：感測
對象：計算機科學

引　言,手勢識別的原理,手勢的概念,手勢識別的原理,手勢的輸入,手關節的描述,手勢識別,幾何識別法,結束語,

引　言

在虛擬現實中,手是用戶模型中十分重要的動作與感知關係模型,人的行為特徵[1 ,2 ]是人機互動的

重要研究內容。在虛擬環境中用手實現抓取、釋放物體以及飛行、漫遊、導航等三維互動任務和技術,以

往是利用人的觸摸行為和計算機的反應來獲得基於人機互動的手段,一般採用硬設備如空間球、6D 操

縱桿、6D 滑鼠等來實現。但也可用人們的自然技能,通過計算機非接觸式地(如數據手套和攝象機等)

觀察用戶的動作,實現人機互動,這是一種通過手勢識別來了解用戶意圖的、有前途的三維互動新技術。

因為在VR 環境中抓握該環境中的物體,應與用戶手在生活中的動作一致,這一切的研究都是基於運動

學、動力學以及反運動學;這一切還與使用手掌、拇指和每個手指的位置在抓握物體時運用自然、可信的

幾何和物理特徵有關;同時還要使用戶能感知手抓握的作用力。顯然這是一項十分艱巨的研究工作,但

它在人機互動困難的領域(如虛擬現實環境、遙控機器人和電信會議、啞語手勢等) 使用戶不需要訓練就

可用人類自然技能,充分發揮手在互動過程中的自然性、靈活性和適應性。

國內外科學家對手勢識別進行了大量研究。1994 年,Ramon M S 和Dannil T 研製了一種基於物理

約束的手抓取過程的手動作合成的控制與抓取系統[3 ] 。1995 年,Lee J intae 和Kunii Tosiyasv L 研究用

攝像機獲得手的運動圖像數據來自動分析三維手勢[4 ] ,實現三維手勢重構。1997 年,加拿大多倫多大

學的Sidney S F 研究的Glove TalkII[5 ,6 ]系統是目前最有影響的手勢接口系統,他採用神經網路將用戶

手勢轉換成手勢語言參數,通過語言合成器合成為語言輸出。我國高文等人,也進行了基於手勢和人的

行為動作識別的手語合成技術的研究。

手勢識別的原理

手勢的概念

手勢是指在人的意識支配下,人手作出的各類動作,如手指彎曲、伸展和手在空間的運動等,可以是

收稿日期: 2000 - 05 - 15

基金項目: 行業基金項目(院編96311)

作者簡介: 曾芬芳(1940 - ) ,女,湖南益陽人,華東船舶工業學院教授。

執行某項任務,也可以是與人的交流,以表達某種含義或意圖。基於手勢識別的三維互動輸入技術,常

用的有基於數據手套的和基於視覺(如攝象機) 的手勢識別。

人手有20 多個關節,其手勢十分複雜,在VR(Virtual Reality) 中的互動過程,需分析手勢的形成並

識別其含義。如用戶以自然方式抓取環境中的物體,同時還可以對用戶產生相關的感知反饋,如對具有

力反饋的手套,就能使人感知到抓取的物體的重量,對有觸覺反饋的手套,能感知到用戶所碰到的物體

的質感,如毛毯有多粗糙等。所以計算機要能對人手運動的靈活、複雜的手勢進行識別是一項艱難而又

十分有意義的任務。

手勢的分類早在40 年代,心理學家Quek[7 ] . ,Pavlovic[8 ]等人從人機接口的角度對手勢進行研究,

按其功能分為:

手的運動

無意識的手運動

有意識的手運動(手勢

交流手勢

表動作

表符號(手語)

引用手語(如表示數字)

情態手勢

執行任務(如抓握錘)

手勢識別的原理

手勢不但由骨胳肌肉驅動,而且還受人的信念、意識的驅使,它涉及到人的思維活動的高級行為。

人機互動的研究目的之一是使機器對人類用戶更方便,從用戶產生手勢到系統“感知”手勢的過程[9 ]如

圖1 所示。

圖1 　系統“感知”手勢的過程

Fig. 1 　Process of sensing gesture by the system

手的運動,是手勢的表現形式。用戶的操作

意圖是用戶要完成任務的內容, 即用戶心理活

動(概念手勢) G ,經過運動控制(變換) ,用手勢

運動H 表達。由經感受設備(變換Thi) 將手的

運動H 變換為系統的輸入信息I ,所以從G到I

的映射過程為:

Tgh : G → H , 即H > Tgh ( G)

Thi : H → I , 即I > Thi ( H)

Tgi : G → I , 即I > Thi ( Tgh ( G) ) > Tgi ( G)

其中, Tgh 為人體運動控制傳送函式; Thi為輸入設備傳送函式。

手勢識別的任務就是從系統輸入I 推斷、確定用戶意圖G ,顯然是以上映射的逆過程。即

G = T- 1

gi ( I) ( 1 )

H = T- 1

hi ( I) ( 2 )

G = T- 1

gh ( H) ( 3 )

其中, T- 1

gi , T- 1

hi , T- 1

gh 是Tgi , Thi , Tgh 的逆變換。

所以手勢識別可以採用H = T- 1

hi ( I) 時輸入信息I ,得到手的運動H ,再由G = T- 1

gh ( H) 手勢的表

示推斷用戶手勢的概念意圖,也可直接從G = T- 1

gi ( I) 求得概念手勢G。

手勢識別分為靜態手勢和動態手勢的識別,目前的研究大都是線上靜態手勢識別,如Lee 研究的就

是靜態孤立手勢[10 ] 。動態手勢識別難度大,一般採用關鍵幀方法,記錄每個手勢的始和終狀態及手勢的

運動軌跡,然後用內插算法重建幀,但仍需給予限制,如Davis研究的動態手勢識別就規定開始時手必須

朝上等。

手勢的輸入

手勢的語法信息是通過手的構形、手的運動變化來傳遞。為了

給用戶提供必要的視覺反饋信息, 使其在互動過程中看到自己的手

(圖2 是用3DSMAX 繪製) ,同時也為了分析互動過程中手和虛擬對

象之間的相互作用關係,必須建立手幾何模型和運動學模型。

手關節的描述

人手是一個多肢節系統, 由27 塊骨骼組成, 可看成由4 個相鄰

手指、一個大拇指和手掌組成, 每個手指由指段和關節組成。因此手

是一種由關節相連的結構, 隨著關節運動, 手的形狀在不斷變化。這

種變化可以通過指段和關節的狀態空間位置的變化來描述[11 ] 。

每一個手指( Ⅱ - Ⅴ) 具有四個自由度,其中手指的

基部(MP) 有兩個自由度,彎曲和旋轉,手指的中間關節處(PIP)

和末端關節處(DIP) 分別各有一個自由度,主要是彎曲運動。大拇

指除了與其他四個手指一樣具有四個自由度外, 還有一個外展運

動,所以大拇指具有五個自由度(拇指和手掌之間的一節也可不考

慮) 。外加手掌的前後左右運動二個自由度。所以手運動總共具有

23 個自由度,即狀態空間為23 維。

從上述的分析可知,除大拇指外每個手指都具有四個自由度,

從而可以建立一條鏈,以協調手指的機構及運動。整個手可以以手掌為基礎連結五個手指( Ⅰ - Ⅴ) ,在

指段MP 上連結指段PIP ,再連結指段DIP ,每條鏈可以獲取四個參數。從而五個手指以手掌為根節點構

成一個樹型結構,樹中的每一個節點代表一個關節,關節通過指段具有相互關聯的運動特性。

212 　手勢的輸入

手勢的輸入是實現手勢互動的前提。它要求能夠有效地跟蹤手的運動, 又要方便用戶手的運動, 既

要求準確確定手的位置、方位、手指彎曲角度,又要求對手的運動限制很少。就目前而言, 手勢的輸入有

基於數據手套的和基於視覺(攝象機) 等兩種方式。

21211 　基於數據手套的手勢輸入

基於數據手套的手勢輸入[12 ] ,是根據戴在手上的具有位置跟蹤器的數據手套利用光纖直接測量手

指彎曲和手的位置來實現手勢輸入的。本文使用5DT 公司生產的不帶位置跟蹤器的5th Glove 右手數據

手套,每個手指中間關節有一個感測器用於測量手指的平均屈伸度,在手腕部位還有一個2 軸傾斜感測

器測量手的轉動(繞Z 軸旋轉) 和傾斜(繞X 軸旋轉) 兩個角度,以探測手的上下擺動和旋轉。該手套共

帶有七個感測器,因此同一時刻只能讀出七個角度值。5th Glove 還提供命令、報告數據、連續數據、模擬

滑鼠等工作方式,可定義一指、二指和三指( Z 軸) 等手勢來控制虛擬手的飛行、視點、運動速度等。

5th Glove 數據手套通過串列接口與微機連線在一起,以傳送手運動信號,從而控制手動作。它能將

用戶手的姿勢(手勢) 轉化為計算機可讀的數據, 因而使手去抓取或推動虛擬物體。人手在運動過程中

會碰撞物體,所以在系統中,虛擬手的互動操作除了實現抓取和釋放物體等功能外, 還需實現了碰撞的

檢測。

21212 　基於視覺的手勢輸入

基於視覺的手勢輸入是採用攝象機捕獲手勢圖象,再利用計算機視覺技術對捕獲的圖象進行分析,

提取手勢圖象特徵,從而實現手勢的輸入。這種方法使用戶手的運動受限制較少,同時用戶還可以直接

看到手的圖象。基於視覺的輸入所輸入的原始數據是手的圖象,採用重建三維模型來構建手勢圖象,調

節模型參數如手指彎曲角度的夾角等,以合成手的三維圖形。根據手生成的圖形和已獲得的手圖象匹

配,所得到的模型參數就構成了手勢。1995 年,Lee J intae 和Kunii Tosiyasv l. 研究用立體圖像數據自動

分析三維手勢[4 ] 。它用攝像機拍攝手的運動圖像,使用輪廓提取邊界特徵進行識別的方法,成功地提

取27 個互動作用手參數,實現了三維手勢的重構。其實早在1981 年, Kroeger 採用兩個攝象機實現了

一個獲取手勢的系統,它通過用戶的手在與滑鼠墊一般大小的“鏡象盒”的3D 空間中來完成互動。兩

個鏡子被放在大約與前平面成45 度角的位置上,兩個鏡子代替單個鏡子產生了一個虛擬視點,加上兩

垂直平面上的兩個攝象機共三個視點相交成直角,以提供給用戶一個確定的工作空間,在這個空間內允

許用戶與計算機互動。

手勢識別

手勢識別作為三維輸入的實質是識別出用戶通過手勢運動表達自己的意圖。顯然這是一個模式識

別問題,但又不完全相同。目前手勢識別的圖象分類算法很多,如Martin 採用句法模式識別方法[13 ] ,

Sun 採用模板匹配和查表的方法[14 ] ,Quek 使用貝葉斯分類器,Su 等人採用組合神經網路[15 ] ,Huang 等

人採用Hopfield 神經網路法,Boehm 等人使用SOM 法[16 ] ,Kin 採用模糊神經網路識別手勢。從模式識

別的角度來看,不論是使用數據手套,還是攝像機來輸入手勢,不論手勢的表示方法如何,不論採用什麼

樣的特徵提取,都可以採用同樣方法來識別手勢。本文介紹傳統幾何學識別法和通過數據手套輸入手

勢的神經網路識別法。

幾何識別法

傳統的幾何分類法由於算法簡單,實現的識別率可達到92 % ,與神經網路的方法相比,幾何分類法

顯示出了高識別速度和可靠性。它允許定義一個不同手勢類別的特點的特徵集,它估計一個局部最優的

線性分辨器,根據手勢圖象中提取的大量特徵識別相應的手勢類別。已知三個視圖,每個視圖有k 個特

征, 讓n = 2 k ,及特徵向量F = [ f 1 , …, f n ] ,手勢類別Ω1 , …,Ωm 和它們的類別權w i0 , …, win (1 ≤i ≤

m) 。將下面的線性識別函式作用於特徵向量F 上,並求其最大值,得到手勢類別H( F) :

hi = w i0 + 6n

k = 1

wikf k

H( F) = { j : Pk : 1 ≤ k , j ≤ m : hk ( F) ≤ hj ( F) ) }

312 　神經網路識別法

31211 　神經網路識別手勢的基本過程

手指關節角之間存在非線型偶合關係,

只能從手勢的輸入近似計算得到它的表示

H。為了提高系統的回響速度, 減小計算誤

差,可直接根據輸入的數據I 來識別用戶作

出的手勢G。圖4 為神經網路離線訓練和神

經網路線上識別靜態手勢的基本過程。

在訓練階段,使用採集到的手勢樣本對

神經網路進行訓練,近似得逆變換T。手勢線上識別階段,神經網路對輸入的手勢數據進行處理,並將得

到的結果送判決器,由它判決或得到手勢的類別或拒絕識別手勢,有時手勢數據也可以作為新的手勢樣

本添加到訓練樣本中,以使在適當時候對神經網路進行重新訓練。

虛擬現實中用戶是採用人的自然技能進行互動, 系統要實時線上地識別用戶所作手勢及意圖。從

(1) 、(2) 、(3) 式可知,手勢識別的任務是確定未知手勢的逆映射T- 1

gi , T- 1

hi , T- 1

gh , 並運用它們識別手勢。

因此需確定合適的數學模型,對已知模式樣本進行訓練,對手勢進行分類,並將結果與已知類別比較,不

斷修改模型,直到判斷未知手勢與哪一類已知手勢相似與接近,或滿足在一參數子區間。

本文採用5th Glove 數據手套輸入手勢建立了標準手勢庫,通過所讀取的各指節彎曲角度作為神經

網路的輸入節點值,庫中存有手勢:1 、2 、3 、4 、5 、6 、7 、8 、9 、10 、GOOD、BAD、OK 等, 這些手勢分別用1 至

13 間的整數代替手勢。然後對輸入手勢分別採用BP 神經網路[17 ] 和模糊神經網路方法進行了手勢識

別。以下僅介紹模糊神經網路進行手勢識別方法。

31212 　基於模糊神經網路的手勢識別

在文獻[18 ] 中採用多輸入多輸出(MIMO) 標準模糊神經網路模型來對手勢進行識別,其網路結構

由五層組成:

第一層為輸入層。該層的各個節點直接與輸入向量的各分量X [ i ] 連線,它起著將輸入值x = [ x 1 ,

x 2 , …, x n ] T 傳送到下一層的作用。輸入層節點數N1 = n = 7 ,即七維向量X[ n ] ,其中X [ i ] 分別為數

據手套中取出的各個角度值,值域為[ - 90 ,90 ] 。

第二層每個節點代表一個語言變數值。用於計算各輸入分量屬於各語言變數值模糊集合的隸屬度

函式。所用隸屬函式為高斯函式表示的常態分配函式,即:

μji

= e- ( X

- C

)

/σ2

其中i = 1 ,2 , …, n 是輸入量的維數, j = 1 ,2 , …, Mi 是模糊分割數; Cij ,σij 分別表示隸屬函式的中心

和寬度。該層的節點總數N2 = M1 ×M2 ×…×Mn . 系統將該層的每個輸入層的節點模糊化為3 到5 個

分支節點,故共有節點21 至35 個。

第三層是歸一層,它是一個中間過渡性的緩衝變數,它與規則層節點一一對應。它的每個接點代表

一條模糊規則,用於匹配模糊規則前件,計算出每條規則的適用度。如果利用兩種合成運算元,則有兩種適

用度,即取小求解法或連乘求解法求a[ j ] 。該層節點總數N3 = m 。系統對每條規則a[ i ] ,有一個對應

的整型數組變數存放形成它的模糊層中的節點值的下標值,以作備用。

第四層的節點數與第三層相同,即N4 = m ,它所實現的是歸一化計算,即

αj

=αj / 6m

i = 1

αi

, 　( j = 1 ,2 , …, m) ;

第五層是輸出層,它所實現的是清晰化計算———求解結果,即

yi = 6m

j =1

wij αj , 　( i = 1 ,2 , …, r)

這裡的w [ i ] [ j ] ,相當於y [ i ] 的第j 個語言值隸屬函式的中心值,上式寫成向量形式,則為Y = Wα,

其中

Y =

…

y r

, 　W =

w11 w12 … w1 m

w21 w22 … w2 m

… … … …

w r1 w r2 … w rm

, α =

α1

α2

…

αm

該系統的輸出層節點數據結構為十三維的向量Y[ r ] , r = 13 ,其中, Y[ i ] 分別為該節點的輸入節

點值與相應權值的乘積,標準庫輸出層的正確取值範圍為0 到1 之間。該層的節點只有當輸入層節點在

庫中有匹配時才有有效值(約為1 的值) 。所以對於每個輸入的手勢,該層中最多有一個節點值約為1 ,當

隸屬度函式小於允許誤差EPS 時近似取為0 。而接近於1 以致達到誤差允許範圍內的節點下標值,即為

所識別的手勢在標準手勢庫中對應的輸出層下標值,例如:對於某個輸入手勢,有Y[3 ] = 0. 999999 ,達

到了誤差允許範圍, 則網路程式識別出該手勢為“3”( 圖5) ; 而對於另一個輸入手勢, 有Y[8 ]

42　華　東　船　舶　工　業　學　院　學　報2000 年

= 0. 9999998 , 則識別出該手勢為“8”(圖6) 。

圖5 　手勢表示“3”

Fig. 5 　Gesture of“3”

圖6 　手勢表示“8”

Fig. 6 　Gesture of“8”

結束語

手勢識別是VR 中三維人機互動輸入的技術,它具有廣闊的運用前景,國內外都有學者在進行研

究。自1995 年以來,筆者對手運動模型進行了分析和研究,並已設計了一個根據5th Glove 數據手套輸

入手勢,實現了一個虛擬手在虛擬環境中飛行、抓取、釋放等的三維互動作業系統,其手勢識別方法是分

別採用BP 神經網路和模糊神經網路,取得了較好的效果。從實驗結果來看,後者比前者收斂速度更

快,識別能力更強。目前筆者正在嘗試從攝象機獲得手勢並進行識別的研究。

參考文獻:

[1 ] 　GREEN M , SUN H Q. Computer graphics modeling for virtual Environment [A ] . In Barfield Woodrow , Furness Ⅱ

Thomas A. : Virtual Environment and Advanced Interface Design[C] . U K: Oxford University ,1995 , 63 - 101.

[2 ] 　CARROLL J M. Human2computer interaction : psychology as a science of design[J ] . International Journal of Human -

computer Studies ,1997 , 46 : 501 - 522.

[ 3 ] 　RAMON M S , DANICL T. A hand control and automatic grasping system for synthetic actors[J ] . EUROGRAPHICS’

94 ,1994. 167 - 176.

[4 ] 　L EE J , KUNII T L. Model2based analysis of hand posture[J ] . Computer Graphics and Applications ,1995 ,5 (5) :77 -

86.

[5 ] 　FELS S S , HINTON G E. Glove2talk Ⅱ: a neural2network interface which maps gestures to parallel format speech syn2

thesizer controls[J ] . IEEETransaction on Neural Networks , 1997 , 8 (5) : 984 - 997.

[6 ] 　SIDENEY F S , HINTON G E. Glove2talk Ⅱ:a neural2network interface which maps gestures to parallel format speech

synthesizer controls[J ] . IEEETransaction on Neural Networks ,Sept 1998 , 9 (9) : 205 - 212.

[7 ] 　QUEK F K H. Toward a vision2based hand gesture interface[A] . Proceeding of VRST’94 :Virtual Reality Software &

Technology. River Edge[C] . NJ ,World Scientific Publishing Co. Inc ,1994 ,17 - 31.

[8 ] 　PABLOVIC V I. SHARMA R , HUANG T S. Visual interpretation of hand gesttures for human2computer interaction :

a review[J ] , IEEE Transactions on Pattern analysis and Machine Intelligence , 1997 , 19 (7) : 677 - 695.

[9 ] 　焦聖品. 虛擬現實中基於手勢的互動技術[D] . 上海: 上海交通大學博士論文,1999.

[10 ] 　L EE J , KUNII T. Model2based analysis of hand posture[J ] , IEEE Computer Graphics and Application , 1995 , 15 (5) :

77 - 86.

[11 ] 　曾芬芳. 虛擬現實技術[M] . 上海:上海交通大學出版社,1997.

[12 ] 　曾芬芳,梁波林,劉　鎮,等. 基於數據手套的人機互動環境設計[J ] . 中國圖象圖形學報, 2000 ,5 (2) : 153 - 157.

[13 ] 　BURDEA G, COIFFET P. Virtual Reality Technology[M] . USA : John Wiley &Son Inc. ,1994.

[14 ] 　SUN H Q. Hand interface in traditional modeling and animation tasks[J ] . Journal of Computer Science and Technolo2

gy , 1996 , 11 (3) : 286 - 295.

第6 期　曾芬芳等: 一種互動輸入新技術———三維手勢識別43

[15 ] 　SU M C , J EAN W F , CHANG H T. A static hand gesture recognition system using a composite neural network[J ] .

IEEE International Conference on Fuzzy Systems , Piscataway , 1996 , Part2 : 768 - 792.

[16 ] 　BOEHM K, BROLL W,SOKOL EWICZ M A. Dynamics gesture recognition using neural networks : a fundament for

advanced interaction construction[A] . Proceedings of SPIE —The International Society for Optical Engineering Belling2

ham[C] . USA : Society of Photo2Optical Instrumentation Engineers , 1994 , 2177 : 336 - 346.

[17 ] 　曾芬芳,王建華,別小川,等. 基於神經網路的手勢識別[J ] . 機器人,1999 ,1 ,40 - 44.

[18 ] 　曾芬芳,黃國建. 基於模糊神經網路的手勢識別[J ] . 小型微型計算機系統,2000 (7) ,706 - 709.

3D Gesture Recognition —A New Interactive Input Technology

ZEN G Fen2f ang , 　S U Yong , 　CHEN Jie

(Dept . of Electronics and Information , East China Shipbuilding Institute , Zhenjiang Jiangsu 212003 , China)

Abstract : Int roduces a new 3D interactive input technique based on digital glove and video input gesture

picked up by a camera. This technique analyses images with computer and recognizes input 3D images with

neural networks and geomet ry method. It is a new technique with broad application perspective.

Key words : virtual reality ; gesture recognition ; 3D interaction ; neural networks

手勢輸入方式

基本介紹

引　言

手勢識別的原理

手勢的概念

手勢識別的原理

手勢的輸入

手關節的描述

手勢識別

幾何識別法

結束語

相關詞條

熱門詞條

手勢輸入方式

基本介紹

引 言

手勢識別的原理

手勢的概念

手勢識別的原理

手勢的輸入

手關節的描述

手勢識別

幾何識別法

結束語

相關詞條

熱門詞條

引　言