手勢識別系統的發展前景

作者:庫什納(David Kushner)

我曾經能控制天氣,至少有過一次。在美國密歇根州安阿伯Cybernet Systems 技術研發公司一個沒有窗戶的演播室裏,我站在一塊綠色的背景幕前。面前有一部數碼攝像機,正在將我的影像實時傳送到一個電視監視器。監視器上的背景是一個典型的晚間天氣預報畫面,我出現在那畫面中,站在一幅美國中西部地圖前。我將一隻手伸到代表底特律的光點上方轉動了幾下。地圖中的底特律地區立即開始放大,轉眼間佔據了整個畫面,而且清清楚楚。各位朋友,瞧,看樣子那地方將要下雨。

這是Cybernet 研製的GestureStorm 軟件系統。使用這種系統後,天氣預報員只需將手輕輕撥動幾下就能製造出特別的視頻效果來配合他們所預報的天氣。沒有電線,沒有按鈕,也沒有古怪嚇人的影聲控制檯。將一隻手這樣動就能使屏幕出現微雨或雷雨,而那樣動就能煽起一個龍捲風。換句話說,手勢就是界面。

這只是一個開端,這種技術在將來還會有很多其他應用。研究人員的目標是將手勢識別技術發展成爲遙控工具,讓我們可以靈活、隨心所欲地與周圍的數碼設備互動。請回想一下美國電影《少數派報告》(Minority Report)。在這部電影中,男主角克魯斯(Tom Cruise)站在一臺未來的數碼顯示器前,對着大量連續湧現的圖像和文件指指點點並不時揮手,抽絲剝繭地進行調查。這種事情以前只能在科幻小說中見到,但如今終於在我們的現實生活中漸漸出現了。

2003 年12 月,美國佛羅里達州奧蘭多的WKMG 電視臺開始應用GestureStorm,成爲第一家使用這種系統的電視臺。在2003 年7 月,索尼計算機娛樂公司(Sony ComputerEntertainment)發行了EyeToy 。這是PlayStation 2(PS2)遊戲機的外圍設備,通過使用一種特別的軟件和一部並不昂貴的數碼攝像機,能將玩遊戲者的視頻資料傳輸到遊戲的畫面中,甚至使遊戲與玩遊戲者互動。例如,玩遊戲者如要攻擊一個歹徒,再也不必猛按控制器上的按鈕,只需象空手道那樣朝他劈手一砍就行了。

2004 年,有兩家公司推出了虛擬鍵盤讓用戶可以用手勢來控制個人數字助理(PDA)和某些機動設備。Cybernet的研發副總裁科恩(Charles Cohen)認爲,手勢識別技術的時代已經到來。他說:“手勢識別是一種只需揮一下手的遙控技術。”

我給底特律上空攪起了幾團暴風雲之後,立即明白了他這句話的含意。當然,正如科恩和其他研發這種技術的科學家所瞭解的那樣,扮演天氣預報員是一回事,而將手勢識別技術引入日常生活卻是另一回事。

樂在其中

就手勢識別技術這一領域而言,要評定什麼是它最拿手的本領,最好的評審員也許是一個年僅4 歲的孩子。我首次將自己的PS2 遊戲機連接到一部EyeToy 時,就邀請了這樣一個孩子幫忙。

EyeToy 是一種小巧的設備,可發展爲流行的手勢界面。它敏銳、有趣、有形化,而且體現了手勢識別產品的前景。這個前景就是自由,讓用戶可以擺脫那些擁有14個按鈕的控制器、鍵盤、鼠標及電線。美國紐約Jupiter Research 技術研發公司的首席分析師拉茲羅(Joe Laszlo)說:“所有人都認同鍵盤不一定是最佳的互動工具。”

EyeToy 可能是市場上第一種可用來取代鍵盤或遊戲控制器的手勢識別設備。該產品是一臺黑色肋骨狀的長方形數碼攝像機,大小相當於一副撲克牌,其插頭可插入PS 遊戲機前端的一個USB 端口。在美國,你支付約50美元就可以買到一部這樣的攝像機,外加一片載有12 種遊戲的CD 光盤。將這一設備連接到PS 遊戲機,再將它放在電視機的頂上,鏡頭向前。一個人體輪廓會出現在屏幕的中央,而這時你應該走到鏡頭前面站好,將你自己的影像填進那個輪廓。

我對4歲的女兒說:“小寶貝,到這裏來吧。”我幫她站到適當的位置,讓她的影像正好在那個輪廓的中間。她謹慎地對她自己的影像揮了揮手,然後問:“遊戲在哪裏呀?”我回答:“你已經在遊戲裏了。”

在屏幕中,我女兒影像的前方飄浮着許多五彩繽紛的圓盤。每一個圓盤代表一種遊戲,當她決定要玩哪一種時,必須朝相應的那個圓盤揮一揮手。這些遊戲都很簡單,很容易玩,簡直象雅達利公司(Atari)的經典網球和戰鬥遊戲的21世紀版本。其中有一個拳擊遊戲、一個玩雜耍遊戲和一個跳舞遊戲。

我女兒喜歡聽擦窗遊戲Wishi Washi 中的聲音,於是我們選擇了這個遊戲。轉眼間,在她的影像前面佈滿了肥皂泡沫。這一遊戲的目標是將屏幕“擦”得乾乾淨淨,在過程中會不斷播放爵士音樂。起先我女兒有些猶豫,手臂只是輕輕揮動,彷彿在製造雪人,屏幕上的泡沫相應消失了些許。攝像機把她的一舉一動實時顯現在屏幕上,不久,她明白除了用手之外還可以用其他方式,於是她又跳又踢,不時傾身向前或拍打,幾乎什麼動作都用上了,終於將肥皂泡沫全部擦乾淨。玩視頻遊戲竟然玩到滿頭大汗,這是很少見的。

事實上,有很多人經常在EyeToy 前面玩得汗流浹背。在遊戲行業中,銷售量達到50 萬套可以說是非常成功了。而到2004 年3 月爲止,EyeToy 在美國已賣出了50 多萬套,在歐洲的總銷量則超過200萬套。

施展魔法

EyeToy 攝像機所拍攝的錄像首先會被壓縮,然後被饋送並穿過USB 端口。錄像一旦進入了PS2 遊戲機,就會被以“概念減法”(Conceptual subtraction)進行處理,即比較其在連續畫面內的影像。對於這項處理工作,PS2 遊戲機只需動用其處理能力的10%,留下90%的能力來表現遊戲本身的爆炸效果、泡沫浴和其他圖形特徵。 以往的EyeToy 只能做到動作偵測,不過未來的版本將包括更多先進特點。例如,索尼公司已研製出一種新型EyeToy軟件,能在一個環境中追蹤不同的色彩,甚至不同的面部表情。它還具備更妙的手勢識別功能。例如,它能使《哈利·波特》視頻遊戲變得非常逼真:你用自已的魔杖畫一個三角形就能使屏幕上出現一股風暴式烈火,畫一個圓圈就能將敵人變成一堆白雪或石頭。

美國索尼計算機娛樂公司研發部特殊項目經理馬克斯(Richard Marks)說:“你只需在空中畫出各種形狀就能施展出各種不同的魔法。”EyeToy 就是馬克斯研發出來的。馬克斯以前曾在加州莫斯蘭丁的蒙特裏灣水族館研究所工作,負責研發供水下機器人操作的攝像機,而當時他已經開始研究“計算機視覺”(這是一種可以使計算機辨別周圍物體的技術)。他說:“當時我就認爲PS2可以進一步發展到具有良好的計算機視覺。”

但整套機器最初仍存在着一些缺陷。例如,USB 端口只有有限的數據處理能力,而這會導致視頻失真,使用戶無法在線上進行多人EyeToy 遊戲。此外,如果環境明亮且紛雜(例如在一個典型的家庭房間裏),這一軟件可能難以識別玩家的動作。不過PS3 遊戲機正式上市時,這些問題已經消失。

新一代的控制檯包括一個USB 2.0 端口(速度比USB 1快40 倍),可以令失真度大大減少。用戶在明亮且紛雜的背景中玩遊戲時,可能需要揮動一根桃紅色的遊戲杆或戴上專用手套,好讓軟件能夠更容易識別其手勢。索尼正在陸續發佈各種軟件工具,以幫助不同的遊戲開發商利用這一新技術設計新遊戲。

最終目標是你不需要任何道具。馬克斯說:“你需要的惟一工具就是你的手。”

天作之合

Cybernet 從一開始就將其主要目標定爲將手勢界面技術商業化。我曾經凝視過計算機屏幕無數個小時,但這天早上在該公司的辦公室裏,情況看起來卻有點不同。屏幕上有一批典型的文件夾和程序圖標。然而,當我注視左上角的Internet Explorer 圖標時,奇怪的事發生了。我的眼睛望向哪裏,光標就移動到哪裏。沒有鼠標,沒有鍵盤,我的雙手一直一動不動地放在我的兩邊。它真的象一塊魔板!

我使用的是Navigaze這是一種完全基於眼球運動的新界面,例如,你再也不用雙擊鼠標,改爲眨兩下眼睛就行了。採用了Navigaze 後,即使是全身癱瘓的病人也能上網到處瀏覽。Cybernet 在數年前同時推出Navigaze及改良版的遊戲技術“用頭指揮”(Use Your Head)。這種系統最初在2000 年面市,你只需擺動腦袋就能輸入方向指令。一部攝像機負責追蹤玩遊戲者的頭部運動,而屏幕中的影像會相應地改變。例如,你把頭偏向左,你的視野會轉向左邊,把頭偏向右,視野就會轉向右邊。

Cybernet 在20 世紀80 年代以研發力反饋技術而出名。所謂力反饋技術,就是如今應用於視頻遊戲、汽車工業及醫療業的觸覺技術。科恩認爲手勢識別技術是另一個即將興旺的領域。他說:“手勢識別技術的發展情況相當於10 年前力反饋技術的發展情況。”

Cybernet 於1998 年開始進軍手勢識別技術。當時,美國陸軍與該公司簽約,委託該公司創建一個以手勢爲基礎的計算機培訓系統,讓受訓者可以利用一系列的手部動作來指揮一隊模擬士兵。其後,美國國家航空和航天局(NASA)也委託該公司建立一個基於手勢、供公衆使用的查詢服務檯,但這一項目最終未能成功。科恩說:“那些學生總是將口香糖吐在服務檯上,弄得一團糟。”

該公司致力於研發手勢界面程序,包括一種能在指揮控制地圖上處理圖像的軍用系統。某電視臺的主管從報紙上讀到有關這一程序的報道之後,表示有興趣將這種技術應用於天氣預報節目。科恩回憶道:“我當時立即就說:‘真可以說是天作之合!怎麼我們從來沒想到過這樣做呢?’”

這種軟件之所以特別適用於電視天氣預報節目,其中一個主要原因是天氣預報節目的環境無需採取特別措施去控制。你使用EyeToy 時必須站在某一特定位置,否則攝像機不能產生作用。如果有人擋住了攝像機的鏡頭,屏幕會變得一片空白。電視天氣預報員總是站在一個連貫且毫無障礙的背景之前,因此上述情況可以完全避免。

虛擬鍵盤

雲開雨停了,我的GestureStorm 表演已接近尾聲。我決定吹一口氣將雲送走,讓底特律恢復平靜、安寧。
我和科恩在附近一家意大利餐廳用午餐時,他指出,手勢識別技術並非用來取代鍵盤和鼠標,而是要彌補它們的不足。他說:“我不會說手勢識別技術是最好的、萬能的。”

事實上,有一種很有趣的應用程序說明了手勢識別技術怎樣與常規界面密切配合。美國加州聖何塞Canesta 公司研發的一種裝置(在2004 年年底上市)把手勢識別技術引入PDA。這種裝置利用一個內置於PDA 的微小鏡頭,將一幅鍵盤圖像投射到一個平面(例如辦公桌的桌面)上。然後,一束射在鍵盤圖像上方的紅外線能即時準確地感應出用戶手指的位置。其原理是這樣的:這種裝置能監控紅外線的脈衝,測量它們從離開發射器到觸及移動中的指尖而反射回來,最終抵達PDA 中的傳感器所需的時間。脈衝來回所需的時間就相當於一段特定距離,於是它們提供了一幅三維圖,顯示指尖曾在鍵盤上按了哪些鍵。因此,無論用戶在虛擬鍵盤上鍵入什麼內容,這些內容都會即時被PDA 以數字化形式獲取。 這種裝置以每秒50 多個畫面的速度運作,因此即使遇上最快的打字員,它也能追得上。此外,通過利用紅外線來測量目標的距離,它也許還能解決索尼和Cybernet 仍未解決的一個問題,即如何在明亮或紛雜的背景中識別手勢。例如,當我女兒採用EyeToy 玩Wishi Washi 遊戲時,假如我從攝像機所對着的背景前經過,她的遊戲會立即變得一團糟。如果採用Canesta 公司的技術,讓紅外線只對準我女兒,遊戲就不
會因爲我的出現而受影響。

Canesta 公司計劃向每年銷售額高達110 億美元的視頻遊戲業進軍。此外,以色列耶路撒冷的VKB 公司也在2004 年年底推出一種頗具競爭力的虛擬鍵盤,所用的技術類似Canesta 所用的。

情感信息

除了可以應用於虛擬鍵盤、天氣預報和視頻遊戲之外,手勢識別技術也許還能在許多不同的環境中改變人與計算機互動的方式。

多年以來,世界各地許多大學一直在研究這種技術。例如,美國喬治亞理工學院的研究人員正在探索如何利用手勢識別技術來幫助減少汽車意外事故。該校的一個研究小組在斯塔納(Thad Starner)領導下已發明了一種“手勢儀表板”,用來取代傳統的儀表板控制裝置。在汽車上安裝了這種新型儀表板之後,汽車駕駛員要調整車廂內的溫度或音響系統的音量時不必再把視線移離馬路。他只需將手伸到一個指定的區域做一個手勢,就能做到他想做的事。

美國麻省理工學院媒體實驗室的研究人員也研究如何利用手勢改進各種不同的娛樂設備。例如,StoryMat 能識別兒童遊戲墊上某些特定玩具的動作,並根據這些動作產生反應。另外,“會講話的虛擬人”(Conversational Humanoid)能通過一具配戴在用戶身上的電磁追蹤裝置感應用戶的動作,然後產生反應。其他的研究項目包括探查手勢和姿態所傳達的情感信息。該媒體實驗室情感計算研究組的主任皮卡德(Rosalind W. Picard)說,研究已經表明,我們可以爲機器編程,用來幫助識別兒童在與教育軟件互動時所表現出來的情緒。一種能夠感應這類情緒反應的程序會相應地作出反應,例如,也許會在那些兒童顯然感到厭煩且懨懨欲睡時啓動一些有趣的活動。

有些研究人員正嘗試爲微軟產品配置手勢界面。在20 世紀90 年代,英國劍橋大學的研究人員研發了一種名叫小丑(Jester)的試驗性系統,應用手勢識別技術Windows 操作系統中“衝浪”。可是,這種系統始終未能走出實驗室。另一方面,一種爲流行的演示軟件PowerPoint 研發的手勢界面看起來很有希望取得成功。Cybernet 的科恩正在研發這種界面。它可能只需要演示者戴上一隻特別的手套,好讓計算機視覺系統識別。研究人員指出,這種時髦界面的可能用途會多到超出我們的想象

不過,目前還沒有什麼東西能象我正在使用的普通鍵盤這麼有效率、這麼反應敏捷。鍵盤在任何強度的光線下都能正常運作,而且即使我的孩子突然衝進房間,它也不會受到影響。在一個鼠標的幫助下,鍵盤使我能在轉眼間便將文件調出來並打開。

分析師拉茲羅說:“無論何時,如果你想引進一種新的用戶界面,它是否簡單和容易操作總是成敗的關鍵。當年鼠標問世時也不是一下子就得到大衆接受。”

毫無疑問,這給Cybernet 等公司帶來了一些希望。畢竟,沒有什麼比揮一揮手更容易了。

 

上述文章來源於:http://www.techcn.com.cn/index.php?doc-view-135071.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章