024章 感知

Post date: 2013/6/19 下午 02:59:13

本章中,我們把電腦與原始的、未經修飾的世界聯繫起來。

感知透過解釋感測器的回應,而提供了代理人其所處的世界之相關資訊。感測器量測環境的某

面向時,其形式可供代理人程式作為輸入。這個感測器可簡單如一開關,其利用一位元判別是否處

於開啟或關閉;或者複雜如人眼。目前的人工代理人已可以使用許多不同的感測模態。其中與人類

共有的包括視覺、聽覺和觸覺。無輔助之人類不能獲得的感測模態包括如,無線電波、紅外線、GPS

以及無線訊號。有些機器人會進行主動感測(active sensing),也就是說它們發射出一個信號,例

如雷達信號或超音波,然後感覺從環境中反射回來的信號。我們並不想要討論所有的感測方式,

本章中將深入探討其中一個模態:視覺。

感測器模型

物體模型

渲染模型(rendering model)

特徵擷取(feature extraction)

辨別(recognition)

重建(reconstruction)

成像

影像會使物體外貌失真。比方說,一張從一端看鐵軌的照片,可能讓人會以為鐵軌最後會合在

一起。另一個例子是,如果你將自己的手擋在眼睛前面,你可以擋住月亮,但實際上月亮遠大於你

的手。當你前後移動手掌或是將手掌傾斜,你的手呈現的影像看起來會放大或是縮小,但是實際上

並不是這樣(圖24.1)。這些效應的模型對於辨別與重建都非常重要。

無透鏡影像:針孔照相機

影像感測器收集在一場景或環境中從物體散射出來的光線,並且產生一個二維影像。在眼睛當

中,這個影像會成像於由兩種細胞所組成的視網膜處這兩種細胞包括對於各個寬廣波長光線很敏感

的一億個桿狀細胞,以及五百萬個錐狀細胞。錐狀細胞主要用於辨別色彩,其有三種主要的形式,

每一種形式會對應到特定波長。在照相機中,影像會成像於一平面上,此平面可以是帶有鹵化銀的

薄底片,或者是一個小方塊上帶有數以百萬計的感光像素,其可以是互補金氧半導體(complementary

metal-oxide semiconductor,CMOS)或者是感光耦合元件(charge-coupled device,CCD)。當每個光子

抵達感測器時會產生一個光電效應,其強度由光子的波長決定。感測器的輸出,是來自某時段中所

有光子的總效應,這表示影像感測器所感測到的是抵達感測器的光平均強度。

針孔照相機(pinhole camera)

透視投影(perspective projection)

消失點(vanishing point)

透鏡系統

針孔攝影機的缺點是我們需要有一個針孔讓影像聚焦。但是針孔越小,穿過針孔的光子就越少,

表示影像會很暗。我們可以透過將延長針孔開啟時間以收集到更多光子,但是我們會讓影像動態模

糊——當環境中的物體在移動時,因其會在不同位置傳送光子到影像平面上,因此會看起來很模糊。

若我們不能讓針孔開啟的時間更長,我們可以使它看起來大一些。更多光線將會進入,但是從場景

中小物體來的光線將會在影像平面上佈成一塊,造成一個模糊的影像。

縮放正交投影

光與影

影像當中某個像素的亮度,是由場景中某個表面部份的亮度函數,投影到像素上而決定的。我

們會假定其是一個線性模型(目前照相機在極亮與極暗處會使用非線性模型,但在中間值部分大多數

是線性)。影像亮度是一個(若模糊的來說)很強的物體形狀暗示,並以此得到物體識別。人們通常區

分不同亮度的三個主因,並且將它們重建而得到物體的性質。第一個原因是整體光強度。即使一個

全白的物體放在陰影之下,其有可能比在直射的太陽光下的黑色物體看起來要暗淡,眼睛可以清楚

分辨相對亮度,並且感知白色物體是白色的。第二,場景中的不同點可能會反射不同程度光線。通

常,其結果是人類會感知到這些點是較亮或是較暗,並且了解物體的紋理或標記。第三,面光的表

面區域通常會比側光或背光面較亮,而後者便是我們所知的陰影。一般來說,人類可以分辨來自於

物體形狀的陰影,但是有時候陰影和標記會混淆。比方說,在顴骨下方畫上深色的線條,通常會看

起來像是陰影,而使得讓臉看起來比較瘦。

漫射反射

鏡面反射

鏡面反射性

遠處點光源

反照率(albedo)

蘭式餘弦定律

陰影

交互反射

環境照明度

色彩

水果或果實是植物用來吸引動物協助其傳播種子的一種賄賂。樹木的果實成熟時,其會轉成紅

色或黃色,而動物也演化成能夠偵測這些顏色的變化。抵達眼睛不同波長的光帶有不同的能量;這

可以用一個頻譜能量密度函數來表示。人類眼睛可以感應到380-750 nm 波長範圍的光線,其由三種

不同的色彩接收細胞來感應,其峰值分別為420 mm(藍色),540 nm(綠色),以及570 nm(紅色)。人

類眼睛僅能夠抓到全光譜能量密度函數中的一小部份——但是這已經足夠去區分水果是否已成熟。

三原色原理

色彩一致(color constancy)

初級影像處理運算

邊緣檢測

邊緣(edge)是影像中的直線或曲線段,在它們附近的影像亮度有「顯著的」變化。邊緣檢測的目

標是根據大量的、成百萬位元組的影像資料進行抽象,形成更緊湊、更概括的表示方式,如圖24.6

中所示。這樣做的動機在於,影像中的邊緣輪廓與重要的場景輪廓相對應。在圖中,我們有三個深

度不連續的例子,標為1;二個表面法線不連續的例子,標為2;一個反射不連續的例子,標為3;

一個亮度不連續(陰影)的例子,標為4。邊緣檢測只關心影像,因此不區分場景中這些不同種類的不

連續,不過後面的處理將進行區分。

高斯濾波器

卷積(convolution,記作f ∗ g )

紋理

在日常用語中,紋理是某個表面視覺上的感覺——你所看到的會引起你去想到如果你碰觸這個

表面的感覺[「紋理」(texture)這個字和「紡織品」(textile)具有相同的字根]。在電腦視覺當中,紋理

表示在一表面其空間上重複出現的形式,可以被視覺所感覺。範例包括建築物窗戶組成的圖案、毛

衣上縫線排列、美洲豹皮膚上的花斑、草地上一片一片的草、海灘上的卵石,以及體育場中的人群。

有時紋理排列具有明顯的週期特性,就像毛衣上縫線排列。而在其他的例子中,例如海灘上的卵石,

這種規律性只有統計上的意義。

光流

下一步,讓我們考慮當有一個錄影序列時會發生什麼事,而不僅是一個單一靜態影像。當在錄

影中某物體移動時,或者當攝影機相對於一個物體在移動時,影像中的相對應顯著動作稱之為光流。

光流描述了影像中紋理動作之方向與速度——賽車影像的光流會以每秒多少像素來計算,而非每小

時多少英哩。光流包含許多關於場景結構的有用資訊。例如,從一輛行駛著的火車上所擷取下來的

錄影當中可發現,遠處物體比近處物體的外表運動要慢得多。因此,外表運動的速率可以告訴我們

一些關於距離的資訊。光流同時也可以讓我們確認動作。在圖24.10(a)和(b)中,我們可看到一段從

網球選手錄影中所擷取下來的兩幅影像。在(c)中我們可看到從這些影像中所計算出來的光流向量,

顯示球拍和腿部移動速度最快。

差值平方和(sum of squared differences,SSD)

影像分割

分割是指將一個影像分割成數個具有類似像素區域的過程。每個影像像素都可以與某種視覺特

性有關,諸如亮度、色彩和紋理。在一個物體中,或者是它的單獨一部分中,這些屬性的變化相對

非常小,而穿過物體之間的邊界時,典型情況下這些屬性中的一個或多個會出現較大的變化。分割

有兩個方式,其中一個是檢測這些區域的邊緣,另外一個是檢測區域本身(圖24.11)。

藉由外表之物體辨識

外表是一個物體看起來像什麼的速記。某些物體分類——比方說,棒球——在外表上的差異性

不大;在同一分類中的物體在大多數環境中看起來一樣。在這個例子中,我們可以計算出一連串的

特徵來描述影像的每個分類,其所可能包含的物體,之後以一個分類器來測試。

其他物體分類——例如房子,或是芭蕾舞者——可能會差異很大。房子可能具有不同的尺寸、

顏色以及形狀,同時從不同的角度看起來會差異很大。一個舞者在不同姿勢,或是不同舞台燈光下

看起來都不一樣。一個有用的抽象化是這樣說,某些物體是由局部圖樣所組成,這些圖樣很容易相

對彼此移動。那麼我們可以這樣發現物體:觀察檢測器反應的局部色彩分佈圖,其顯示出某部份是

否存在,但是卻壓抑了其所在處的細節。

滑動視窗

複雜外表與圖樣元素

圖24.13 外表差異來源。首先,元件可能會透視縮短,如同左上方的圓形區塊。這個區域是斜著看,所

以在影像中為橢圓。第二,從不同的方向來觀看物體時,其形狀會有戲劇性的改變,這個現象稱之為視

角(aspect)。在圖右上方,是三個甜甜圈的三個不同視角。圖左下方的馬克杯把手則是,當馬克杯旋轉到

一個地方時會消失,此種現象稱之為阻擋(occlusion)。在這個情況下,由於本體以及把手均屬於相同的馬

克杯,我們有自我阻擋。最後,在圖右下方,有些物體能大幅變形

許多物體會比人臉產生更多更複雜的形式。這是因為有許多效應可以改變物體影像中的許多特

徵。這些效應包括了(圖24.13):

● 透視縮短,表示某個以傾斜角度觀看時會產生顯著失真。

● 視角,其表示從不同角度觀看時,物體形狀會有差異。即使簡單如甜甜圈的物體也都會有好幾個視角;從側面看,看起來是個被壓扁的橢圓,但是從下方觀看,其變成一個環。

● 阻擋,表示從某些觀看角度來看,某部份會被隱藏。物體可能會阻擋到別的物體,或是部份物體會阻擋到其他部分,此種稱之為自我阻擋。

● 變形,物體內的自由度可以改變它的外觀。比方說,人們可以移動他們的手臂以及雙腳,而產生許多不同的身體組態。

然而,我們先前以不同比例搜尋以及搜尋不同位置的方法在此也可以適用。這是因為出現在影

像內的某些結構也是來自於物體本身。比方說,一台車子的相片裡可能會顯示部份的頭燈、車門、

輪子、車窗、車頂等,雖然它們在不同的圖片中會以不同的方式呈現。這建議要對帶有圖樣元素的

物體進行模組化——收集組件。這些圖樣元素繞彼此移動,但是若大多數圖樣元素出現在大概對的

位置時,那麼該物件就會出現。一個物體辨認器將會收集特徵,並且分辨是否有特徵元件存在,以

及是否它們位於正確的位置。

以HOG 特徵來進行行人偵測

世界銀行估計每年車禍意外奪走一百二十萬人的生命,其中三分之二都是行人。這表示偵測行

人是一個很重要的應用問題,因為車子若是可以自動偵測並且避免行人的話,就可以拯救許多生命。

行人會穿著不同的衣著且以許多不同的外貌出現,不過在相當低的解析度時,行人可以具有一個相

當顯著特徵的外表。最常使用的範例是走路時正面或是側面的影像。在這些案例中,我們通常看到

一個「棒棒糖」形狀——軀幹比腿要寬,其在一個走路時的姿態——或者是一個「剪刀」形狀—在

走路時雙腳擺動。我們期望能看到某些手和腿的證據,肩膀和頭的附近曲線也會變得容易看見且分

辨。這表示,如果有一個小心建立的特徵架構,我們可以建立一個可用的移動視窗行人偵測。

HOG 特徵(Histogram Of Gradient orientation,梯度方向分布圖)

重建三維世界

● 若我們擁有來自兩個(或以上)不同位置攝影機的影像,因此我們可以在場景中以三角定位方式找

出該點的位置。

● 我們可以利用有關實際場景的背景知識並且將它加入影像當中。給定一個物體模型P(Scene)及

一個渲染模型P(Image | Scene),我們可以計算出一個後驗分布P(Scene | Image)。

對於場景重建目前尚未有一個統一的理論。我們調查了八個最常使用的視覺線索:動作、雙目立體

視覺、多重視角、紋理、明暗、輪廓、以及熟悉物體。

運動視差

如果照相機在三維場景中有相對移動,則在影像中的明顯運動,也就是光流,可以同時得到照

相機移動以及場景深度的兩個資訊。欲了解這個,我們陳述(但不加以證明)一個方程式,其將光流與

觀看者的平移速度T 以及場景深度這兩者建立起關係。

輻輳點(focus of expansion,FOE)

1. 假設有一隻蒼蠅正設法落在牆上,那麼它想要知道在當前速度下經過多長時間能夠接觸到牆。

這個時間由Z/Tz 給出。注意,雖然暫態的光流場既不能提供距離Z,也不能提供速度分量Tz,

但是它能夠提供二者的比值,因此可用來控制降落的過程。已經有許多實驗數據證明很多昆蟲

或動物種類都會使用這個暗示。

2. 分別考慮在深度Z1 及Z2 的兩個點。我們或許不會知道其絕對值,但是我們可以透過考慮在這些

點上光流的倒數,我們可以計算出深度比值Z1/Z2。這是運動視差很重要的特徵,也就是當我們

坐在移動的火車或是汽車時會發現的現象,較遠的地標移動速度會較慢。

雙目立體視覺

大多數脊椎動物具有兩隻眼睛。在失去一隻眼睛的情況下,這是一種有益的冗餘,不過除此之

外還有一些其他方面的好處。多數被捕食動物的眼睛長在頭的兩側,使它們具有更寬闊的視野。而

捕食動物的眼睛則長在前面,使它們能夠利用雙目立體視覺(binocular stereopsis)。這個概念類似動作

視差,除了不是使用隨時間變化的影像,我們使用空間中分開的兩個(以上)影像。因為場景中的一個

給定特徵相對於每個影像平面的z 軸的位置是不同的,所以當我們把兩幅影像重疊在一起時,兩幅

影像中的影像特徵位置將會出現視差(disparity)。你可以在圖24.16 中看到這一點,金字塔狀物體離

我們最近的那一點在右邊影像中移到了左邊,而在左邊影像中移到了右邊。

注視(fixate)

基線(baseline)

多重視角

從光流或是立體視差中所看到的形狀是兩個一般架構中的例子,其從多個視角中找出深度。在

電腦視覺中,沒有理由限制不可以對動作作微分或是僅使用兩台攝影機在交錯在注視點。因此,有

許多技巧已經發展出來,其利用在多重視點(即使來自數百或數千台相機)中可得的資訊。以演算法來

說,基本上有三個子問題需要解決:

● 對應性問題,亦即,辨別不同影像中的特徵,影像是三維世界裡相同特徵之投影。

● 相對方位問題,亦即,決定固定於不同相機的座標系統間的轉換(旋轉及平移)。

● 深度估計問題,亦即,決定世界中不同點的深度,其中影像平面至少可由兩個視點獲得。

紋理

先前我們看到如何使用紋理來分割物體。這也可以用來估計距離。在圖24.20 中我們看到一個

場景中的同質紋理,可以產生影像中不同的紋理元件,或稱為圖素。所有在(a)圖場景中的行人道磚

塊都是一致的。它們在影像中會看起來有些差異,其主要原因有二:

1. 圖素到照相機的距離不同。距離較遠的物體看起來會比較小,其比例常數為1/Z。

2. 圖素的透視縮短(foreshortening)程度不同。若所有圖素在地平面,則以一角度(偏離垂直更多)觀

之的距離會更有透視縮短的效果。透視縮短效果會和cos σ 成比例,其中σ 是傾斜度,其為Z 軸

和圖素表面法向量n 的夾角。

明暗

明暗——從場景中的物體表面上不同部分接收到的光強度的變化——是由場景的幾何特性和表

面的反射特性決定的。在電腦圖學中,目標是根據場景的幾何特性和場景中物體的反射特性計算影

像亮度I(x, y)。而電腦視覺的目標則是相反的過程——也就是說,根據影像亮度I(x, y)重新獲得幾何

特性和反射特性。這已被證明是非常困難的,除非是在一些最簡單的情況下。

輪廓

當我們看到類似圖24.21 所示的線條圖時,會對其中的三維形狀和佈局有一個生動的理解。這

是如何做到的?在場景中熟悉物體的確認組合以及通用限制的應用如下:

● 相交的輪廓,例如山丘的外型。輪廓的一邊是較靠近觀看者,另外一面則是較遠。類似區域凹

陷以及對稱的特徵提供了線索來解決圖-地面問題——假定輪廓的某一邊是圖(較近),而另一邊

是地面(較遠)。而在一個相交的輪廓中,視線是垂直於場景中的表面。

● T 型連結點。當一個物體碰到另一個時,假定較近的物體是不透明時,較遠物體的輪廓會被擋

住。此時會影像中會產生一個T 型-連結點。

● 在地平面的位置。人類就像許多具有地域性的動物一樣,常常居住在具有地平面的場景之中,

而在此平面上會有許多不同位置的物體。因為重力的緣故,通常物體並不會浮在空中,而是穩

定的放在地平面上,此外我們可以利用此觀看場景的特別幾何學。

讓我們開始處理,在地平面上具有不同高度以及不同位置物體之投影。假定眼睛或是相機,

從地平面算起之高度為hc。若有一高度為δY 的物體位於地平面上,其底部位於(X, −hc, Z)而頂

端位於(X, δY − hc, Z)。底部投影到影像點為( fX/Z, −fhc/Z)而頂端投影至( fX/Z, f(δY −hc)/Z)。較近

物體的底部(較小的Z 值)投影到影像平面的較底部;較遠的物體期底部則較靠近地平線。

物體以及場景之幾何結構

一般成人頭部大約9 英吋長。這表示若有人站在43 英呎遠,他的頭從照相機看起來的視角大約

是1 度左右。若我們看到某個人的頭僅有半度,我們可經由貝式干涉推導出我們看到的正常人,其

距離為86 英呎遠,而非一個人她的頭是正常的一半大小。以上解釋提供了我們一個方法來檢查行人

偵測器,以及一個用來估計物體距離的方法。比方說,所有行人都具有相同高度,並且他們趨向站

在地平面上。若我們知道在影像中地平線的位置,我們便可以由行人距離照相機的間距排列出行人

的位置。我們真的可以計算出來,因為我們知道行人的腿在何處,而在影像中若行人的腿較靠近地

平線,表示他們距離照相機較遠的位置(圖24.22)。離照相機較遠的行人在影像中看起來也會比較小。

這表示我們可以將某些偵測器的反應排除——若一個感測器發現某個行人在影像中較大,而且又很

靠近地平線,那個它就發現了一個異常的行人;這樣的行人不會存在,因此偵測器一定有問題。事

實上,許多或大多數的影像視窗並不是可接受的行人視窗,也不需要傳給偵測器。

校正方法(alignment method)

1. 物體作為一個整體的方向:

這可以用物體坐標系相對於照相機坐標系的三維旋轉量來描述。

2. 在P 點處物體表面的方向:

這可以用物體表面單位法向量n 來描述——它是指明與物體表面垂直的方向的向量。通常我們

用變數傾角(slant)和斜角(tilt)來表示表面方向。傾角是Z 軸和n 之間的角度。斜角是X 軸和n

在影像平面上的投影之間的角度。

從結構資訊中進行物體辨識

身體的幾何形狀:找出雙手與雙腿

從現在開始,我們假定我們已經知道一個人的身體看起來像什麼(也就是說,我們已經知道這個

人衣著的顏色以及紋理)。我們可以將身體的幾何形狀,以一個具有十一個部份的樹來表示(左右上下

肢、軀幹、臉部、頭頂的頭髮),並且每個部份都以長方形表示。我們假設左下臂的位置與方向(姿態)

是獨立於其他所有部份,以及左上臂的姿態;左上臂的位置與方向(姿態)是獨立於其他所有部份以及

軀幹;並且將以上的假設推廣到所有部份,包括雙腿、臉部以及頭髮等。這樣的模型通常被稱為「紙

板人」模型。這些模型可以形成一個樹,其根通常位於軀幹部份。我們會以此影像來搜尋最佳符合

紙板人的部分,並且使用干涉法對一個以樹為結構的貝式網(請參閱14 章)。

外表模型

一致外表:追蹤在影片中的人

追蹤在影片中的人是一個重要的實際問題。若我們能夠可信的回報在影片中手臂、雙腿、軀幹、

以及頭部位置,我們就可以建立更優秀的遊戲介面以及監視系統。濾波方法對於處理這個問題並沒

有太多成功結果,因為人們可能會突然加速並且快速移動。這表示在一個30 Hz 的影片中,影像i

中身體的組態並不會完全等於在影像i + 1 中的組態。目前來說,最有效的方式是利用每個影像中的

外表改變的非常慢的這個事實。若我們可以從影片中找出一個人的外表模型,那麼我們就可以在圖

像結果模型中使用這個資訊來偵測影片中每個影像內的人。我們可以將這些位置以時間關係連結在

一起並且產生一個軌跡。

使用視覺

若視覺系統可以分析影片並且了解人們在做什麼,我們將能夠:設計建築物以及公共廠所來收

集並且使用這些數據,了解人們在公共區域做些什麼;建立更多更準確、更安全、並且更不侵入的

監視系統;建立電腦運動評論員;並且建立人與電腦的介面,來觀看人們並且對他們的行為做出反

應這些反應介面的應用,包括了電腦遊戲中告訴玩家起來以及在系統中移動,以便節省能源來管理

建築物中的熱能和光線,依據他們的位置以及動作。

背景減去法

文字與圖片

許多網頁提供了影像收集以供觀賞。 我們要如何找到我們想要的影像?假定使用者輸入文字查

詢,例如「自行車競賽」。某些影像內會擁有關鍵字或是標題,或者來自網頁內靠近圖片所包含的

文字。對於這些,影像檢索的工作可能像是文字檢索:忽略掉影像並且試著去找到符合查詢字詞的

影像內文字(請參閱第22.3 節)。

由許多視角進行重建

雙目視覺可以工作是因為對每個點,我們擁有四個量測,其中包含三個未知自由度。這四個量

測值分別為從每個觀看角度(x, y)位置,以及未知自由度在場景中的(x, y, z)座標值。這個較為原始的

論點正確的提出了是有幾何上的限制的,為了預防許多點從可接受的符合中得到。許多影像組的點

應該可以毫不模糊的顯示他們的位置。

● 建立模型:

比方說,一個人可以建立一個模型系統,其可以從一串影片序列中重塑一個物體,並且產生一

個細微三維網格,並且應用在電腦圖學以及虛擬實境的應用中。類似這個的模型現在可以從明

顯相當沒希望的影像組來建立。比方說,圖24.26 顯示了透過從網路上找到的影像,來重建自

由女神的模型。

● 將移動作匹配:

要將電腦圖學中的特徵應用在實際影片中,我們需要知道實際影片中,其拍攝之照相機如何移

動,因此我們才可以正確的給予特徵。

● 路徑重建:

可移動機器人需要知道它們走過哪些地方。若它們在一個充滿剛性物體的世界裡移動,那麼重

建以及保留照相機資訊是獲得路徑的一個方式。

使用視覺來控制動作

視覺的一個主要應用是為操縱物體——拾起、抓住、轉動等等——和避障導航提供資訊。利用

視覺完成這些目標的能力,對於動物視覺系統來說是最基本不過的。在許多情況下,如果視覺系統

從可獲得的光線場中擷取的僅僅是動物指導其行為所需的資訊,那麼這個視覺系統是最小限度的。

很可能,現代視覺系統是從早期原始生物體進化而來的,這些生物體利用身體一端的感光點指引它

們自己朝向(或離開)光源的方向。我們在第24.4 節中看到,蒼蠅使用一個非常簡單的光流檢測系統

來降落到牆上。一個經典的研究,《青蛙的雙眼揭示了青蛙大腦的哪些東西》(What the Frog’s Eye Tells

the Frog’s Brain)(Lettvin 等人,1959),對一隻青蛙進行了觀察:「如果它周圍的食物不移動的話,

它就會餓死。它對食物的選擇只取決於大小和運動」。

讓我們考慮一個在高速公路上自動車輛駕駛的視覺系統駕駛員面對的任務如下:

1. 橫向控制——確保車輛安全地保持在它的車道內,或者在需要時平穩地換道。

2. 縱向控制——確保和前面車輛之間有一個安全的車距。

3. 障礙物避讓——監視相鄰車道的車輛,並準備好當它們中的某一輛決定換道時應做出避讓動作。

總結

雖然感知看起來對人類來說是一種不費力氣的活動,它卻需要大量的複雜計算。視覺的目標是為諸如操縱、導航和物體識別等任務擷取所需的資訊。

成像(image formation)過程在它的幾何和實體方面是為人熟知的。給定一個三維場景的描述,我們可以很容易地從某個任意的照相機位置製作出它的一幅圖片(圖形學問題)。逆轉這個過程,從一幅影像得到關於場景的描述卻很困難。

● 為了擷取操縱、導航和識別等任務所必需的視覺資訊,不得不構建中間表示形式。初期視覺影像處理(image processing)演算法從影像中擷取原始特徵,諸如邊緣和區域。

● 影像中有一些提示資訊使人們能夠獲得關於場景的三維資訊:運動、立體視覺、紋理、明暗和輪廓分析。為了提供近乎無歧義的解譯,這些提示資訊中的每一個都依賴於實際場景的背景假設。

● 完全通用的物體識別是一個非常難的問題。我們討論了基於亮度和基於特徵的方法。我們還介紹了一個簡單的姿態估計演算法。其他的可能性是存在的。