016 制定簡單決策

Post date: 2013/2/19 下午 01:04:54

本章中我們會看到代理人要如何制定決策才能得到他想要的──至少平均而言。

在不確定性環境下結合信度與願望

決策理論的最簡單形式是一個基於所期望的即時結果所涉及到動作的選擇,也就是說環境假設為依照第 2.3.2 節所定義之情境意思(這假設於第 17 章中會放寬)。

代理人偏好一個效用函數(utility function) U(s)捕捉,此函數指定單一數值來表達對一個狀態的喜好程度。給定證據後動作的預期效用 EU(a|e),恰為結果的效用平均值,以結果發生的機率作為權重

最大期望效用(maximum expected utility,MEU)原則指出一個理性代理人應該選擇能最大化該代理人的期望效用的那個行動。

效用理論的基礎

理論偏好的限制

只要寫下某些對於理性代理人應該具有的偏好的限制,然後證明 MEU 原則能夠從這些限制推導出來,就可以回答上面這些問題。

● 有序性(orderability):

給定任意兩個狀態,一個理性代理人若非偏好一個狀態甚於另一個,便是對兩者的偏好程度相同。也就是說,該代理人不能逃避決策。

正如我們在第 13.2.3 節所說,拒絕下注如同拒絕時間流動。

僅有( A > B)、(B > A)、(A ~ B) 其中之一成立

● 遞移性(transitivity):

給定任意三個狀態,如果一個理性代理人偏好 A 甚於 B,偏好B甚於C,那麼該代理人必定偏好 A 甚於 C。

(A > B) v (B > C) => (A > C)

● 連續性(continuity):

如果某個狀態B在偏好上處於 A 和 C 之間,那麼一定存在某個機率p,使得該理性代理人在肯定得到 B 的彩卷,與以 p 的機率產生 A 並以 1 - p 的機率產生C的彩劵之間無偏好。

A > B > C => 倒Ep[p,A; 1-p,C] ~ B

● 可替換性(substitutability):

如果一個代理人在兩張彩劵 A 和 B 之間無偏好,那麼該代理人在更複雜的兩張彩劵之間也沒有偏好──這兩張彩劵,除了一張彩劵中的 A 被代換成 B,其餘完全相同。不論彩劵中的機率和其他結果如何,可替換性都成立。

A ~ B => [p,A; 1 - p, C] ~ [ p, B; 1 - p, C]

若我們於此公理中以 > 取代 ~ 同樣成立。

● 單調性(monotonicity):

假設兩張樂透彩卷都有A和B的兩種相同可能結果。如果一個代理人偏好A甚於B,那麼該代理人一定偏好A的機率高的彩劵(反之亦然)。

A > B => (p > q <=> [p,A;1-p,B] > [q,A; 1 - q, B])

● 可分解性(decomposability):

複合彩劵可以透過機率法則被簡化為簡單的彩劵。這也被稱為「賭博無樂趣」規則,因為其

所述為兩張相繼的彩劵可被壓縮成等價的單張彩劵,如圖 16.1(b)所示。

[p,A; 1 - p, [q,B;1-q,C]] ~ [p, A; (1-p)q, B;(1-p)(1-p),C]

偏好導向效用

注意效用理論的公理是有關偏好的真實公理──完全沒有提到效用函數。但從效用的公理實際

上我們可以得到下列推論(至於證明,詳見 von Neumann 及 Morgenstern,1944):

● 效用函數的存在性:

如果一個代理人的偏好遵守效用公理,則存在一個在狀態上進行操作的實數函數U,使得U(A) > U(B)若且唯若

該代理人偏好 A 甚於 B,並且 U(A) = U(B) 若且唯若該代理人在A和B之間無偏好。

U(A) > U(B) <=> A > B

U(A) = U(B) <=> A ~ B

● 樂透的期望效用:

一個彩劵的效用是每個結果的機率與該結果的效用的乘積的加總。

U([p1,S1;...;pn,Sn]) = 加總 piU(si)

如同於電子遊戲,代理人在一個確定性環境僅需狀態偏好排行──號碼並不重要。這被稱為值函數或是順序效用函數。

效用函數

效用是一個從狀態對映到實數的函數。

效用範圍和效用評估

若我們要建立一個決策理論系統,來幫助代理人做決定或為他(或她)做代表,我們首先必須制訂

出代理人的效用函數為何。這個程序通常稱為偏好啟發。包含為代理人提出選擇與使用觀察的偏好

來確定潛藏的效用函數。

金錢的效用

效用理論源於經濟學,而經濟學為效用指標提供了一個明顯的候選者:金錢(更明確地說,就是一個代理人的淨資產)。

金錢可用來交換幾乎所有種類的貨物與服務的普遍效力,暗示了她在人類效用函數中扮演著重要的腳色。

單調偏好(monotonic preference)

期望貨幣價值(expected monetary value,EMV)

規避風險(risk-averse)

確定等值(certainty equivalent)

保險費(insurance premium)

期望效用與事後決策失望

選擇最佳行動A*的理性方法是將期望效用最大化:

a* = argmax EU(a|e)

假若我們根據機率模型正確地計算期望效用,且若機率模型正確地反映出基礎隨機程序產生的結果,

則通常若整個過程重複數次,我們將會得到所期望的效用。

實際上,然而我們的模型對於真實情況通常過於簡單,並且我們所知不足(意即,當作一個複雜投資決策時)

或是因為計算真實期望效用太過於困難(意即,在西洋雙陸棋中估計根結點的繼承狀態之效用)。

優化的詛咒(optimizer's curse,Smith和Winkler,2006)。

人為判斷與無理性

決策理論是個規範性的理論:他描述了一個理性代理人應該如何行動。一個描述性理論於另一方面描述實際代理人──

例如,人類──的真實行為。若兩者相符則經濟理論的應用將大大地提高,

但看起來要是某些對於反論的實驗證據。證據表明人類是「可預料的不合理」(Ariely,2009)。

確定性效應(Kahneman 和 Tversky, 1979)

模糊驗惡

錨定效應(anchoring effect)

演化心理學

多屬性效用函數

多屬性效用理論(multiattribute utility theory)

支配

假設機場位址S1成本較低,產生的噪音污染較少,而且比位置S2安全。那麼人們將毫不遲疑地否決S2。這樣我們辯稱 S1 嚴格支配(strictly dominate) S2。一般而言

,如果一個選項的所有屬性的值都比另外某個選擇的屬性來的低,就沒有進一步考慮他的需要了。

隨機支配(stochastic dominance)

累積分佈

定性機率網路(qualitative probabilistic network)

偏好結構和多屬性效用

假設我們有 n 個屬性,每個屬性有 d 個不同的可能值。在最壞的情況下,我們需要d^n個值才足以完整定義效用函數 U(x1,...,xn)。

這裡的最壞情況對應於代理人的偏好沒有任何規律的情形。

表示定理(representation theorem)

不包含不確定性的偏好

讓我們從確定性的情況開始。先前提過,對一個確定性環境,代理人會有一個價值函數 V(x1,...,xn);我們的目標是簡潔地表示這個函數。

偏好獨立性

相互偏好獨立性(mutual preference independence,MPI)

加法價值函數

包含不確定性的偏好

當領域中存在不確定性時,我們還需要考慮彩劵之間的偏好結構,並且要理解她為效用函數(而不只是價值函數)上帶來的屬性。

效用獨立性

相互效用獨立性(mutual utility independence,MUI)

乘法效用函數(Keeney,1974)

決策網路

影響圖(influence diagram)

決策網路(decision network)

以決策網路表示決策問題

在其最一般的形式中,一個決策網路表示了下述資訊:代理人目前的狀態、其可能行動、其行動所能產生的狀態,以及狀態的效用。

機會節點(chance node,橢圓)

代表隨機變數,就像他們在貝氏網路中一樣。

決策節點(decision node,矩形)

代表在該節點上決策制定者有一些行動可供選擇。

效用節點(菱形)

代表代理人的效用函數任一個變數,只要她描述的結果狀態會直接影響效用,就都是效用節點的父節點。

行動效用函數在強化學習中也稱為Q函數

評價決策網路

藉由計算決策網路在決策節點的每種可能設定下的值,便能對行動做出選擇。

評估決策網路的演算法如下:

1. 為當前狀態設定證據變數。

2. 對於決策節點的每個可能值;

(a) 將決策節點設為該值。

(b) 使用一個標準的機率推理演算法,計算效用節點的父節點的事後機率。

(c) 為該行動計算結果效用。

3. 傳回效用最高的行動。

資訊價值

資訊價值理論

信度狀態

一個簡單例子

假設一個石油公司希望購買 n 塊不可區分的海洋開採權中的一塊。讓我們進一步假設其中只有

一塊含有石油,價值為 C 美元 ,而其他是沒有價值的。而每塊的價錢是 C/n 美元。 如果該公司

是風險中立的,他將認為買一塊與不買沒有區別。

現在假設一個地震學家為該公司提供對第 3 塊海洋的調查結果,而這個結果明確指出該塊海洋

是否含有石油。該公司該藥願意為這個資訊付多少錢?回答這個問題的方法是考察該公司得到這個資訊後將會做什麼:

有了調查資訊後,我們便可以計算期望利潤:

(1/n) * ((n-1)C/n) + (n-1/n) * (C/n(n-1)) = C / n

因此,該公司應該會願意為這個資訊支付地震學家最多 C / n 美元:這項資訊與這塊土地本身具有同等的價值。

資訊的價值來自於這樣一個事實:

有該資訊時,一個人可以改變他的行動過程以配合實際情況。有了資訊,人便可以對不同情形

進行區分對待,而沒有該資訊時,人就得做出對於所有可能情形平均而言的最佳行動。一般來說,

一向給定資訊的價值被定義為獲得該資訊之前和之後的最佳行動的期望價值之間的差別。

最佳資訊的一條通用公式

要為資訊價值推導出一條通用的數學公式是很簡單的。我們假設,某個隨機變數 Ej 的值是可以得到正確的證據(亦即,我們得知Ej =ej),因此使用完全資訊價值(VPI)這個詞。

資訊價值的屬性

人們可能會問,資訊是否可能是有害的:他的期望值有可能事實上是負的嗎?直觀來看,人們

應會預期這是不可能的。畢竟,在最糟的情況下,人們頂多也只是忽略掉該資訊,假裝從來沒有收到過而已。

當然這是理論上的期望值,而非實際值。附加資訊可輕易地產生一個計畫,若是被發生的資訊誤導,其結果會比原始計畫還遭。

實作資訊收集代理人

一個明智的代理人應該依合理的次序向使用者提出問題,應該避免提出無關緊要的問題,應該將每條資訊的成本納入重要性的考慮,並應該在合適的時候停止提問。

以上這些能力都可透過資訊價值的指導而達成。

一個簡單的資訊收集代理人的設計。代理人會重複選擇具有最高資訊價值的觀察,直到下一個觀察的成本高於其期望利益為止

決策理論的專家系統

決策分析

決策制定者

決策分析者

主動脈縮窄(aortic coarctation)

建立因果模型

確定有哪些可能症狀、失調、治療方式和結果。

簡化成定性決策模型

由於我們用這個模型的目的是制定治療決策,而非其他目的(像是決定某些症狀/失調組合的聯合機率),我們通常能藉由刪除不涉及治療決策

的變數來做簡化。

指定機率

機率可以來自患者資料庫、文獻研究或者專家的主觀評估。

指定效用

當可能的結果數目很少時,他們可以使用 16.3.1 節的方法被個別列舉並評價。

驗證並改進模型

為了評價該系統,我們將需要一組正確的(輸入,輸出)配對;一個於比對的所謂黃金標準(gold standard)。

執行敏感度分析

這個重要的步驟所做的是檢查最佳決策是否對指定的機率和效用的小變化敏感;這可藉由系統

性地調整參數並重新執行評價過程來完成。

總結

本章如何結合效用理論與機率,以讓一個代理人能夠選擇最大化其期望效能的行動。

● 機率理論描述根據證據,一個代理人應該相信什麼。而效用理論描述一個代理人想要什麼,

策理論則結合兩者以描述一個代理人應該做什麼。

● 我們可以使用決策理論來建造一個系統,該系統能考慮所有可能的行動,並選出能導致最佳期

望結果的行動,從而做出決策。這樣的系統被稱為理性代理人

● 效用理論顯示,若代理人在彩劵之間的偏好與一組簡單公理相一致,則它能夠被描述為擁有一

個效用函數;此外,代理人會如同在最大化其期望效用一般而選擇行動。

多屬性效用理論處理的效用取決於狀態的多個不同屬性。隨機支配是即使在屬性的精確效用值

未知的情況下,仍能做出不含混的決策的一項特別有用的技術。

決策網路提供了一個簡單的正規方法來表達和解決決策問題。他是對貝氏網路的一種自然延

伸;他在機會節點之外還包含決策節點和效用節點。

● 有時候,解決一個問題涉及在做出決策之前尋找更多資訊。資訊價值的定義是:與沒有該資訊

時制定的決策相比較,所期望的效用改進。

● 相較於單純的推理系統,納入效用資訊的專家系統擁有額外的能力。除了能制定決策之外,它

們還能利用資訊價值來決定問哪個問題(若有的話);他們能建議偶發性規劃;並且可以計算機率

和效用評估發生小變化時,他們的決策對該小變化的敏感度。