2018年7月2日 星期一

揭示貝葉斯公式應用中的認識誤區




假定有一組完備且互斥的事件A1,…,An, 它們發生的概率具有初始的假定值P(Ai),…,P(An), 稱為先驗概率。


在正概率隨機事件B發生(被觀察到)的條件下(P(B)>0), 這些事件出現的條件概率P(Ai| B),( i = 1,…,n ),稱為驗後概率。


應用條件概率公式和全概率公式,我們得到下面的貝葉斯公式(貝葉斯定理)


(i = 1,…, n)


驗後概率P(Ai| B)被認為是獲得新的信息(事件B)後,對先驗概率P(A)的修正。



所謂「修正」的說法,其實是不嚴格的,或者說有條件的。



準確地說,條件概率P(Ai| B)只是從事件B的角度去觀察事件A1,…,An,打個比方,也可能是管窺蠡測,坐井觀天。


為了下面分析的簡明,我們討論兩組完備且互斥的事件A與A ̄,及B與B ̄,有下面的條件概率公式和全概率公式:


P(A|B)= P(A)P(B|A)/ P(B)


P(A ̄|B)= P(A ̄)P(B|A ̄)/ P(B)


以及


P(B)= P(A)P(B|A)+ P(A ̄)P(B|A ̄)


用P(B)的公式代入前面兩個公式,就分別得到兩個貝葉斯公式。


現在分析下面的應用背景。它蘊含著A是事件的原因,B是事件的結果,從結果來推測原因這樣一種相互關係。



假定某社區的全部人口為樣本空間,社區出現某種疾病。從社區中隨機抽取一人,得這種病為事件A,未得病為事件A ̄,根據統計數據估計,得病的概率為p = P(A),未得病的概率為P(A ̄)= 1 – p 記為q。


有一種檢測疾病的試劑,檢測結果呈陽性為事件B,呈陰性為事件B ̄。


經過對這種試劑多次檢驗發現,這種試劑對於已得病的人呈陽性的概率(即檢測到得病的準確率)為P(B|A)= α;對於未得病的人,呈陽性的概率(即誤診得病(假陽性)的概率為P(B|A ̄)=β。


在上面的基本假定條件下,我們應用貝葉斯公式可以得出哪些合理的結論,又可能得出哪些似是而非、實則錯誤的結論呢?



貝葉斯公式在一些領域的應用近年來成為一個熱門的課題。


然而,就像在概率統計其他領域以及貝葉斯公式發展歷史中,也出現由於混淆(誤用)概念,導致不正確的結論。


本文希望通過分析較廣泛傳播的具體例子(引自近年出版的專業著作,或科普文章),釐清重要的概念,並引起這個領域的學者及愛好者的重視或進一步討論。


第一個例子:「設從某個城市的人口中隨機選取一個人作結核病皮膚試驗(「簡稱為皮試」),而試驗的結果是陽性,問給出皮試陽性結果(記為事件B)這個人正是結核病患者(記為事件A)的概率是多少?


它假定已從醫療機構得到的信息為:P(A)= 0.01,P(B|A)= 0.98,及P(B|A ̄)= 0.05。應用貝葉斯定理計算的結果是P(A|B) = 0.165。



結論是:這個皮試後呈陽性的人確是結核病患者的概率從0.01上升到0.165。


第二個例子:「已知某種疾病的發病率是0.001,即1000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病,它的準確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?


應用貝葉斯定理計算的結果是P(A|B) = 0.019。結論是:這個檢驗結果為陽性的人得病的概率從0.001上升到0.019。


( 本文在引用時對其中關鍵的語句用粗體表示。這兩個例子是同一個類型。)



難道這個令人驚訝的結論是貝葉斯公式的可靠結論嗎?


在應用條件概率時容易出現比較隱蔽的錯誤,即隨機事件A和隨機事件B的界限以及它們之間的關係被混淆。


如果我們的問題是:一個隨機抽取的人在試劑檢驗呈陽性的條件下得病的概率是多少?


那麼,事件A是「在討論的人群總體中隨機抽取的一人得病」,事件B應該是「這個被隨機抽取到的人試劑檢驗呈陽性」,在這樣的語境下,文章中所得結果及解釋方為正確。


可是,文章提出的問題是:「現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?」,情況就完全不一樣了。



事件b是「某甲的檢驗結果為陽性」,這是一次檢驗結果的事件,由於檢驗結果帶有隨機性,所以事件b仍然是隨機事件。


事件a是「某甲得病」。如果這次陽性檢驗結果不正確(假陽性),某甲沒有得病,按題設,這個概率為0.05;否則,陽性檢驗結果正確,某甲得病了,這個概率為1 – 0.05 = 0.95。也就是說,某甲確實得病的概率為0.95。


類似地,我們可以討論兩類「假陰性」問題。


一個是:一個隨機抽取的人在試劑檢驗呈陰性的條件下得病的概率是多少?


另一個是「現有一個病人的檢驗結果為陰性,請問他確實得病的可能性有多大?


一種檢測試劑如果對於發現疾病的準確性很高,有可能對於未病者的誤診率稍高,出現「假陽性」;一種檢測試劑如果對於發現疾病的準確性略低,但對於未病者的誤診率很低,就會出現「假陰性」。


應用貝葉斯方法應該概念清晰,避免掉入陷阱。


它應用的前提是,對於樣本空間中隨機抽取的樣本,以及這些隨機樣本屬於事件B的條件(子範疇,子空間)下,其他隨機事件A出現的條件概率。


它只是對於局部的子空間整體成立的公式,並不意味著應用到一個具體的或特定的樣本時,一定可以適用同一個公式。


正如我們上面著重指出的,這是兩種不同類型的問題。



目前,在介紹貝葉斯公式應用的例子中常常出現的問題,恰恰是在已經獲得有關個體呈現陽性時的誤診概率的信息後,仍然套用針對樣本空間中隨機樣本成立的貝葉斯公式,得出不恰當的結論。



關於「假陽性」的進一步說明


「假陽性」現象說明,判別小概率事件出現特有的困難。


在上面的例子中,如果我們記全體人員為W集合,得某種疾病的人員為A集合,檢驗呈陽性的人員為B集合。


儘管對每一個被檢驗的人員若他呈陽性(屬於B集合),可以以相當大的概率(比如0.95)判斷他得病(屬於A集合)(即不得病的誤判概率為0.05),但是,由於出現A的概率非常小(比如0.001),在全體不得病人員的集合W-A中,有百分之五的人被誤判(即呈陽性但並未得病),其數量以較大比例超過只佔全體人員千分之一的得病人員總數。


這就是說,對全體人員而言,如果每個人都去檢驗,檢驗結果呈陽性的人員中,只有小部分的人真正得了病,換言之,從總體而言,呈陽性的人群真正得病的概率並不高,很多人雖然呈陽性而沒有得病,屬於「假陽性」!


這種對抽樣個體與對總體下的結論相左的情況似乎是一個悖論,然而,這的確是一個合理且經得起檢驗的結果。


本文作者:吳新瞻


應用數學與計算機應用高級工程師,編審;



1957一1963北京大學數學力學係數學專業畢業;


1963一1967中國科學院計算技術研究所概率統計計算專業研究生畢業;


長期從事數學應用研究與計算機應用軟體開發工作;


曾擔任中國大百科全書《電子學與計算機》卷特約編輯與撰稿人,《今日電子》執行主編;


發表論文十餘篇,編著出版《隨機模型與計算機模擬》一書,譯書若干種。


本文系網易新聞·網易號「各有態度」特色內容


本文由超級數學建模社區「靈魂寫手」提供


分享、轉發請隨意


轉載請在公眾號中,回復「轉載」


——這裡是數學思維的聚集地——



「超級數學建模」(微信號supermodeling),每天學一點小知識,輕鬆了解各種思維,做個好玩的理性派。60萬數學精英都在關注!


「徵稿啟事」



喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 超級數學建模 的精彩文章:



http://www.kubonews.com/2018070223587.html

每日即時更新新聞,請上:http://www.kubonews.com

沒有留言:

張貼留言