【轉貼】數據會說話?淺談倖存者偏差(Survivorship Bias)
沈默的數據,你所忽略的重要訊息!
Logo Designed by Freepik
在這一篇的「數據會說話」系列中,要向大家介紹「倖存者偏差(Survivorship Bias)」。
數據分析的陷阱,千萬別被表面數據的結果給迷惑!
medium.com
在分析資料時,最重要的一件事就是反問自己「手中有哪些資料是我們所忽略的、是我們沒有的?」。倖存者偏差所指的就是過度關注倖存的資料(可以被觀察到的人事物),而忽略了可能無法觀察到的資料,導致了錯誤的認知與結論。
當越是認真專注於眼前的數據,離真相越遠
最經典的倖存者偏差的例子發生在1941 年。在第二次世界大戰中,統計學家沃德受到英美軍方的要求著手研究「戰鬥機應該加強防護哪些部位,才能降低被炮火擊落的機率」。針對相關的資料進行研究與分析後發現:從戰鬥中回來的飛機,除了螺旋槳與駕駛艙外,其它地方都遍佈了彈孔。(如下圖所示)。
安全返回的飛機受損的示意圖,紅點為受損部位。圖片來源:維基百科
最後,統計學家沃德認為「應該加強彈孔最少的地方(螺旋槳與駕駛艙)防護」,但是海軍指揮則是認為「應該針對容易遭受攻擊的部位加強防護」。沃德為了佐證他的論點提出了以下幾個觀點:
戰鬥機的彈孔分析只統計了平安返回的戰機(被擊落的戰鬥機不可能返回基地,因此手中的資料並不能反映真實情形)
返回的戰鬥機即使機翼被擊中很多次,大多數也都能安全返回。
彈孔少的部位並不是不容易被擊中,可能正是因為那些部位是要害導致戰鬥機無法返回基地。
最後,軍方決定採用了統計學家沃德的結論,也證明沃德的論點是對的!若僅憑手中的資料,而沒有邏輯推理的常識,就會很容易陷入「倖存者偏差」,導致錯誤的決策。在生活中也有許多倖存者偏差的例子:
A 公司採用了某種新的促銷策略,使得營收增長了200%
(但是又有多少公司嘗試了同樣的策略,卻是以失敗收場)
這間廟很靈驗!出海回來,沒有遇難的船員都有到這間廟拜拜
(但是又有多少人有拜神卻淹死的呢?)
OOO吃了某種減肥藥,一下子就瘦了10公斤
(但是又有多少比例的人吃這種減肥藥是無效的呢?)
勵志書籍常常說只要吃苦耐勞、有創意就會成功
(但還有一堆擁有同樣特質的失敗者默默無聞不被我們發現)
做為資料科學家與分析師,更應該慎重評估資料與全面性的思考,應該評估是否可能存在無法觀察到的數據。實驗設計時更應該試著減少偏差,並且忠實呈現實驗的結果。
[此帖子已經被作者於2023/4/1 上午 11:46:17編輯過]