網購有助”脫單”?我還做到了一個準確率99.9%的癌症預測系統呢






前天,一個朋友給我看了一篇文章,題目是《網購有助「脫單」?阿里的大數據證實了這一點》。

文章的一個主要論據是,有近7成的淘寶、天貓用戶已經找到伴侶,僅3成單身。所以,網購有助脫單,因為網購用戶都7成告別單身狗啦!(當然,原文還有其他數據的邏輯鏈也有問題,但是這篇文章主要就懟這一條啦!)

網購有助

嗯,在淘寶天貓上,有伴侶的用戶是單身狗的兩倍還要多啊!所以單身狗一定要在雙11買買買,才更有可能脫單哇!

嘿嘿嘿,是不是看到這個結論,已經覺得哪裡不對勁了?

如果你將這樣一份報告扔給一個統計學家。哦,其實不用,隨便扔給一位博士生,他們會連文章都不看完,就不屑地表示:一本正經地胡說八道!

網購有助

然後,再無奈地表示:流量怎麼都被這些無知的人類賺走了呢?

網購有助

事實上,如果我們仔細分析這個結論的不合理,可以挖掘出一個大家在面對統計數字時非常容易犯的錯誤。我個人認為,對這個錯誤的認知,基本決定著你是否有統計學的思維(其實在我心目中,還有另外一點有同樣的作用。雙劍合璧,方為統計學思維初建立。這篇文章先只說一點。)

是的,統計學絕不僅僅是推導公式,統計學更是一種看待世界的方式。

網購有助

隨著機器學習的興起,統計學越來越受到大眾的重視。事實上,在現階段,短期內,我認為已經沒有一門理工類學科可以離開統計學了。嗯,曾經有一位常青藤名校博士生鏗(wu)鏘(bi)有(xin)力(suan)地對我說:所有的博士其實到頭來都是做統計的。是的,我認為統計學已經成功地控制了地球!

同時,這也造成了一個不好的結果,就是對統計學的濫用。或者是商家成心錯誤地使用統計學,帶給大家利好商家的假象。(比如網購有助於脫單。。。)在這些「假象」背後,其中一點,學術一點兒稱呼,就是基本比率謬誤(base rate fallacy)。

要講清楚這個謬誤,通常都用這麼一個例子。有一個人,喜歡看書。你覺得這個人是一名圖書管理員捏?還是一名銷售員捏?

大部分人都會不假思索的回答:是圖書管理員啊!喜歡看書啊。可惜,如果用這個事情去打賭的話,大部分人都會輸得精光。原因很簡單,在大部分成熟的商業社會,圖書管理員這一職位的總人數,比銷售人員少得多。這使得這名愛看書的人是圖書管理員的概率,比是銷售人員的概率小得多。

可是有的童鞋可能會跳出來喊,不對!我們考慮這個問題不能只簡單地看這兩個職業的總人數啊。這個問題本質是一個條件概率問題啊!其實,我們是在考慮,在愛看書的條件下,一個人是圖書管理員的概率有多大?是銷售人員的概率有多大啊?

說得好有道理啊!所以,其實更準確的說,如果我們不知道圖書管理員和銷售人員的分布的話,是無法可能這個問題的。那我們就簡單做一下調查吧。據了解,在美國,圖書管理人員和銷售人員的人數比是1:1000。(這似乎還是很久以前的數字,現在可能更低。不過我們這個文章的關注點不在這個具體數據,所以大家就先接受它吧!)

嗯。也就是假設在美國社會有10名圖書管理員,對應就有10000名銷售人員。現在假設圖書管理人員100%的愛看書,很符合這個人設吧?而銷售人員,只有5%愛看書,嗯,我覺得我嚴重低估了銷售人員對知識的追求和渴望,銷售人員會不會組團來打我?但是為了說清楚這個問題,我就犧牲一下吧!(喂喂,明明是銷售人員在做犧牲!)

對於這樣的數據,意味著我們有10*100%=10名愛看書的圖書管理員;10000*5%=500名愛看書的銷售人員。也就是說,此時,我們考慮了兩個職業愛看書的程度的差異,甚至故意誇大了這個差異,可依然得出這個結論:一名愛看書的人,他是銷售人員的概率是他是圖書管理員的50倍!

那麼問題來了,為什麼大多數人都會覺得:愛看書的人是圖書管理員的可能性大?這就是因為我們忽略了圖書管理員和銷售員兩者在整體人群裡的基本分布,或者叫基本比率。這便是基本比率謬誤(base rate fallacy)。我們習慣用表面的現象代替全部,而忽略現象背後的基本比率。

仔細想,這樣的錯誤其實我們經常犯。我們經常不由自主地把愛看書的人想成是圖書管理員;開BMW的人想成是富二代;技術大佬想成是六歲就開始編程;等等等等。但當我們了解了基本比率謬誤,就可能會反思,正如同圖書管理員是少數人;富二代也是少數人;六歲就開始編程的也是少數人。所以那個開BMW的人,或許更有可能是普通人自己奮鬥的結果;那個技術大佬也更可能是本科才開始正式編程,多年努力的結果。

嗯,這是一碗雞湯,有沒有覺得世界更美好了?所以大家不要放棄努力,要繼續加油啊!

網購有助

是時候回到我們阿里的大數據了:有近7成的淘寶、天貓用戶已經找到伴侶,僅3成單身。了解了基本比率謬誤,我們就能明白:這個數據顯然忽略了單身和非單身的基本比率!

我簡單查了一下數據,國內的單身狗大概有2億人,現中國的總人口大概13.8億。換句話說,在中國,單身狗占15%左右;而非單身狗占85%。

等等,可是在淘寶平台上,單身狗竟然高達30%。這說明了什麼?顯然對比基本比率,是有更多的單身狗在淘寶平台上啊!我們是不是可以得出一個完全相反的結論?越「網購」,越單身!而很多不是單身的人,恰恰不在淘寶天貓的魔掌中!

網購有助

嗯,基本比率謬誤除了能幫助我們認清商家的本質,還有別的作用嗎?當然有了!還可以忽悠別人啊!記得這篇文章的題目嗎?我們要做到了一個準確率99.9%的癌症預測系統啊!

網購有助

我曾經參與過一個醫學項目(一本正經的胡說八道),這個項目要寫一個算法,通過體檢者的數據,預測ta將來是否有可能患有某種癌症。好高端有沒有?!絕對是現在大熱的機器學習啊!還結合了屬於21世紀的魔法黑科技生物醫療工程啊有沒有!

我花了整整一個晚上思索,終於想到了完美的解答,很快完成了整個算法。又花了一個小時包裝好接口。嗯,你們先測試吧。測試結果,準確率99.9%!哼哼,那是當然,像我這種高手,準確率下95%的識別算法根本就沒有寫過!你們來調用吧,我按照調用次數計費,調用一次10刀!真心白菜價!

網購有助

其實,那天晚上,我苦思冥想之後,只是簡單在網上調查了一下,發現這種癌症的發病率僅有是0.1%。所以我的算法是這樣的:對於任何檢查者的數據,我都預測他不會患這種癌症。分分鐘便得到了一個準確率高達99.9%的預測算法。

是的,我之後將算法包裝成方便調用的接口,再添加上支付功能,用的時間比寫這個算法用的時間多多了。

我就是這麼機智。

網購有助

現在,你理解基本比率謬誤的作用了嗎?萬一遇到不懂統計學的投資人,當上CEO,迎娶白富美,走上人生巔峰,是很簡單的啊!

現在,你學會如何做到了一個準確率99.9%的癌症預測系統了嗎?是不是很酷?

======

P.S. 1:正因為在現實世界中存在著如文中所舉的例子一樣,基本比率極度偏斜的情況(其實仔細想一想,這樣的「比率偏斜」可並不少),所以在機器學習領域,如何判斷識別率也是需要專門探討的。有時間再和大家聊一聊:)

P.S. 2:若採用文中方式成功融資,請主動來繳納給我15%融資額的創業咨詢費。若採用文中方式融資被打,概不負責。