2018年3月2日

醫學期刊內的P值告訴你什麼?

為什麼科學期刊上的P值<0.05,在科學研究的操作方法獨領風騷? 所有醫學、心理學、社會調查研究中,凡是涉及到統計方法的研究,都會用到P值。究竟它是甚麼?  


1.統計結論是怎麼來的

醫學上,如有人發明了一種新藥,你怎麼證明這個藥是有療效的呢?有個病人吃了這個藥,然後他的病就好了,你能說這個藥有療效嗎?不能。因為有些病不吃藥也會好。

科學的做法,當然是做個雙盲隨機分派實驗。找100個病人,隨機分成兩組,每組50人。我們給第一組病人吃新藥,給第二組病人吃跟新藥看上去一模一樣的安慰劑。病人自己並不知道被分到了哪一組,我們甚至還可以讓負責發藥的醫護人員也不知道每次發的是新藥還是安慰劑,這樣所有病人除了吃的藥不一樣,其他方面都是一樣的,這就做成了一個雙盲實驗。 

如果在一個療程之後,第一組病人全都治好了,第二組病人全都死了,那我們就有充分的理由相信這個新藥是有療效的。但真實世界卻不是這樣。即便是在市場上很有效的藥,有效率也沒有那麼高(抗癌藥也只是10-20%的人會有效,而且也只是短暫有效),經常都只是比不吃藥稍好一點而已。實驗結果更可能是第一組有22個人的病好了,4個人死了,第二組只有15個人病好了,但是只死了3個。這結果就讓人很無奈吧!這個藥無效嗎?第一組的治癒率確實比第二組要好。你說這個藥有效吧!療效似乎不怎麼明顯,死亡率還上升了。那如果你是科學家,這個論文應該怎麼寫或看呢?

這時就得用到統計方法了。這個思想的關鍵,就是我們要判斷這個結果,到底是藥物療效導致的呢,還是純粹是個偶然事件。
如果只看死活:假設第一組的所有病人都活著,而第二組死了5個病人。也許正是新藥的療效,才讓第一組沒死人,但也許這只是一個巧合。

2. 科學家的做法,是先來一個“ 無效假設 ”

        假設藥物無效,並且這個疾病的死亡率就是第二組所揭示的10%
科學家的問題是,如果這個無效假設是對的,那麼請問,出現第一組不死人這個結果的可能性,有多大?
       這個問題的本質,就是問,第一組這麼好的結果,到底是不是純屬偶然。純屬偶然是完全可能的。哪怕藥物完全無效,以至於這個病還是有10%的死亡率,那也不見得第一組就也應該死5個病人。要知道,哪怕是拋硬幣,也存在一個連拋50次都正面朝上的可能性。那我們就來算算這個可能性。每個病人不死的概率是0.950個人都不死的可能性就是0.950次方,等於0.00515
科學家把無效假設成立的可能性,稱為“ P ”。那麼在這個例子中,
P = 0.00515。那也就是說,無效假設不成立、第一組實驗結果並非偶然的可能性,是 1 - P = 0.99485。 那麼科學家就會這麼寫論文:實驗證明,這種藥是有效的,P = 0.00515” 讀者讀到這句話,就可以這麼理解,實驗結果應該不是巧合,這種藥有效的可能性高達99.485%

    這才是理解論文的正確思路。值告訴我們巧合的可能性 。回到最開頭的實驗,在一定的 P 值下 ,我們也許可以說:藥物療效大概是真的,第一組的治癒率高 很可能不是巧合,而第一組多死了一個人這件事, 很可能只是巧合。 

    但說這種藥有效的可能性高達99.485%”, 這句話是錯的。

3.怎樣理解 P 


   關於 P 值有很多錯誤理解。我們前面那句這種藥有效的可能性高達99.485%”其實是錯的。值的真正意思是說, 相對於死亡率是10%”這個無效假設” ,實驗結果純屬巧合的可能性是0.00515。那我為啥非得用死亡率是10%這個無效假設,我為什麼不用別的無效假設呢?這純粹是科學家的主觀選擇。

    還有一點特別重要,值只能讓我們更好地評估這個藥*有沒有*療效,但是它可沒說這個藥的療效有多大。2013年《自然》雜誌上有個影響很廣的論文 [1],說 “針對19,000人的研究表明,如果夫妻雙方是通過婚戀網站介紹認識的,他們離婚的可能性比線上下認識的夫妻低 ( P < 0.002 ) ,他們獲得較高婚姻滿意度的可能性也比線下認識的夫妻要高 (  P < 0.001 ) 這兩個 P 值很低,說明結果絕非偶然。那我們能從這段話裏得到什麼結論呢?是不是說在生活中找對像,這種做法太落後了,我們應該把命運交給婚戀網站的匹配演算法呢?
要仔細看 [2] 這篇論文的結果,婚戀網站只不過把離婚率從 7.67% 降到了 5.96%,把婚姻滿意度從 5.48 分(滿分 7 分)提高到了 5.64 分而已!這點效應根本不值得你太認真。

    現在學術界的一個幾乎是黃金標準的標準, P 值要小於 0.05。如果 P > 0.05 ,別人會認為你這個結果很可能純屬巧合,根本不值得認真對待,論文很難被期刊接受。如果 P < 0.05 ,人們就說這個結果是“ 顯著的(significant ” 但是請注意,這個顯著的意思,可不是說療效很厲害 —— P 值關注的僅僅是*有沒有*療效,不是療效的大小!


還有個關鍵問題。為啥非得是 0.05 呢?
有些統計學教材都把 0.05 當成了一個硬性標準,P < 0.05 就顯著,否則就不顯著。但事實上這個標準根本沒有科學依據,純粹是科學家的約定俗成而已。
     這一整套看 P 值的檢驗方法是英國的統計學家羅奈爾得·費希爾(Ronald Fisher)提出的,這個理論才只有幾十年的歷史。費希爾先生是個體面人。他當時選擇了0.05這個數值,可不是說 P< 0.05 就可以發表論文 —— 他的意思是 P< 0.05 的結果才值得看。那滿足什麼標準才算可以接受的結論呢?費希爾當時想的可是 P< 0.001 。但問題在於,做實驗想要得到 P 值小於0.001的結果,需要找太多受試者,成本實在太高。大家退而求其次,都默認了 0.05。其實即便是這個標準都是很難達到的,不知道有多少科學青年的青春,就消耗在了這個 0.05 上! 


4.動機性推理

說到這裏我想說一個概念,叫動機性推理(motivated reasoning。所謂動機性推理,就是如果你事先有一個達到什麼結論的強烈動機,你的推理過程就會刻意地滿足這個結論。如果科學家非常希望自己的結論是對的,他想讓 P 值小於0.05,他就有可能採取一些主觀的做法,達到這個標準。 

你可以選擇一個不一樣的無效假設。你可以看 P 值太高就再多招幾個受試者做實驗。再比如說,實驗組多死了一個人,你可以說這個病人是個特殊病人,他有別的病,他的死亡是因為別的病的併發症,這樣的資料不算數!—— 你就把這個不利的資料給剔除了。這個做法叫資料採摘,英文叫 cherry-picking — 你就好像挑選櫻桃一樣,只要你想要的資料。

P< 0.05 純粹是人為的約定,沒有任何自然意義,所以各個研究中 P 值的分佈應該是一條光滑的曲線,0.05這個數值在曲線上不應該有任何突兀之處,對吧?當然,有些 P> 0.05 的結果也許沒有發表,那麼曲線應該在0.05這個地方有個截斷,但是0.05不應該比0.045重要,對吧?可過去這幾年,就不斷有研究發現,在經濟學、心理學和生物學論文中, P 值的分佈,在0.05處有個明顯的凸起[3]  


唯一的解釋,就是有很多論文故意把 P **到了恰好 0.05 以內。

近年來,科學家們自己,也正在積極反思 P 值代表的問題。真實世界就是這樣 —— 沒有我們最初想像的那麼美好,但是總值得我們活下去,而且有一點你不能不承認:它比我們想像的更有意思。 

參考文獻
[1] Regina Nuzzo, Online daters do better in the marriage stakes, Nature, 03 June 2013.
[2] Regina Nuzzo, Scientific method: Statistical errors, Nature, 12 February 2014.
[4] 得到 方維剛:精英日課071 2017

沒有留言:

張貼留言