統計學,你知道P?

統計學,你知道P?

我們只邀請神聖的好奇心來關注!

統計學,你知道P?

無論怎樣的分佈、樣本,變成p值後的統計量,如同墜入0~1之間的落魄靈魂,等待那個神秘的0。05來裁決其命運。

統計學,你知道P?

P-value是一個廣為人知的統計學術語,卻也是被人們誤用最多誤會最深的統計學概念。

P-value實際上是一個條件機率,指的是{觀測值及更極端事件}在零假設成立的條件下發生的機率。其中極端是指比觀測值發生的機率更小。

寫在前面,統計學的輪廓

雖然現代統計學已經發展出浩如瀚海的內容,但最基本、最常用的經典統計學一般還是分為描述統計和推斷統計。

統計學,你知道P?

思想=>方法=>工具

要準確地解釋和正確地理解P-value,必須回到統計檢驗的思想起源。

假設檢驗理論體系的建立,要歸功於E。 Pearson和J。 Neyman(1928)的工作。而實用層面則以K。Pearson (E。 Pearson之父) 和Fisher兩位大師所主導。而更早前,也有人提及和研究過若干零散、孤立的特定檢驗問題。

P值是Fisher(1922)提出來的“顯著性檢驗”理論體系中的概念。顯著性檢驗的理論在當時針對的是K。Pearson的大樣本理論。

【K。Pearson主張獲取更多的資料來做出更好的迴歸(擬合與預測),而Fisher主張用精巧的試驗設計和顯著性檢驗來達成較小樣本即可解決問題,反對一味追求大量資料而忽視對探索過程的最佳化。】

這個人沒有決意過日子,

而是決定去認識,

這個人葬在哪裡?

在這裡——這裡是他的歸宿。

這裡濃雲密佈,

電光閃閃,

星轉鬥移。

讓歡樂驅除風暴,

讓平和普降甘霖!

高超的設計必須透過相同的結局,

高尚地安息。

永別了——難道還有比人間更崇高的生與死。

——統計學之父Karl·Pearson生前最愛的詩

E。Pearson試圖彌合父親K。Pearson與Fisher之間的學術分歧,與Neyman一拍即合,兩人一起提出了“假設檢驗”理論。

Neyman-Pearson的假設檢驗理論兩個突出的特點是:

>引入了檢驗功效的概念;

>明確了構造統計量的一般方法;

同時也導致了需要在不同的α閾值下頻繁構造最優檢驗的大量研究,和在複合備擇假設下的大量複雜功效計算。

為了消除神秘的α=0。05或0。01,Bayes學派明確將先驗機率放在初始條件中,發展出蔚為壯觀的Bayes統計學,其中蘊含頻率派理論作為一個古怪的特例。

在Fisher、Neyman-Pearson、Bayes等人的光輝思想指引下,各種通用或適合具體應用情景的檢驗方法紛紛湧現,進而不斷編寫進matlab、R、python、perl等語言的標準函式庫或應用包裡。

提出P值概念的漁夫(Fisher)

Ronald A Fisher最遲在1920年左右已經發明P-value的概念。那時英國剛走出第一次世界大戰的陰霾,Fisher似乎還沒決定到底要幹嘛:

夢想做一名皇家飛行員,卻終成數學爵士!

統計學,你知道P?

想好好做一名農場主,結果搗鼓出一整套遺傳育種方法和統計理論!

統計學,你知道P?

當中學校長受不了學生的愚鈍,卻最終門生遍天下。

統計學,你知道P?

劍橋出身的Fisher有著不錯的人脈關係,跟K。Pearson,Leonard Darwin(提出進化論的那個達爾文的兒子)都有書信往來。但出人意料的是,1919年冬,Fisher謝絕了Pearson的邀請,而踏著泥濘的鄉間小路加入了倫敦郊區的Rothamsted農業實驗站。

從1919年到1933年的14年,Fisher埋頭於此,竭其所能狙擊當時如日中天的K。Pearson,他將完成現代統計學的基礎與統計遺傳學的框架。

統計學,你知道P?

Fisher和他的計算器

在這混沌未開之時,一手生物學一手統計學的Fisher兩線開戰。面臨海量資料,面臨諸多決策,化繁為簡,Fisher採用的數字化決策工具,也就是p值。(應該提到的是:後期Fisher更多采用likelihood ratio,這可能是他獨立於Neyman-Pearson引理中的最優似然比的另一個發明。例如,如今遺傳連鎖分析中的LOD或LRT實際上源自Fisher)。

P值的真正含義及其不堪重負

個體絢麗的紋理,在共識中漸漸褪去,最終呈現為沒有量綱的p值,在0~1之間搖擺不定。

統計學,你知道P?

同一型別的實驗設計,會有不同樣本、不同操作、不同分析,但只要以p值的形式進行相互比較,總是可行的。

Fisher當時採用p值是為了內部決策,但在科學高度分工的當下,p值充當著實驗之間(或者作者與雜誌之間)的橋樑,無可撼動地作為論文發表的一般等價物。

統計學,你知道P?

P值(即上圖綠色區域所示)就是零假設為真的條件下{觀測點及更極端事件}發生的機率。對[一元情形下]極端方向的認定,按分佈函式曲線圖來說有三種情況:觀測點及其左側區域、觀測點及其右側區域、機率函式值不超過觀測點的兩側區域之和。

那麼在此提一個小問題:下圖試圖展示三種情況下的P-value公式,哪一個或哪幾個是錯誤的呢(a=8為觀測點)?

統計學,你知道P?

可以看出,P值的定義非常明確、適用於所有機率分佈;同時它也暗含著對“單峰”型以外分佈的排斥。

自作聰明的人總是試圖用看起來更通俗或者更多樣的方式來表述對P值的理解,然而絕大多數都是錯誤的。

Goodman(2008)歸納了12種常見的P值誤解,並說“幾乎從不可能永遠永遠正確地陳述它”。

一個根本的問題在於,很多人在理解中加入了本不屬於P值內容的東西,比如對原假設真假的論述、對拒絕或接受可靠性的期待、對假陰或假陽率的推論等等。

實際上,P值就是P值而已,它賴以存在的基礎是原假設成立這個條件,而不可能用P值來肯定或否定原假設。

比如基於P-value=0。009來做出拒絕原假設的決定,意味著原假設成立的情況中該決定有0。9%的機率是錯誤的;但常常容易說成是,該決定有0。9%的機率是錯誤的,遺漏掉了原假設成立的關鍵前提。

雖然個別具體語境下似乎不會導致錯誤,然而不同研究者之間交流時,遺漏研究論斷的前提會造成學術上的重大過失。

使用P值的Fisher依舊為難

首先是分佈函式

相比財大氣粗、搞大資料的Pearson實驗室,Fisher在Rothamsted的作坊以小樣本資料為主。要命的是,小樣本下任何分佈都不靠譜,相較而言,大樣本中引入分佈要相對可靠的多。Fisher心裡明鏡似的。

為了克服樣本大小匯入分佈的風險,Fisher提出的另外一個策略是置換(permutation ) ,但那時無法有效實施置換——計算能力不夠。當然現在置換已經發展成為一種非常重要的隨機化策略,Bootstrapping方法可視為其策略背後思想的另一種延伸和實現。

其次是閾值

統計學,你知道P?

統計算個P

5分鐘前:

p值算出來的,無非是一個0-1之間的數字,如何選定決策區間或決策點?

Fisher選擇的閾值是“1/20”,也就是0。05。他的解釋是,就均勻分佈而言,p值小於0。05,意味著觀察到一個小機率事件。而單次實驗發生小機率事件,意味著本次實驗結果是一個不平常的事件,也就有了進一步調查或者更進一步實驗的理由和依據。

舉個栗子

如果抓100枚硬幣,往天上一拋,落地後正面朝上的數目有 95%的可能性 在40~60之間;而實際操作中,觀察到只有20枚正面,那麼有理由猜測和進一步調查是否可能有人做了手腳。

【統計教學或教科書中,一般歸納為小機率原理,然而對0。05這個具體數值的選取合理性避而不談。】

P值就這樣開始進入量化決策領域了。Fisher還先後寫了好幾本書《Statistical Methods for Research Workers》和《The Design of Experiments》,其中都介紹了p值。

因為當時計算能力有限,p值的計算採用了閾值的方法【直到世紀之交,絕大多數教科書中還是顯著性水平α,以及拒絕域、接受域,還有供查閱的各種機率分佈的閾值對應表】,所以當時的人只能從Fisher的書上查到p值大概是<0。1、<0。05,還是<0。01。< span=”“>

Fisher對於不顯著的p值的態度非常值得玩味,他不是覺得不顯著,而是覺得樣本太小,無法檢測到顯著罷了。

在筆者看來,一個具體的檢驗相當於一臺觀測儀器,p-value就是觀測的結果,p-value是否顯著取決於觀測物件的真實情況的累積效應和觀測儀器的解析度。

瘋狂的0。05

歷史是健忘又頑固的倔老頭,偏偏記住了0。05。計算機早就可以精確計算統計量的p值,但大家還是習慣用0。01或者0。05作為閾值,於是引出無數公案,比如Eric Lander與Elston關於全基因組基因定位分析的閾值的口水之爭 (參考文獻 見文末 ) 。

P值雖不完善,但在一個封閉的流程裡,前一次決策的損失稍後可以矯正。比如為了研究遺傳連鎖,Fisher自己設計實驗,把實驗用的老鼠養到家裡,擁有完整流程的Fisher有能力抵禦p值決策的風險。

但當下的工業化科學中,各個流程完全分散,切成多段,財政獨立結算,成果獨立發表,出現越來越多衝突的結果。有人批評這是因為p值不夠嚴格,應該從0。05提高到0。01。實際上主要問題在於科學生態的演化,各不負責的科學現狀,不是單單調整p值可以解決。

虛無還是替代

Fisher引入p值,是為了量化決策,只是為了給出對原假設提出質疑的理由,並沒有給與p值太過於特殊的基礎。對於Fisher,很多讓別人抓破腦袋的事情,在他看來是“顯而易見”的—儘管他視力非常不好。

相比之下,K。Pearson致力於獲取更大量的樣本和資料,極大地發展了描述統計學並對推斷統計學也有重要貢獻,奠定了其統計學之父的地位。

但是Fisher的試驗設計思想方法與顯著性檢驗理論一起贏得了眾多無法豪擲千金的科學家的青睞。當Fisher在與K。Pearson的鬥爭中逐漸佔據上風、最終大獲全勝之時,卻跟K。Pearson的兒子Egon Pearson升級了戰火。

E。Pearson試圖彌合父親K。Pearson與Fisher之間的學術分歧,遇到從測度論進入統計領域的Neyman後,兩人一拍即合,提出了“假設檢驗”理論,其中吸收了Fisher的顯著性檢驗思想。相比於Fisher針對單一假設用P-value表示顯著性水平,著名的Neyman-Pearson引理是說:最優檢驗的統計量是備擇假設與原假設下的似然比,這導致了跟Fisher的“顯著性檢驗”區別最大的概念——功效或勢(power of test)。

統計學,你知道P?

但Fisher並不領情E。Pearson的做法,他似乎非常不喜歡Neyman的任何想法。如果Neyman花力氣證明了一個Fisher曾經所謂的“顯而易見”的結論,Fisher必斥其理解錯誤。如果Neyman拓展了Fisher的一個想法,Fisher則又嘲笑其Neyman的想法多麼無聊。

無論Fisher先生喜不喜歡,Neyman-Pearson理論衍生的功效計算(power calculation),現如今越來越受到重視,各種研究立項和基金申請都需要提供功效計算的證據。從而保證研究的成功率。如果Neyman-Pearson的原假設-備擇假設同時存在多個備擇假設的話,功效計算必須錨定一個特定的備擇假設。

功效計算的框架下研究的成功率有一定保障,但也減少了研究彈性,特別對於那些以新意取勝的小型化研究,幾乎沒有所謂的功效計算框架可以借鑑。不過,好在上有政策下有對策,現在一般大家也都是拿已經暗地裡做完的專案去申請基金,然後用申請來的錢去尋找新的alternative hypothesis。

持續升級的戰爭

P-value自身的侷限性和使用者的誤用以及讀者的誤解,不斷成為農學、醫學、遺傳學、生物學、教育學、心理學、經濟學、社會學等領域的方法論爭議焦點。而數學界與統計學家、各專業領域的權威人士也一直呼籲新入門的研究者務必注意規範地使用P-value,還提出了務必同時使用效應量(effect size)乃至MAGIC準則。

P-value自身的侷限性在隨著Bayes統計和序貫試驗設計正規化的推進而得到一定程度的解決,但是誤用誤解本身也反映出p-value的可解釋性存在問題。這一點跟深度學習所面臨的部分爭議有異曲同工之處。

更重要的是,K。Pearson收集更多更全面資料的夢想在今天得到了很大程度的實現,高通量試驗以及大量的科研人員產生出海量的P值。

大多數人們已經來不及仔細斟酌point-wise的p-value,而轉向更加關心如何從一個很大的p-values集合中做出合理的決策。這就是而今如雷貫耳的多重檢驗問題。目前針對family-wise或者experiment-wise的檢驗結果,已經發展出了一系列基於FWER以及FDR的多重檢驗校正方法。

【1】Fisher, Ronald Aylmer。 ”The goodness of fit of regression formulae, and the distribution of regression coefficients。“ Journal of the Royal Statistical Society (1922): 597-612。 (http://www。jstor。org/stable/2341124)

【2】Fisher, Ronald Aylmer。 ”On a distribution yielding the error functions of several well known statistics。“ Proceedings of the international congress of mathematics。 Vol。 2。 1924。 (http://www。mathunion。org/ICM/ICM1924。2/Main/icm1924。2。0805。0814。ocr。pdf)

【3】Fisher, RonaldAylmer。 ”Applications of” Student‘s” distribution。“ Metron 5。3 (1925): 90-104。 (http://www。sothis。ro/user/content/3db875748a1db8e2-student_distribution_1925。pdf)

【4】Fisher, Ronald Aylmer。 Statistical methods for research workers。 Genesis Publishing Pvt Ltd, 1925。

【5】Neyman, Jerzy, and Egon S。 Pearson。 ”On the use and interpretation of certain test criteria for purposes of statistical inference: Part II。“ Biometrika A 20。175-240 (1928): 263-294。 (http://drsmorey。org/bibtex/upload/Neyman:Pearson:1928a。pdf)

【6】Lander E, Kruglyak L。 Genetic dissection of complex traits: guidelines for interpreting and reporting linkage results。 Nature Genetics。 1995;11:241–247。 doi: 10。1038/ng1195-241

【7】Witte JS, Elston RC, Schork NJ。 Genetic dissection of complex traits。 Nat Genet。 1996;12:355–356。

【8】Steven Goodman。 2008。 A Dirty Dozen: Twelve P-Value Misconceptions。 Semin Hematol。 Jul;45(3):135-40。 doi: 10。1053/j。seminhematol。2008。04。003

【9】Nuzzo, Regina。 2014。 Scientific method: Statistical errors。 Nature 506: 150-152

【10】Ilker Ercan, Berna Yazc, Yaning Yang, Guven zkaya, Sengul Cangur, Bulent Ediz, Ismet Kan。 Misusage Of Statistics In Medical Research。 Eur J Gen Med 2007; 4(3):128-134

【11】Michael J。 Lew。 2013。 To P or not to P: on the evidential nature of P-values and their place in scientific inference。https://arxiv。org/pdf/1311。0081。pdf

【12】Biau DJ, Jolles BM, Porcher R。 P value and the theory of hypothesis testing: An explanation for new researchers。 Clin。 Orthop。 Relat。 Res。 2010;468(3):885–892。

除了以上文獻外,本文還參考了陳希孺先生的統計學文集和知乎、新浪部落格、豆瓣的網文,在此一併致謝。

可思議

這個世界是可以理解的。

無掛礙故,無有恐怖,遠離顛倒夢想。

長按識別二維碼、關注可思議(ksiworld)