相同的資料,不同的人進行分析,卻得出相反的結論

在科研領域,常見的一個問題是偏倚(bias)。研究者們想出多種策略來試圖消除偏倚,例如,讓同行來重複研究結果;臨床試驗中設定“雙盲”。並非只有資料採集和試驗執行時才可能出現問題,選擇不同的分析資料方法也會影響結果。

醫咖會之前推送過一篇文章“相同資料庫,相同主題,兩篇論文得出了相反的結論”:相距一個月發表在《Surgery》的兩篇論文,均使用了NSQIP資料庫2016年的資料,研究主題是針對腹腔鏡闌尾切除術的患者,手術時在將切除的闌尾從切口取出體外之前,放置到取物袋中再取出體外是否會減少術後感染。

論文A的結論顯示取物袋可減少傷口感染率,論文B的結論則是不能減少傷口感染率

近期,一項新研究更加凸顯這一問題。這是由歐洲管理技術學院心理學家Martin Schweinsberg領導的大型研究組發表的一篇論文,他們透過在社交媒體上宣傳該專案,

召集了49名不同的研究者參與。

每個研究者獲得同一份資料集

,包含390萬字的文字,是來自Edge。org網站的近8000條評論(Edge。org是一個針對知識分子的線上交流論壇)。

Schweinsberg博士要求這些研究者探索兩個看起來簡單的研究假設。第一個假設是,隨著討論中女性參與者的增加,某位女性參與討論的傾向會增加。第二個假設是,更高學術地位的人會比更低地位的人說得更多。

值得注意的是,

這些研究者被要求詳細描述他們是如何進行分析的,並將其分析方法和流程釋出到一個名為DataExplained的網站

,這使得Schweinsberg博士團隊能夠看到各位研究者到底做了哪些工作。

相同的資料,不同的人進行分析,卻得出相反的結論

網站連結:

https://dataexplained。net/

最終有37項分析被認為足夠詳細,可以被納入。結果發現,沒有哪兩個研究者採用了完全相同的分析方法,也沒有人得到相同的結果。

大約29%的研究者報告說,高學術地位的人更有可能發表更多言論,有21%的人分析出的結果正好相反,其餘的人沒有發現明顯差異

針對第一種假設,64%的人分析表示,如果有更多女性在場,女性確實參與得更多;但有21%的研究者得出的結論剛好相反。

沒有哪個分析存在客觀上的錯誤,

上述差異的原因在於不同研究者對所研究的內容選擇了不同的定義,並採用了不同的分析方法

例如,在定義女性發表言論的數量時,一些分析人員用的是每位女性發表評論中的字數,一些分析人員則透過女性參與的討論數量,而不考慮每次討論時發了多少字。同樣,對於學術地位的定義也多種多樣,有的採用職稱,有的使用論文被引數量或“h指數”。

(注:h指數是一種評價學術成就的方法。h代表“高引用次數”(high citations),一名研究人員的h指數是指他至多有h篇論文分別被引用了至少h次,例如,h指數是49,表示該研究者已發表的論文中,每篇被引用了至少49次的論文共有49篇。h指數能夠比較準確地反映一個人的學術成就。)

選擇的分析方法也對結果有影響,但其對結果的影響比定義的影響小。一些研究者選擇了線性迴歸分析,另一些人則選擇了logistic迴歸或Kendall相關。

針對上述問題,得出的一個重要結論是,研究設計至關重要!Schweinsberg博士希望像DataExplained這樣的平臺也能幫助解決問題,讓研究者準確描述他們是如何進行分析的,從而能讓其他人進行審查。他也承認,重新檢查每個結果是不現實的,但是如果許多不同的分析方法都指向同一個方向,那麼這個結論應該就是可信的。

參考文獻:

1。 JAMA Surg。 2021;156(3):219-220。

2。https://www。economist。com/science-and-technology/2021/07/28/data-dont-lie-but-they-can-lead-scientists-to-opposite-conclusions