匯東華統計顧問有限公司 - BMJ專題147-多重假設檢定以及Bonferroni correction

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題（147）：Multiple hypothesis testing and Bonferroni's correction (多重假設檢定與Bonferroni's correction)

Cite this as: BMJ 2014;349:g6284

https://www.bmj.com/content/349/bmj.g6284

前言

在科學研究中，尤其是醫學研究中，進行多重假設檢定是常見的做法。然而，多重檢定會增加型I錯誤（Type I error）的風險，即錯誤地拒絕虛無假設（Null hypothesis）的機率。本文探討多重假設檢定及常用的校正方法，Bonferroni校正，並對其應用和效果進行了詳細說明。值得一讀。另在控制型I錯誤造成的偽陽性法上，最近BMJ有一篇作法也可以參考：sequential testing method was used to control type I error at 0.025 (one sided)。

Reference: Qiu MZ, Oh DY, Kato K, Arkenau T, Tabernero J, Correa MC, Zimina AV, Bai Y, Shi J, Lee KW, Wang J, Poddubskaya E, Pan H, Rha SY, Zhang R, Hirano H, Spigel D, Yamaguchi K, Chao Y, Wyrwicz L, Disel U, Cid RP, Fornaro L, Evesque L, Wang H, Xu Y, Li J, Sheng T, Yang S, Li L, Moehler M, Xu RH; RATIONALE-305 Investigators. Tislelizumab plus chemotherapy versus placebo plus chemotherapy as first line treatment for advanced gastric or gastro-oesophageal junction adenocarcinoma: RATIONALE-305 randomised, double blind, phase 3 trial. BMJ. 2024 May 28;385:e078876. doi: 10.1136/bmj-2023-078876. PMID: 38806195.

全文連結：https://www.bmj.com/content/385/bmj-2023-078876.long

統計概念課程可見於【eB02-小白的醫學統計必修課(上)】，講解醫學統計學核心概念進行系統性理解，專治統計不全症；以及，最實用的醫學實戰統計課程【eB02-小白的醫學統計必修課(下)】。另於6/28(五)晚上針對論文文獻管理利器：Zotero與Endnote有2小時的直播課程[報名網址]。目標為善用工具，擺脫人工耗時費工的研究瑣事，聚焦研究本身。尤其是Zotero的好，一定要知道。

歡迎洽詢本。公司官方line：@medatatw洽詢。感謝眾多朋友兩年多來的一路陪伴，隨著匯東華三周年慶腳步漸近，越發感謝。Hope u enjoy it

本期相關主題：

#第30題：多重顯著性檢定 (Multiple significance tests)

#第27題：縱貫性研究之分析(Analysis of longitudinal studies)

#第8題：瞭解統計假設檢定 (Understanding statistical hypothesis testing)

#第9題：臨床意義 vs. 統計意義 (Clinical significance versus statistical significance)

路徑：匯東華官網/學習專區/BMJ小小統計問題列表

✨線上課程提供【流行病學】與【生物統計學】系列https://medata.teaches.cc/

✨匯東華會員制詳情：https://reurl.cc/NyjNMx

課程介紹與報名資訊：https://reurl.cc/EoRxpg

線上課程學院：https://medata.teaches.cc/

-----

問題：

研究人員評估針對醫生的多方面介入措施對新診斷出的 2 型糖尿病病人六年內死亡率和發病率的影響。研究採用分組隨機對照研究設計。並在醫生層次進行分組。介入措施包括定期追蹤和為病人設定個人化目標，並輔以醫生提示、臨床指引、回饋和繼續醫學教育。對照組治療包括常規護理，醫生可自由選擇任何治療方法，並隨著時間的推移而改變。參與者年齡在 40 歲或以上，在 1989 年至 1991 年期間被診斷為糖尿病，並存活至 6 年追蹤期。共招募 874 名病人，其中 459 人被分配到介入組，415 人被分配到對照組 [1]。

主要結果是總死亡率、糖尿病視網膜病變的發生率、尿白蛋白濃度≥15 mg/L、心肌梗塞以及中風。顯著性臨界水準為 0.05（5%）。追蹤結束時，治療組僅在五項主要結果中的一項上存在顯著差異。介入組尿白蛋白濃度≥15 mg/L的比例較低（22.5% vs. 30.8%；P=0.04）。使用 Bonferroni 調整法進行多重檢定後，主要結果無顯著差異。結論為，在初級照護中，教育和監測下的個人化目標不會影響新診斷 2 型糖尿病病人的六年死亡率與發病率。

下列敘述何者正確？

a) 單個假設檢定發生型I錯誤的最大機率為05（5%）。

b) 主要結局的五個假設檢定整體型I錯誤率不大於05（5%）。

c) 採用 Bonferroni 校正，以降低多重檢定時出現型I錯誤的機率

d) 對每個主要結果使用 Bonferroni 校正後的調整臨界顯著性水準為0.01（1%）。

答案

a、c、d正確，b錯誤。

詳細說明：

該試驗旨在研究針對醫生的多方面介入措施對新診斷出的 2 型糖尿病病人六年內死亡率和發病率的影響。該試驗是一項隨機對照試驗研究。對治療組的死亡率和發病率的五個主要結局進行比較。在比較各治療組的結果時，採用傳統統計假設檢定方法 [2]。對於每個結果，假設檢定都從無差異開始。虛無假設指出，在新診斷的 2 型糖尿病病人母群體中，治療組間在六年的追蹤中不存在差異。

對於每種結局變數的統計檢定，治療組間的比較都有可能導致型I錯誤。型I錯誤為母群體之治療組間不存在差異，但檢定結果為否定虛無假設，而支持對立假設 [3]。假設檢定的臨界顯著性水準為0.05（5%）。因此，假設檢定出現顯著差異的機率為0.05（5%）。亦即，單次檢定出現型I錯誤的最大機率為0.05（5%）（a正確），即型I錯誤率。然而，本研究中進行了五次假設檢定。由於多重檢定，至少有一次檢定結果顯著的整體機率會超過0.05（5%），這也就是所謂的整體型I錯誤率增加 [4]。

對本研究的主要結果進行的五項假設檢定中，至少有一項會導致顯著差異的機率比較直觀。其中一個檢定結果不顯著的機率為 0.95。若假定五個假設檢定是相互獨立的，利用獨立事件發生的乘法法則，則五個假設檢定均不顯著的機率為 0.95^5。因此，至少有一個假設檢定是顯著的機率為 (1-0.95^5)=0.2262 。換句話說，對本研究的主要結果進行多重檢定後，型I錯誤率為 0.2262（b 錯誤）。一般來說，多重檢定時至少有一個假設檢定顯著的機率為 (1-0.95^x)，因此，隨著統計檢定次數（x）的增加，0.95^x（x 為統計檢定次數）的值會減小，出現顯著差異和型I錯誤的機率就會增加。

在對本研究中的主要結果進行多重假設檢定時，必須降低型I錯誤率，並將其保持在近似於最初的臨界顯著性水準，即 0.05（5%）。要做到這一點，就需要調整每次檢定的臨界顯著性水準，使其小於 0.05（5%）。要獲得控制整體型I錯誤率所需的每個假設檢定的新臨界顯著性水準，相對來說比較簡單。新的臨界顯著性水準（α）對五個檢定都相同。臨界顯著性水準是單次檢定顯著的機率。因此，單次檢定不顯著的機率為 (1-α)。若假設檢定是相互獨立的，則所有五個假設檢定不顯著的機率為 (1-α)^5 。為了在進行五項假設檢定時保持 5%的型I錯誤率，(1-α)^5 必須等於 0.95。由於 α 數值較小，可以證明 (1-α)^5 大致等於 (1-5α)。要使（1-5α）= 0.95，則 5α 必須等於 0.05，即 α=0.05÷5=0.01。因此，本研究中要檢定五個主要結果時，為保持整體型I錯誤率為 5%，所需的調整後臨界顯著性水準為 0.01（1%）。此為 Bonferroni 校正的基礎。一般來說，Bonferroni 校正是通過將顯著性臨界水準（通常為 0.05 (5%)）除以所進行的顯著性檢定次數，來調整每次測試的顯著性臨界水準。校正的目的是將型I錯誤率保持在 5%左右，從而降低多重檢定時發生型 I 錯誤的機率（c正確）。

在本研究中，研究人員對主要結果進行五次顯著性檢定，經過 Bonferroni 校正後，新的臨界顯著性水準為 0.05÷5=0.01（1%）（d正確）。在進行多重檢定調整前，治療組間在主要結果中唯一具有顯著性的比較是尿白蛋白濃度≥15 mg/L（P=0.04）。在使用 Bonferroni 校正進行多重檢定時，未發現顯著差異。因此，根據 Bonferroni 校正，儘管無法證實，但似乎可以合理推斷，治療組間尿白蛋白濃度≥15 mg/L顯著結果是型I錯誤。

在進行多重測定時，Bonferroni 校正提供一種控制型 I 錯誤率的直接方法。當測試次數較少時，該方法比較合適。但是，若進行的檢定次數較多，該校正方法就會趨於保守。換句話說，對於任何假設檢定，儘管在母群體中存在差異，也可能不拒絕虛無假設。因此，Bonferroni 校正偏向於不顯著，會擴大型 II 錯誤率。若虛無假設沒被拒絕，但選擇對立假設，則會出現型 II 錯誤，即母群體中存在差異，也會出現不顯著的結果。此外，Bonferroni 校正並不調整結果間的相關程度，如果相關程度很大，則會導致保守的校正。

反對Bonferroni校正的人認為這種方法違背了科學推論的合理性。如果我們僅以 P 值為基礎進行組間比較，Bonferroni校正會導致對每個比較的解釋因檢定數量而異。使用Bonferroni校正時，研究人員包含的比較次數往往不同。僅計算已發表的檢定次數可能是合理的，但更適當的做法是考慮所有進行過的檢定，包括未發表的。在這個例子中，研究人員在原始文章中進行了100多項統計檢定，但Bonferroni校正僅應用於五個主要結果。研究人員在發表時限制校正的檢定數量並不少見，這可能是為了避免過於保守的校正。然而，也有人認為檢定次數並不重要，或認為無需對多重檢定進行調整。他們認為，科學推論應基於數據提供的證據，而非僅僅依賴統計意義和檢定次數 [5]。最後，Bonferroni校正雖然保守，但會增加型II錯誤率，而型II錯誤的後果並不比型I錯誤輕。

在解釋使用多個統計檢定來比較治療組的研究結果時，需要特別小心，因為多重檢定最終會增加型I錯誤的風險。然而，我們無法確定哪些顯著結果是屬於型I錯誤。Bonferroni校正是最常用來控制型I錯誤率的方法之一。儘管Bonferroni校正比較保守，但它可以避免虛假的顯著結果。還有其他方法，例如Holm法。有人認為Holm法比Bonferroni校正更好，因為它不那麼保守，但是否應該對多重檢定進行調整仍有爭議。

多重檢定問題不僅出現在比較治療組的多個結果中，也出現在其他類型的分析中。例如，病人在一段時間內可能會對某個結果進行多次測量，例如懷孕期間的體重。用Bonferroni校正來比較每個時間點的數據是不適當的，因為每個病人的多次測量值之間有相關性，這會使Bonferroni校正過於保守。對這類數據的分析方法已在前面的問題中說明過 [6](#BMJ 27題)。

Reference:

[1] De Fine Olivarius N, Beck-Nielsen H, Andreasen AH, Hørder M, Pedersen PA. Randomised controlled trial of structured personal care of type 2 diabetes mellitus. BMJ2001;323:970.

[2] Sedgwick P. Understanding statistical hypothesis testing. BMJ 2014;348:g3557.

[3] Sedgwick P. Pitfalls of statistical hypothesis testing: type I and type II errors. BMJ 2014;349:g4287.

[4] Sedgwick P. Pitfalls of statistical hypothesis testing: multiple testing. BMJ 2014;349:g5310.

[5] Sedgwick P. Clinical significance versus statistical significance. BMJ 2014;348:g2130.

[6]363 Sedgwick P, Marston L. Analysis of longitudinal studies. BMJ 2013;346:f363.

#匯東華 #BMJ統計問題 #醫學統計 #ANOVA #Bonferroni test #事後檢定 # Multiple hypothesis testing

數據串接與清洗

數據是礦藏，數據清洗是挖出鑽石的第一步，尤其是巨量知識。數據清洗或串接執行過程需要細心與專注，且有可能會消耗許多時間和精力，就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全，種類多，需要串接與清洗，進行正規化後才能更進一步進行資料探勘與統計分析。

Fig1.同一個Project資料散落在不同tables，無法使用

Fig2.整併與清理為可分析的table

Fig.3整理和分析後形成有意義的知識

概念與流程示意圖

教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心，結合陳秀敏博士十多年來的統計實務以及教學經驗，設計適合學員學習方式，開設課程，達到有效學習。

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班：第一次分析SCI研究就上手(上、下)

課程網址：https://medata.teaches.cc/

課程介紹1：https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2：https://www.youtube.com/watch?v=nd5A5duxO5E

臨床研究思維-Open your mind

課程網址：https://medata.teaches.cc/

課程介紹1：https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

計畫撰寫與統計諮詢

為了讓匯東華的顧客與學員有更好的合作和消費體驗，故匯東華特別依據營業項目開發周邊產品，提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題，未來將針對醫學研究領域發展產品。