匯東華統計顧問有限公司 - BMJ專題146-世代研究需要多少樣本數

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題（146）：Sample size: How many participants are needed in a cohort study? (世代研究需要多少樣本數)

Cite this as: BMJ 2014;349:g6557

https://www.bmj.com/content/349/bmj.g6557

前言

本文主題為樣本數的計算與應用。樣本數的計算在觀察性研究和臨床試驗中都扮演至關重要的角色。觀察性研究的樣本數要求通常基於樣本估計值的統計精度，而臨床試驗的樣本數計算則包括對統計檢力和臨床意義上的最小效果量的考慮。

樣本數計算需要考慮母群體參數的估計值、所需的估計精確度、信賴區間以及可能的失敗率。提高估計值的精確度需要更大的樣本數。信賴區間代表樣本估計值的精確度。若提高母群體參數估計值的精度，會導致信賴區間的寬度減小。這些概念是設計高品質的研究必備知識，可以避免樣本數不足導致的估計值不精確，或是樣本數過多導致的資源浪費。

隨著AIGC的興起，並且這些工具越來越強，紮實的學理基礎變得更為重要。往後學習的重點之一，在於是否能夠具備判斷這些工具產出內容的正確性。而此能力，有賴於平時對專業知識的累積與內化程度。更要能夠將所學應用於實際場景解決問題。學以致用，用以致學，形成學習雙向迴路。在AI時代來臨的現代，更為重要。

想要真正掌握這些概念並運用於實踐，強力推薦本公司推出的線上課程：【eB02-小白的醫學統計必修課(上)】與【eB02-小白的醫學統計必修課(下)】前者講解醫學統計學核心概念，幫助你進行系統性理解，專治統計不全症；後者則是最實用的醫學實戰統計課程，讓你學會如何將統計知識應用到真實世界的研究中。

此外，我們還有一系列直播課程，包括國外公開醫學資料庫、文獻管理利器、統合分析文獻解析等等，詳情請至官網"課程報名"一覽,或是訂閱公司Google行事曆。這些課程將為你提供最前沿、最實用的知識和工具，有效助力科學研究。

有任何問題可至本公司官方line:@medatatw洽詢。感謝眾多朋友兩年多來的一路陪伴。匯東華三周年生日即將到來，越發感謝各位的支持。Hope u enjoy it

路徑：匯東華官網/學習專區/BMJ小小統計問題列表

✨線上課程提供【流行病學】與【生物統計學】系列https://medata.teaches.cc/

✨匯東華會員制詳情：https://reurl.cc/NyjNMx

課程介紹與報名資訊：https://reurl.cc/EoRxpg

線上課程學院：https://medata.teaches.cc/

-----

問題：

研究人員估計 2001 年 10 月英國實施學齡前百日咳強化免疫後學齡兒童的百日咳感染率。研究採用前瞻性世代研究設計。研究人員招募在基層醫療機構就診並出現持續咳嗽的 5-15 歲兒童。招募時間為 2010 年 11 月至 2012 年 12 月。主要結果是百日咳感染，通過口服液抗百日咳毒素 IgG 滴度診斷 [1]。

樣本數是根據研究母群體中百日咳發病率預計為 20% 計算所得。根據母群體感染率的 95% 信賴區間（即 15% 至 25% ），估計值的精確度需在 5%以內。所需樣本數為 246 名。考慮到可能有 20% 的失敗率無法獲得含有足夠總 IgG 的口腔液樣本進行分析，所需樣本數增加到 300 名。

總共招募 294 名兒童，其中 279 名（94.9%）的總 IgG 含量足以進行分析。結果顯示有 56 名兒童（20.1%，95% 信賴區間為 15.4% 至 24.8%）有近期感染百日咳的證據，其中 215 名兒童中有 39 名（18.1%，13.0% 至 23.3%）曾接受過全面疫苗接種。結論為，在因持續咳嗽而到基層醫療機構就診的學齡兒童中，有五分之一患有百日咳。此外，作者也認為，這些研究結果可能有助於考慮是否需要對兒童進行百日咳疫苗接種。

下列敘述何者正確？

a) 提高母群體盛行率樣本估計值的精度會導致 95%信賴區間的寬度減小

b) 提高樣本估計母群體盛行率的精確度需要更大的樣本數

c) 獲得含有足夠總 IgG 的口腔液樣本進行分析的失敗率被高估了

答案

以上皆是。

詳細說明：

本研究旨在估算學齡兒童中百日咳感染的母群體盛行率。研究採用前瞻性世代研究設計[2]。研究開始前進行樣本數計算。需要預估母群體盛行率，以及根據母群體盛行率之 95% 信賴區間評估所需的估計精度。根據文獻，預計母群體盛行率為 20%。樣本估計值的精度要求在 5 個絕對百分點以內，即 95% 的信賴區間為 15% 至 25%。因此需要 246 個樣本。

此為一個區間估計值，母群體參數包含在區間界限之間的機率為 0.95 [3]。在上述研究中，若預期盛行率為 20%，則精度需要在 5 個絕對百分點以內，即 95% 的信賴區間為 15%-25%。如上述研究的精確度提高，例如樣本估計值在三個百分點以內，則 95% 信賴區間將縮小為 17% 至 23%（a 正確）。要提高精確度，就需要增加樣本數（b 正確）；例如，要將 20% 的估計盛行率精確到三個百分點以內，就需要 1537 名參與者的樣本數。

在計算一項研究（尤其是前瞻性設計）所需的樣本數時，必須考慮到參與者有可能失去追蹤。若有必要，應調整樣本數。樣本數的調整幅度通常基於以往的研究結果，也可能是在知情的情況下做出的近似值。在上述研究中，考慮到可能會有 20% 的失敗率，將所需的樣本數增加到 300 個。研究共招募 294 名兒童，其中 279 人（94.9%）提供足夠的總 IgG 樣本用於分析。因此，失敗率為 5.1%，研究人員在計算所需樣本數時高估此一比率（c 正確）。最終的樣本數超過估算 20% 的母群體盛行率所需的樣本數，誤差在 5 個百分點以內。

樣本數的計算是基於 20% 的估計母群體盛行率，精確度在 5 個絕對百分點以內。有時，比例或百分比的樣本數計算基於相對精度。例如，百日咳的估計母群體盛行率為 20%，可能要求樣本估計值的相對精度在 10 個百分點以內。估計盛行率的 10% 相對精度為 2%，因此人口參數的 95%信賴區間為 18%至 22%。

樣本估計盛行率與 20% 的預期盛行率在幅度上相似。這不可能是巧合--作者無疑是根據自己的臨床經驗和其他研究人員的經驗得出的結論。若樣本估計值的大小與預測的盛行率 20% 有明顯差異，則樣本估計值的精度就會與最初規定的精度不同。樣本數計算不應被視為一門精確的科學，而應被視為提供所需參與者人數的 "大概 "數字。亦即，樣本數計算提供研究可能需要的時間以及費用。

在設計上述研究時，計算所需的樣本數至關重要。若樣本數太少，得出的百日咳人群感染率估計值可能過於不精確，無法用於公共衛生規劃和預防。樣本數過大可能會耗費過多的資源，收集樣本的時間也會過長。樣本數計算對於觀察性研究和追蹤對照試驗同樣重要。對於臨床試驗而言，樣本數的計算包括對統計檢力和臨床意義上的最小效果量的考慮 [4-5]，而對於觀察性研究（如本例）而言，樣本數的計算可能基於樣本估計值的統計精度。觀察性研究的樣本數要求取決於暴露於和未暴露於某一危險因素的母群體的疾病風險等。

Reference:

[1]Wang K, Fry NK, Campbell H, Amirthalingam G, Harrison TG, Mant D, et al. Whooping cough in school age children presenting with persistent cough in UK primary care after introduction of the preschool pertussis booster vaccination: prospective cohort study. BMJ 2014;348:g3668.

[2]Sedgwick P. Prospective cohort studies: advantages and disadvantages. BMJ 2013;347:f6726.

[3]Sedgwick P. Understanding confidence intervals. BMJ 2014;349:g6051.

[4]Sedgwick P. Sample size: how many participants are needed in a trial? BMJ 2013;346:f1041.

[5]Sedgwick P. Cluster randomised controlled trials: sample size calculations. BMJ 2013;346:f2839.

#匯東華 #BMJ統計問題 #醫學統計 #樣本數 (Sample size) #母群體盛行率 (Population prevalence) #前瞻性世代研究 (Prospective cohort study) #百日咳感染 (Pertussis infection) #信賴區間 (Confidence interval)