วิธีการสรุปช่วงเวลาที่น่าเชื่อถือสำหรับผู้ชมทางการแพทย์


21

ด้วยสแตนและส่วนหน้าแพคเกจrstanarmหรือฉันสามารถวิเคราะห์ข้อมูลทางคชกรรมที่สุดเท่าที่ฉันเคยทำมาก่อนกับการผสมรูปแบบเช่นbrms lmeในขณะที่ฉันมีหนังสือและบทความส่วนใหญ่โดย Kruschke-Gelman-Wagenmakers- ฯลฯ บนโต๊ะของฉันสิ่งเหล่านี้ไม่ได้บอกวิธีสรุปผลลัพธ์สำหรับผู้ชมทางการแพทย์ที่ขาดความโกรธแค้นของ Skyesa จาก Bayesian และ Charybdis ของผู้ตรวจสอบทางการแพทย์ ( "เราต้องการความสำคัญไม่ใช่สิ่งที่กระจาย")

ตัวอย่าง: ความถี่กระเพาะอาหาร (1 / นาที) วัดเป็นสามกลุ่ม; การควบคุมสุขภาพเป็นข้อมูลอ้างอิง มีการวัดหลายอย่างสำหรับผู้เข้าร่วมแต่ละคนดังนั้นฉันมักใช้แบบผสมต่อไปนี้lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

ผลลัพธ์ที่แก้ไขเล็กน้อย:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

เพื่อความง่ายฉันจะใช้ข้อผิดพลาด 2 * std เป็น 95% CI

ในบริบทบ่อยฉันจะสรุปสิ่งนี้เป็น:

  • ในกลุ่มควบคุมความถี่โดยประมาณคือ 2.7 / นาที (อาจเพิ่ม CI ที่นี่ แต่ฉันหลีกเลี่ยงบางครั้งเพราะความสับสนที่เกิดจาก CI สัมบูรณ์และความแตกต่าง)
  • ในกลุ่มที่ไม่มีอาการความถี่สูงขึ้น 0.4 / นาที, CI (0.11 ถึง 0.59) / นาที, p = 0.006 มากกว่าการควบคุม
  • ในกลุ่มที่มีอาการความถี่สูงขึ้น 0.2 / นาที, CI (-0.04 ถึง 0.4) / นาที, p = 0.11 กว่าการควบคุม

นี่เป็นเรื่องเกี่ยวกับความซับซ้อนสูงสุดที่ยอมรับได้สำหรับสิ่งพิมพ์ทางการแพทย์ผู้วิจารณ์อาจขอให้ฉันเพิ่ม "ไม่สำคัญ" ในกรณีที่สอง

นี่คือเหมือนกันกับstan_lmerและนักบวชเริ่มต้น

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

โดยที่ CredI เป็นช่วงเวลาที่น่าเชื่อถือ 90% (ดูบทความสั้น ๆ rstanarm ทำไม 90% ถูกใช้เป็นค่าเริ่มต้น)

คำถาม:

  • วิธีการแปลข้อมูลข้างต้นเป็นโลกของ Bayesian
  • จำเป็นต้องมีการสนทนาล่วงหน้าในระดับใด ฉันค่อนข้างแน่ใจว่ากระดาษจะกลับมาพร้อมกับ "สมมติฐานส่วนตัว" ตามปกติเมื่อฉันพูดถึงนักบวช; หรืออย่างน้อยด้วย "ไม่มีการสนทนาทางเทคนิคโปรด" แต่เจ้าหน้าที่ของเบย์ทั้งหมดร้องขอการตีความนั้นใช้ได้ในบริบทของนักบวชเท่านั้น
  • ฉันจะส่งตัวแทน "นัยสำคัญ" บางอย่างในสูตรได้อย่างไรโดยไม่มีการทรยศแนวคิดเบย์ บางอย่างเช่น "แตกต่างอย่างน่าเชื่อถือ" (uuuh ... ) หรือเกือบจะแตกต่างอย่างน่าเชื่อถือ (buoha ... , เสียงเหมือน "ที่ขอบอย่างมีนัยสำคัญ)

Jonah Gabry และ Ben Goodrich (2016) rstanarm: แบบจำลองการถดถอยประยุกต์แบบเบย์ผ่านสแตน แพ็คเกจ R เวอร์ชั่น 2.9.0-3 https://CRAN.R-project.org/package=rstanarm

ทีมพัฒนาสแตน (2015) Stan: ไลบรารี C ++ สำหรับความน่าจะเป็นและการสุ่มตัวอย่างเวอร์ชัน 2.8.0 URL http://mc-stan.org/

Paul-Christian Buerkner (2016) brms: แบบจำลองการถดถอยแบบเบย์โดยใช้สแตน แพ็คเกจ R เวอร์ชั่น 0.8.0 https://CRAN.R-project.org/package=brms

Pinheiro J, Bates D, DebRoy S, Sarkar D และ R Core Team (2016) nlme: เชิงเส้นและไม่เชิงเส้นผลกระทบผสมรุ่น แพ็คเกจ R เวอร์ชั่น 3.1-124, http://CRAN.R-project.org/package=nlme>


1
ฉันไม่มีประสบการณ์กับผู้ตรวจสอบ / บรรณาธิการวารสารการแพทย์ แต่บางทีคุณอาจลองบอกว่ามีความน่าจะเป็นศูนย์ที่การสกัดกั้นเป็นลบ, ความน่าจะเป็นศูนย์ที่สัมประสิทธิ์ของตัวแปรจำลอง "ไม่มีอาการ" เป็นลบและประมาณ 5% ที่สัมประสิทธิ์ของตัวแปร "กับอาการ" นั้นเป็นลบ คุณสามารถหาจำนวนประมาณ 5% mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0)อย่างแม่นยำมากขึ้นด้วยการทำ
Ben Goodrich

เราคิดอย่างนั้นและเสียง 5% ฟังโอเค; นักวิจัยจะแปลมันเป็น "ความสำคัญ" แต่ตามปกติแล้วพวกเขาเข้าใจผิดอย่างมีนัยสำคัญพวกเขาจะถูกต้องโดยการปฏิเสธคู่ ในทางกลับกัน "ความน่าจะเป็นศูนย์" เป็นฆาตกร: คุณจะยอมรับไหม บางที <1 / Reff (p <0.001) น่าจะเป็นการประมาณ? แต่อีกครั้ง: เมื่อฉันเขียน p <xxx ฉันอยู่ในโลกที่สำคัญ
Dieter Menne

แก้ไข Reff เป็น n_eff ด้านบน
Dieter Menne

1
โดยส่วนตัวฉันจะไม่อ้างถึงความน่าจะเป็นแบบหางว่ามี "น้อยกว่า 1 ในโอกาส n_eff" เพราะ n_eff เกี่ยวข้องกับความแม่นยำซึ่งค่าเฉลี่ยนั้นประมาณไว้ บางทีคุณอาจจะสามารถเรียกใช้โซ่ของคุณนานพอที่จะได้รับการวาด 1 เชิงลบสำหรับค่าสัมประสิทธิ์บนแล้วบอกว่าน่าจะเป็นของมันจะเป็นเชิงลบคือgroup_nosymptoms แต่สำหรับตัดโซ่จะไม่ไปหลงเข้าไปในดินแดนลบสำหรับข้อมูลเหล่านี้ดังนั้นผมคิดว่าคุณอาจจะบอกว่าน่าจะเป็นน้อยกว่า1 / draws 1 / draws
Ben Goodrich

ผมได้คำแนะนำที่ดีบางอย่างเกี่ยวกับการรวมของ P-ค่าสำหรับผู้เชี่ยวชาญโดเมน แต่ไม่สถิติผู้เชี่ยวชาญวิจารณ์ที่นี่: stats.stackexchange.com/questions/148649/... เราใช้ p <ต่ำสุด (n_eff ของพารามิเตอร์ทั้งหมด) เป็นส่วนหัวอนุรักษ์เมื่อ p = 0
stijn

คำตอบ:


16

ความคิดด่วน:

1) ปัญหาสำคัญคือคำถามใดที่นำไปใช้ที่คุณพยายามตอบสำหรับผู้ชมของคุณเพราะนั่นเป็นตัวกำหนดข้อมูลที่คุณต้องการจากการวิเคราะห์ทางสถิติของคุณ ในกรณีนี้ดูเหมือนว่าคุณต้องการประเมินขนาดของความแตกต่างระหว่างกลุ่ม (หรือบางทีขนาดของอัตราส่วนของกลุ่มถ้านั่นคือการวัดที่คุ้นเคยกับผู้ชมของคุณ) ขนาดของความแตกต่างไม่ได้ให้โดยตรงจากการวิเคราะห์ที่คุณนำเสนอในคำถาม แต่มันเป็นเรื่องตรงไปตรงมาที่จะได้รับสิ่งที่คุณต้องการจากการวิเคราะห์แบบเบย์: คุณต้องการการกระจายด้านหลังของความแตกต่าง (หรืออัตราส่วน) จากนั้นจากการกระจายความแตกต่างด้านหลัง (หรืออัตราส่วน) คุณสามารถสร้างข้อความสั่งความน่าจะเป็นโดยตรงเช่นนี้

"ความแตกต่างที่น่าเชื่อถือที่สุด 95% อยู่ระหว่าง [ขีด จำกัด ต่ำ 95% HDI] และ [ขีด จำกัด สูง 95% HDI]" (ที่นี่ฉันใช้ช่วงความหนาแน่นสูงสุด 95% [HDI] เป็นช่วงเวลาที่น่าเชื่อถือและเพราะเป็น นิยามค่าพารามิเตอร์ความหนาแน่นสูงสุดที่พวกเขามันวาวเป็น 'น่าเชื่อถือที่สุด')

ผู้ชมวารสารทางการแพทย์จะเข้าใจคำพูดนั้นอย่างสังหรณ์ใจและถูกต้องเพราะมันเป็นสิ่งที่ผู้ชมมักจะคิดว่าเป็นความหมายของช่วงความมั่นใจบ่อยครั้ง

คุณจะได้รับความแตกต่าง (หรืออัตราส่วน) จาก Stan หรือ JAGS ได้อย่างไร เพียงดำเนินการภายหลังจากกระบวนการโซ่ MCMC ที่เสร็จสมบูรณ์ ในแต่ละขั้นตอนของห่วงโซ่ให้คำนวณความแตกต่างที่เกี่ยวข้อง (หรืออัตราส่วน) จากนั้นตรวจสอบการกระจายหลังของความแตกต่าง (หรืออัตราส่วน) ตัวอย่างที่มีอยู่ใน DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/สำหรับ MCMC โดยทั่วไปในรูปที่ 7.9 (หน้า 177) สำหรับ JAGS ในรูปที่ 8.6 (หน้า 211) และสำหรับ Stan ในมาตรา 16.3 (p . 468) ฯลฯ !

2) หากคุณถูกบังคับตามธรรมเนียมในการทำแถลงการณ์ว่าปฏิเสธความแตกต่างของศูนย์หรือไม่คุณมีตัวเลือกแบบเบย์สองตัว

2A) ทางเลือกหนึ่งคือการสร้างข้อความประกาศความน่าจะเป็นเกี่ยวกับช่วงเวลาที่ใกล้ศูนย์และความสัมพันธ์กับ HDI สำหรับสิ่งนี้คุณตั้งค่าขอบเขตของการปฏิบัติที่เท่าเทียมกัน (ROPE) ประมาณศูนย์ซึ่งเป็นเพียงเกณฑ์การตัดสินใจที่เหมาะสมสำหรับโดเมนที่คุณใช้ --- ความแตกต่างเล็ก ๆ น้อยมากหรือไม่ การตั้งค่าขอบเขตดังกล่าวจะกระทำเป็นประจำในการทดสอบทางคลินิกที่ไม่ด้อยคุณภาพ หากคุณมีการวัดขนาดผลในฟิลด์ของคุณอาจมีแบบแผนสำหรับขนาดผล 'เล็ก' และขีด จำกัด ROPE อาจพูดครึ่งหนึ่งของผลขนาดเล็ก จากนั้นคุณสามารถสร้างข้อความสั่งความน่าจะเป็นโดยตรงเช่น:

"เพียง 1.2% ของการแจกแจงความแตกต่างด้านหลังเทียบเท่ากับศูนย์"

และ

"ความแตกต่างที่น่าเชื่อถือที่สุด 95% นั้นทั้งหมดไม่เทียบเท่ากับศูนย์ (เช่น 95% HDI และ ROPE ไม่ทับซ้อนกัน) ดังนั้นเราจึงปฏิเสธศูนย์" (สังเกตเห็นความแตกต่างระหว่างคำแถลงความน่าจะเป็นจากการแจกแจงหลังเทียบกับการตัดสินใจครั้งต่อไปตามคำแถลงนั้น)

นอกจากนี้คุณยังสามารถยอมรับความแตกต่างของศูนย์เพื่อจุดประสงค์ในทางปฏิบัติหากค่าที่น่าเชื่อถือที่สุด 95% นั้นเทียบเท่ากับศูนย์ทั้งหมด

2B) ตัวเลือกแบบเบย์อันที่สองคือการทดสอบสมมติฐานแบบเบส์ (ขอให้สังเกตว่าวิธีการข้างต้นคือไม่ได้เรียกว่า "การทดสอบสมมติฐาน"!) การทดสอบสมมติฐานแบบเบย์ทำแบบเปรียบเทียบแบบเบส์ของการแจกแจงก่อนที่ถือว่าความแตกต่างสามารถเป็นศูนย์เทียบกับการกระจายก่อนทางเลือกที่สมมติว่าความแตกต่างอาจเป็นช่วงของความเป็นไปได้กระจาย ผลลัพธ์ของการเปรียบเทียบแบบจำลอง (โดยทั่วไป) ขึ้นอยู่กับตัวเลือกเฉพาะของการกระจายทางเลือกอย่างมากและการให้เหตุผลอย่างรอบคอบจะต้องทำเพื่อการเลือกทางเลือกก่อน เป็นการดีที่สุดที่จะใช้นักบวชที่มีข้อมูลอย่างน้อยที่สุดสำหรับทั้งค่าว่างและทางเลือกเพื่อให้การเปรียบเทียบแบบจำลองมีความหมายอย่างแท้จริง โปรดทราบว่าการเปรียบเทียบแบบจำลองให้ข้อมูลที่แตกต่างจากการประมาณความแตกต่างระหว่างกลุ่มเนื่องจากการเปรียบเทียบแบบจำลองเป็นการตอบคำถามที่แตกต่างกัน ดังนั้นแม้จะมีการเปรียบเทียบแบบจำลอง

อาจมีวิธีการทำแบบทดสอบสมมติฐานว่างแบบเบย์จากเอาต์พุตของ Stan / JAGS / MCMC แต่ฉันไม่รู้ในกรณีนี้ ตัวอย่างเช่นเราสามารถลองใช้การประมาณแบบอำมหิต - Dickey กับปัจจัย Bayes แต่นั่นจะขึ้นอยู่กับการรู้ความหนาแน่นก่อนหน้านี้ในความแตกต่างซึ่งจะต้องมีการวิเคราะห์ทางคณิตศาสตร์หรือการประมาณ MCMC เพิ่มเติมจากก่อนหน้า

วิธีการสองวิธีในการตัดสินใจเกี่ยวกับค่า Null จะถูกกล่าวถึงใน Ch 12 DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ แต่ฉันไม่ต้องการให้การสนทนานี้ถูกติดตามโดยการอภิปรายเกี่ยวกับวิธี "เหมาะสม" เพื่อประเมินค่าว่าง พวกมันต่างกันและให้ข้อมูลที่ต่างกัน จุดหลักของการตอบกลับของฉันคือจุดที่ 1 ด้านบน: ดูการกระจายด้านหลังของความแตกต่างระหว่างกลุ่ม


3
ยินดีต้อนรับสู่เว็บไซต์ของเรา! มันยอดเยี่ยมมากที่คุณได้เป็นส่วนหนึ่งของชุมชนของเรา!
ทิม

หากคุณต้องการที่จะรวมบัญชีของคุณกับคนนี้stats.stackexchange.com/users/16592 (ที่ดูเหมือนจะเป็นของคุณมากเกินไป), คุณสามารถทำมันได้โดยอัตโนมัติผ่านทางstats.stackexchange.com/contact
อะมีบาพูดว่า Reinstate Monica

คุณสามารถทำการทดสอบสมมติฐานที่อธิบายไว้ที่นี่โดยใช้ brms ดู: github.com/paul-buerkner/brms
bjw

3

ตามจรรยาบรรณของ SO สิ่งนี้ควรถูกเขียนเป็นความคิดเห็นของ @John K. Kruschke แต่ความคิดเห็นที่นานขึ้นนั้นยากที่จะจัดโครงสร้าง ขอโทษ

  • @John K. Kruschke เขียน: เพียงแค่โพสต์โพรเซสซิงของโซ่ MCMC ที่เสร็จสมบูรณ์ ...

lower_CredIและupper_CredIในโพสต์ต้นฉบับถูกคำนวณตามที่คุณพูดถึงจากเครือข่าย MCMC เต็มรูปแบบและมีการฟอร์แมตใหม่เพียงเล็กน้อยเพื่อการเปรียบเทียบที่ดีขึ้นกับlmeเอาต์พุต ในขณะที่คุณชื่นชอบ HDI สิ่งเหล่านี้คือควอนไทล์ธรรมดา ด้วยตัวอย่างหลังที่สมมาตรในตัวอย่างนี้มันไม่ได้สร้างความแตกต่างที่ยิ่งใหญ่

  • ROPE และขนาดของเอฟเฟกต์

ฉันได้เห็นการใช้งานกับคณะกรรมการจริยธรรมคือพลังทางสถิติถูกคำนวณโดยไม่ระบุข้อสมมติฐานเกี่ยวกับขนาดของเอฟเฟกต์ แม้ในกรณีที่ไม่มีวิธีการกำหนด "ผลทางคลินิกที่เกี่ยวข้อง" มันก็เป็นเรื่องยากที่จะอธิบายแนวคิดให้นักวิจัยทางการแพทย์ มันง่ายกว่าสำหรับการทดลองที่ไม่ด้อยกว่า แต่ก็ไม่บ่อยครั้งกว่าที่จะมีการศึกษา

ดังนั้นฉันค่อนข้างมั่นใจว่าการแนะนำ ROPES จะไม่เป็นที่ยอมรับ - ข้อสันนิษฐานอื่น ๆ ที่ผู้คนไม่สามารถจดจำได้มากกว่าหนึ่งตัวเลข ปัจจัย Bayes อาจใช้งานได้เนื่องจากมีเพียงหมายเลขเดียวที่จะนำกลับบ้านเช่นค่า p ก่อนหน้านี้

  • ไพรเออร์

ฉันประหลาดใจที่ @John K. Kruschke และ @Ben Goodrich จากทีมสแตนไม่พูดถึงนักบวช เอกสารส่วนใหญ่เกี่ยวกับเรื่องนี้ขอการสนทนาอย่างละเอียดเกี่ยวกับความไวก่อนหน้าเมื่อแสดงผลลัพธ์

คงจะดีถ้าในหนังสือเล่มถัดไปของคุณ - หวังว่าจะได้สแตน - คุณสามารถเพิ่มกล่อง "วิธีการเผยแพร่สิ่งนี้ (ในกระดาษที่ไม่ใช่สถิติ) ด้วย 100 คำ" สำหรับตัวอย่างที่เลือก เมื่อฉันจะนำบทของคุณ 23.1 ไปด้วยคำพูดงานวิจัยทางการแพทย์ทั่วไปโดย 100 หน้าและตัวเลขยาว ...


* ประเด็นหลักคือการดูการกระจายความหลังของความแตกต่าง (ระหว่างกลุ่มระหว่างการรวมกลุ่ม) นั่นคือสิ่งที่ต้องการหลังการประมวลผลของเครือข่าย MCMC
John K. Kruschke

* ROPE: คุณ "ค่อนข้างแน่ใจว่า ROPE จะไม่เป็นที่ยอมรับ" และ "เป็นการยากที่จะอธิบายแนวคิดให้นักวิจัยทางการแพทย์" ฉันไม่เห็นเลยว่าปัจจัยของ Bayes จะง่ายกว่าที่จะอธิบายหรือยอมรับได้อย่างไรเนื่องจากปัจจัยของ Bayes ใช้คำอธิบายที่ละเอียดยิ่งขึ้นและเหตุผลของเกณฑ์ BF เฉพาะสำหรับการตัดสินใจ !! ดูเหมือนกับฉันคุณคิดว่าผู้ชมของคุณถูกสร้างขึ้นอย่างถาวรในกรอบบ่อย ๆ ; หากเป็นเช่นนั้นให้ใช้สถิติบ่อยหรือส่งงานของคุณไปยังวารสารที่มีความรู้แจ้งมากขึ้น
John K. Kruschke

* คุณพูดเกินจริงอย่างจริงจังเกี่ยวกับคำแนะนำของ Ch 23.1 ซึ่งในความเป็นจริงสามารถแก้ไขได้ในข้อความจำนวนเล็กน้อยโดยเฉพาะอย่างยิ่งสำหรับโมเดลที่เรียบง่ายเช่นคุณใช้ที่นี่ อย่างต่อเนื่องในความคิดเห็นต่อไป ...
John K. Kruschke

1
(i) กระตุ้นการใช้ Bayesian - มันช่วยให้คุณมีการแจกแจงหลัง (ii) อธิบายโมเดลและพารามิเตอร์ของโมเดลซึ่งเป็นเรื่องง่ายในกรณีนี้ (iii) แสดงให้เห็นถึงสิ่งที่เกิดขึ้นก่อนหน้านี้ - อีกเล็กน้อยในกรณีนี้เพียงเพื่อบอกว่าคุณใช้นักบวชผู้กระจายที่ไม่มีผลกระทบต่อคนหลัง (แต่ไม่ใช่ถ้าคุณใช้ปัจจัย Bayes ซึ่งสิ่งสำคัญก่อนหน้านี้มีความสำคัญ) (iv) รายงานความนุ่มนวลของห่วงโซ่ MCMC - เล็กน้อยเพื่อพูด ESS นั้นมีค่าประมาณ 10,000 สำหรับพารามิเตอร์และความแตกต่างทั้งหมด อย่างต่อเนื่องในความคิดเห็นต่อไป ...
John K. Kruschke

1
(v) ตีความหลัง: เพียงแค่ระบุแนวโน้มกลาง (เช่นโหมด) ของหลังและ 95% HDI ของมันสำหรับความสนใจที่แตกต่างกัน มันไม่สั้นเท่าทวีต แต่มันมีเพียงสองย่อหน้า
John K. Kruschke
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.