เหตุใดวิธีการแบบเบย์จึงไม่ต้องการการทดสอบแก้ไขหลายรายการ?


22

Andrew Gelman เขียนบทความมากมายเกี่ยวกับสาเหตุที่การทดสอบแบบเบย์ไม่ต้องใช้การแก้ไขสมมติฐานหลายประการ: ทำไมเรา (โดยปกติ) ไม่ต้องกังวลเกี่ยวกับการเปรียบเทียบหลายแบบ , 2012

ฉันไม่ค่อยเข้าใจ: ทำไมวิธีการแบบเบย์จึงไม่จำเป็นต้องมีการแก้ไขการทดสอบหลายครั้ง

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

ความเข้าใจของฉันคือว่าวิธีการแบบเบย์ที่แสดงข้างต้นบัญชีสำหรับการกระจายพื้นฐานที่ใช้ร่วมกันโดยสมมติฐานทั้งหมด (ซึ่งแตกต่างจากการแก้ไข Bonferroni บ่อยครั้ง) เหตุผลของฉันถูกต้องหรือไม่



5
ในขณะที่ลิงก์ของ Patrick มีประโยชน์มากมันจะเป็นการดีหากได้เห็นคำตอบที่มีในตัวเองมากขึ้นซึ่งเหมาะกับ 'ผู้ตรวจสอบทางวิทยาศาสตร์ที่มีความรู้ทางสถิติ'
คาดคะเน

คำตอบ:


14

วิธีหนึ่งที่แปลกที่จะตอบคำถามก็คือให้สังเกตว่าวิธีการแบบเบย์นั้นไม่มีวิธีการทำแบบนี้เพราะวิธีแบบเบย์นั้นสอดคล้องกับกฎระเบียบที่เป็นที่ยอมรับและวิธีการแบบประจำมักจะขัดแย้งกับพวกเขา ตัวอย่าง:

  • ด้วยสถิติที่ใช้บ่อยการเปรียบเทียบการรักษา A ถึง B ต้องลงโทษสำหรับการเปรียบเทียบการรักษา C และ D เนื่องจากการพิจารณาข้อผิดพลาดประเภทครอบครัวที่ชาญฉลาด ด้วย Bayesian การเปรียบเทียบ AB นั้นตั้งอยู่บนนั้น
  • สำหรับการทดสอบตามลำดับบ่อยครั้งนั้นจำเป็นต้องมีบทลงโทษสำหรับการตรวจสอบข้อมูลหลายครั้ง ในการตั้งค่าลำดับกลุ่มการเปรียบเทียบก่อนหน้านี้สำหรับ A vs B จะต้องถูกลงโทษสำหรับการเปรียบเทียบในภายหลังที่ยังไม่ได้ทำและการเปรียบเทียบในภายหลังจะต้องถูกลงโทษสำหรับการเปรียบเทียบก่อนหน้าแม้ว่าการเปรียบเทียบก่อนหน้านี้จะไม่เปลี่ยนเส้นทางของ ศึกษา.

ปัญหาเกิดจากการโอนกลับ frequentist ของการไหลของเวลาและข้อมูลที่ทำให้ frequentists ต้องพิจารณาสิ่งที่อาจจะเกิดขึ้นแทนสิ่งที่ไม่เกิดขึ้น ในทางตรงกันข้ามการประเมินแบบเบย์ยึดการประเมินทั้งหมดไปยังการแจกแจงก่อนหน้าซึ่งปรับเทียบหลักฐาน ตัวอย่างเช่นการกระจายก่อนหน้านี้สำหรับความแตกต่าง AB ปรับการประเมิน AB ในอนาคตทั้งหมดและไม่จำเป็นต้องพิจารณาซีดี

ด้วยการทดสอบตามลำดับมีความสับสนอย่างมากเกี่ยวกับวิธีการปรับการประเมินจุดเมื่อสิ้นสุดการทดสอบก่อนโดยใช้การอนุมานบ่อยครั้ง ในโลกของ Bayesian การ "ดึงกลับ" ก่อนหน้านี้ในการประเมินจุดใด ๆ และการกระจายหลังที่ปรับปรุงแล้วนำไปใช้กับการอนุมานได้ตลอดเวลาและไม่จำเป็นต้องพิจารณาพื้นที่ตัวอย่างที่ซับซ้อน


4
ฉันไม่เข้าใจเรื่องนี้จริงๆ หากเราทำการเปรียบเทียบแตกต่างกัน 1,000 ครั้งโดยใช้วิธีการปกติบ่อยครั้งแน่นอนว่าเราควรคาดหวังประมาณ 50 อย่างมีนัยสำคัญด้วย p <0.05 ผลกระทบแม้ภายใต้ค่า null ดังนั้นการแก้ไข หากเราใช้การประมาณค่าแบบเบส์ / การทดสอบแทนมีบางอย่างก่อนหน้า (ประมาณ 0?) สำหรับการเปรียบเทียบทั้งหมดแล้วใช่ก่อนหน้านี้จะหดโปสเตอร์หลังไปเป็นศูนย์ แต่เราจะยังคงมี posteriors ที่แตกต่างกันและ / หรือปัจจัย Bayes รายจาก 1,000 รายที่ดูเหมือนว่าจะมีเอฟเฟกต์ "มากมาย" แม้ว่าเอฟเฟกต์จริงจะเป็นศูนย์ก็ตาม
อะมีบาพูดว่า Reinstate Monica

1
@ amoeba - วิธีหนึ่งในการพิจารณาก็คือ Bayesian คำนึงถึงทางเลือกทั้งหมด - ไม่ใช่แค่ "null" กับ "one choice " การพิจารณาทางเลือกทั้งหมดหมายถึงโดยทั่วไปแล้วแต่ละอันมีความน่าจะเป็นน้อยกว่าเดิม - ลงโทษการอนุมานได้อย่างมีประสิทธิภาพ คุณต้องพิจารณาทั้งชุดจริง / เท็จทั้งหมด (สมมติว่าคุณไม่มีความรู้ก่อนหน้าของชุดค่าผสมที่เป็นไปไม่ได้) คุณกังวลเกี่ยวกับสิ่งที่ผิดพลาดใน * เพียงกรณีเดียว * อีกคดีเกี่ยวกับอะไร? 2 1,000 - 12100021000-1
ความน่าจะเป็นทางการ

1
ขออภัย @probabilityislogic ฉันไม่แน่ใจว่าฉันเข้าใจประเด็นของคุณ ยุติธรรมเพียงพอเกี่ยวกับ "ทางเลือกทั้งหมด" แต่จะเกิดอะไรขึ้นในทางปฏิบัติ ดังที่ฉันได้กล่าวไปแล้วเรากำลังประเมินความแตกต่างของกลุ่ม 1,000 รายการ (ตัวอย่าง); เรามีความแตกต่างของกลุ่มมาก่อน เราได้ผู้โพสต์ 1,000 คนช่วงเวลาที่น่าเชื่อถือ 95% หรืออะไรก็ตาม จากนั้นเราจะดูแต่ละช่วงเวลาที่น่าเชื่อถือเพื่อตรวจสอบว่าห่างจากศูนย์มากพอที่จะเป็นเอฟเฟกต์ "มีความหมาย / เป็นกอบเป็นกำ" หากเราทำเช่นนี้ 1,000 ครั้งเราน่าจะมี "ผลบวกปลอม" บางอย่างในแง่ที่ว่าเอฟเฟกต์บางอย่างจะปรากฏขนาดใหญ่แม้ว่าเอฟเฟกต์ 1,000 รายการทั้งหมดจะมีค่าเท่ากับศูนย์ ไม่มี?
อะมีบาพูดว่า Reinstate Monica

1
1000

1
@probabilityislogic: ดีฉันชอบแบบหลายระดับแม้ว่าฉันไม่เห็นพวกเขาจำเป็นต้องเป็นเครื่องมือแบบเบย์ - แบบผสมและ ANOVAs ที่มีเอฟเฟกต์แบบสุ่มมักใช้ควบคู่กับการทดสอบ t และ ...
อะมีบาพูดว่า Reinstate Monica

6

โมเดลลำดับชั้นชนิดนี้จะลดขนาดการประมาณการและลดจำนวนการอ้างสิทธิ์ที่ผิดพลาดในระดับที่สมเหตุสมผลสำหรับจำนวนของสมมติฐานที่น้อยถึงปานกลาง มันรับประกันอัตราข้อผิดพลาดเฉพาะบางประเภทหรือไม่? เลขที่

คำแนะนำเฉพาะนี้โดย Gelman (ผู้ที่รับทราบปัญหาด้วยการดูสิ่งต่าง ๆ มากเกินไปและจากนั้นก็สรุปได้อย่างง่ายดายผิด ๆ ว่าคุณเห็นบางอย่างสำหรับพวกเขา - ในความเป็นจริงหนึ่งในหัวข้อสัตว์เลี้ยงของเขาในบล็อกของเขา) นั้นแตกต่างจาก มุมมองที่เก็บวิธีการแบบเบย์ไม่จำเป็นต้องคำนึงถึงความซ้ำซ้อนเพราะสิ่งที่สำคัญคือโอกาสของคุณ (และก่อนหน้านี้)


1
(+1) สำหรับผู้รู้ที่คาดหวังของฉันในบางกรณี (เช่นมิติที่มีการจับคู่ก่อนหน้านี้) การอนุมานแบบเบย์ไม่ได้ให้การควบคุมใด ๆ กับอัตราความผิดพลาดประเภท 1 ดังนั้นการแก้ไขการทดสอบหลายรายการในการตั้งค่าแบบเบย์ไม่สามารถเป็น IHMO ได้เนื่องจากเป็นการแก้ไขข้อผิดพลาดประเภท 1
peuhp


6

คำถามที่น่าสนใจมากนี่คือสิ่งที่ฉันทำ

มันคือทั้งหมดที่เกี่ยวกับการเข้ารหัสข้อมูลจากนั้นหมุนข้อเหวี่ยงแบบเบย์ มันดูดีเกินกว่าที่จะเป็นจริง - แต่ทั้งสองอย่างนั้นยากกว่าที่คิด

ฉันเริ่มต้นด้วยการถามคำถาม

มีการใช้ข้อมูลใดบ้างเมื่อเรากังวลเกี่ยวกับการเปรียบเทียบหลาย ๆ

ฉันสามารถนึกถึงบางอย่าง - อย่างแรกคือ "การขุดลอกข้อมูล" - ทดสอบ "ทุกอย่าง" จนกว่าคุณจะผ่าน / ล้มเหลวมากพอ นอกจากนี้คุณยังมีความน่ากลัวน้อยลง แต่ส่วนใหญ่เหมือนกันว่า "ฉันมีการทดสอบมากมายที่ต้องวิ่ง - แน่นอนว่าทุกอย่างไม่ถูกต้อง"

หลังจากคิดเกี่ยวกับเรื่องนี้สิ่งหนึ่งที่ฉันสังเกตเห็นคือคุณไม่ค่อยได้ยินเรื่องสมมุติฐานหรือการเปรียบเทียบที่เฉพาะเจาะจงมากนัก ทุกอย่างเกี่ยวกับ "คอลเลกชัน" - สิ่งนี้ทำให้ฉันคิดไปสู่ความสามารถในการแลกเปลี่ยน - สมมติฐานที่ถูกเปรียบเทียบนั้น "คล้ายกัน" ในบางด้าน และคุณเข้ารหัสการแลกเปลี่ยนในการวิเคราะห์แบบเบย์ได้อย่างไร - ไฮเปอร์พรีเซอร์โมเดลผสมเอฟเฟกต์แบบสุ่ม ฯลฯ !!!

แต่การแลกเปลี่ยนนั้นทำให้คุณได้รับส่วนหนึ่งจากที่นั่น ทุกอย่างสามารถแลกเปลี่ยนได้หรือไม่ หรือคุณมี "sparsity" - เช่นค่าสัมประสิทธิ์การถดถอยเพียงไม่กี่ศูนย์ที่มีผู้สมัครจำนวนมาก แบบผสมและเอฟเฟกต์แบบกระจายแบบกระจายตามปกติไม่ทำงานที่นี่ พวกเขาจะ "ติด" ในระหว่างการบีบเสียงและปล่อยสัญญาณที่ไม่ถูกแตะต้อง (เช่นในตัวอย่างของคุณให้พารามิเตอร์ locationB และ locationC "true" เท่ากันและตั้งค่าพารามิเตอร์ "จริง" ให้ตั้งใหญ่หรือเล็กและดูตำแหน่งมาตรฐานเชิงเส้นผสมล้มเหลว) . แต่มันสามารถแก้ไขได้ - เช่นนักบวชที่มี "spike and slab" หรือ "รองเท้าม้า"

ดังนั้นจริงๆแล้วมันเกี่ยวกับการอธิบายว่าคุณกำลังพูดถึงสมมติฐานประเภทใดและได้รับคุณลักษณะที่รู้จักมากมายซึ่งสะท้อนให้เห็นก่อนหน้านี้และโอกาสที่จะเกิดขึ้น วิธีการของ Andrew Gelman เป็นเพียงวิธีหนึ่งในการจัดการกับการเปรียบเทียบหลายระดับโดยปริยาย เช่นเดียวกับกำลังสองน้อยที่สุดและการแจกแจงแบบปกติมักทำงานได้ดีในกรณีส่วนใหญ่ (แต่ไม่ใช่ทั้งหมด)

ในแง่ของการทำเช่นนี้คุณสามารถคิดถึงบุคคลที่ให้เหตุผลดังนี้ - กลุ่ม A และกลุ่ม B อาจมีค่าเฉลี่ยเท่ากัน - ฉันดูที่ข้อมูลและค่าเฉลี่ยคือ "ปิด" - ดังนั้นเพื่อให้ได้ค่าประมาณที่ดีขึ้น สำหรับทั้งคู่ฉันควรรวบรวมข้อมูลเนื่องจากความคิดเริ่มต้นของฉันคือพวกเขามีค่าเฉลี่ยเท่ากัน - หากพวกเขาไม่เหมือนกันข้อมูลแสดงหลักฐานว่าพวกเขา "ปิด" ดังนั้นการรวม "นิด ๆ หน่อย ๆ " จะไม่ทำร้ายฉันมากเกินไปถ้าสมมติฐานของฉันผิด (แบบจำลองทั้งหมดผิดบางอันมีประโยชน์)

โปรดทราบว่าบานพับด้านบนทั้งหมดบนสมมติฐานเริ่มต้น "อาจเหมือนกัน" เอาออกไปและไม่มีเหตุผลสำหรับการรวมกำไร คุณอาจเห็นวิธีการ "แจกแจงแบบปกติ" เกี่ยวกับการทดสอบ "ศูนย์มีแนวโน้มมากที่สุด", "ถ้าไม่ใช่ศูนย์จากนั้นใกล้กับศูนย์คือถัดไปเป็นไปได้มากที่สุด", "ค่าสุดขีดไม่น่าจะเป็นไปได้" พิจารณาทางเลือกนี้:

  • กลุ่ม A และกลุ่ม B หมายถึงอาจเท่ากัน แต่อาจแตกต่างกันอย่างมาก

จากนั้นข้อโต้แย้งเกี่ยวกับการรวม "นิด ๆ หน่อย ๆ " เป็นความคิดที่แย่มาก คุณดีกว่าที่จะเลือกรวมกำไรทั้งหมดหรือรวมกำไรเป็นศูนย์ อื่น ๆ อีกมากมายเช่น Cauchy, สไปค์ & สแลป, ประเภทของสถานการณ์ (จำนวนมากรอบ ๆ ศูนย์, และจำนวนมากสำหรับค่าสุดขีด)

เปรียบเทียบจำนวนเต็มไม่จำเป็นต้องได้รับการจัดการเพราะวิธีการแบบเบย์จะผสมผสานข้อมูลที่นำเราไปสู่ความกังวลลงไปก่อนและ / หรือความน่าจะเป็น ในอีกแง่หนึ่งจะเป็นการเตือนให้นึกถึงการมีข้อมูลที่พร้อมใช้งานและตรวจสอบให้แน่ใจว่าคุณได้รวมข้อมูลไว้ในการวิเคราะห์แล้ว


2
ล.1ประสบการณ์(-|x|)

@StasK - l1 จะทำงานได้ดีขึ้น แต่เนื่องจากเป็น log-concave จะต่อสู้กับ non-ศูนย์ สิ่งที่ฉันพูดถึงล้วนเป็น log-convex ตัวแปรที่ใกล้เคียงกับ l1 นั้นคือพาเรโตคู่แบบทั่วไป - รับโดยการใช้พารามิเตอร์ของ Laplace Scale (คล้ายกับ Lasso แบบปรับตัวได้ใน ML พูด)
ความน่าจะเป็นทาง

5

ครั้งแรกเมื่อฉันเข้าใจโมเดลที่คุณนำเสนอฉันคิดว่ามันแตกต่างจากข้อเสนอของ Gelman เล็กน้อยซึ่งดูเหมือนว่า:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

ในทางปฏิบัติโดยการเพิ่มcommonLocationพารามิเตอร์นี้การอนุมานเหนือพารามิเตอร์การแจกแจง 3 (ที่นี่ที่ตั้ง 1, 2 และ 3) ไม่ได้เป็นอิสระจากกัน นอกจากนี้ยังcommonLocationมีแนวโน้มที่จะลดค่าความคาดหวังของพารามิเตอร์ไปทางกลาง (โดยทั่วไปประมาณ) หนึ่ง ในแง่หนึ่งมันใช้เป็นมาตรฐานในการอนุมานทั้งหมดที่ทำให้ความต้องการการแก้ไขสำหรับการแก้ไขหลาย ๆ ครั้งไม่จำเป็น (ในทางปฏิบัติเราดำเนินการบัญชีการประเมินหลายตัวแปรเดียวจากการมีปฏิสัมพันธ์ระหว่างกันผ่านการใช้แบบจำลอง)

ดังที่ได้อธิบายไว้โดยคำตอบอื่น ๆ การแก้ไขนี้ไม่ได้ให้การควบคุมใด ๆ กับข้อผิดพลาดประเภทที่ 1 แต่ในกรณีส่วนใหญ่วิธีการแบบเบย์ไม่ได้ให้การควบคุมใด ๆ แม้ในระดับการอนุมานเดี่ยวและการแก้ไขแบบเปรียบเทียบหลายครั้ง การตั้งค่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.