เหตุใดการเปรียบเทียบหลายรายการจึงมีปัญหา


44

ฉันพบว่ามันยากที่จะเข้าใจว่าอะไรคือปัญหาของการเปรียบเทียบหลาย ๆอย่าง ด้วยการเปรียบเทียบง่าย ๆ ว่ากันว่าคนที่จะทำการตัดสินใจหลายอย่างจะทำผิดพลาดมากมาย ดังนั้นการระมัดระวังอย่างระมัดระวังจึงถูกนำมาใช้เช่นการแก้ไข Bonferroni เพื่อที่จะสร้างความน่าจะเป็นที่บุคคลนี้จะทำผิดพลาดใด ๆ น้อยที่สุดเท่าที่จะทำได้

แต่ทำไมเราใส่ใจว่าบุคคลนั้นทำผิดพลาดใด ๆ ในทุกการตัดสินใจของเขา / เธอหรือไม่แทนที่จะเป็นเปอร์เซ็นต์ของการตัดสินใจที่ผิด

ให้ฉันพยายามอธิบายสิ่งที่ทำให้ฉันสับสนด้วยการเปรียบเทียบอื่น สมมติว่ามีผู้พิพากษาสองคนคนหนึ่งอายุ 60 ปีและอีกคนอายุ 20 ปี จากนั้นการแก้ไข Bonferroni จะบอกผู้ที่มีอายุ 20 ปีว่าจะอนุรักษ์นิยมที่สุดเท่าที่จะเป็นไปได้ในการตัดสินใจประหารชีวิตเพราะเขาจะทำงานต่อไปอีกหลายปีในฐานะผู้พิพากษาจะทำการตัดสินใจอีกหลายครั้งดังนั้นเขาจึงต้องระมัดระวัง แต่คนที่อายุ 60 ปีอาจจะเกษียณเร็ว ๆ นี้จะทำการตัดสินใจน้อยลงดังนั้นเขาจึงประมาทมากขึ้นเมื่อเทียบกับอีกคนหนึ่ง แต่ที่จริงแล้วผู้พิพากษาทั้งสองควรระมัดระวังหรืออนุรักษ์อย่างเท่าเทียมกันโดยไม่คำนึงถึงจำนวนการตัดสินใจทั้งหมดที่พวกเขาจะทำ ฉันคิดว่าสิ่งนี้คล้ายคลึงกันมากหรือน้อยแปลว่าปัญหาจริงที่มีการใช้การแก้ไข Bonferroni ซึ่งฉันพบว่าใช้ง่าย


8
ไม่ใช่คำตอบสำหรับคำถามของคุณ แต่คุณเคยพบอัตราการค้นพบที่ผิด (FDR) หรือไม่ "Beyond Bonferroni" โดย Narum: springerlink.com/content/c5047h0084528056
apeescape

คำตอบ:


40

คุณได้กล่าวถึงบางสิ่งที่เป็นข้อโต้แย้งแบบคลาสสิกสำหรับการแก้ไข Bonferroni ฉันไม่ควรปรับเกณฑ์อัลฟาของฉันตามการทดสอบทุกครั้งที่ฉันจะทำ ความหมายที่ไร้สาระของโฆษณาประเภทนี้เป็นเหตุผลว่าทำไมบางคนไม่เชื่อในการแก้ไขสไตล์ Bonferroni เลย บางครั้งข้อมูลประเภทหนึ่งที่เกี่ยวข้องกับอาชีพของพวกเขาก็คือสิ่งนี้ไม่ใช่ปัญหา สำหรับผู้ตัดสินที่ทำการตัดสินใจหนึ่งหรือน้อยมากในแต่ละหลักฐานชิ้นใหม่นี่เป็นข้อโต้แย้งที่ถูกต้องมาก แต่ผู้พิพากษากับจำเลย 20 คนและใครเป็นคนตัดสินฐานข้อมูลขนาดใหญ่ชุดเดียว (เช่นศาลสงคราม)

คุณไม่สนใจการเตะที่ส่วนหนึ่งของการโต้แย้ง โดยทั่วไปนักวิทยาศาสตร์กำลังมองหาบางอย่าง - ค่า p น้อยกว่าอัลฟา ทุกความพยายามที่จะค้นหามันเป็นการเตะที่ทำได้ หนึ่งในที่สุดจะพบหนึ่งถ้าใช้เวลาพอที่จะยิงมัน ดังนั้นพวกเขาควรถูกลงโทษในการทำเช่นนั้น

วิธีที่คุณประสานข้อโต้แย้งสองข้อนี้ให้เป็นจริง ทางออกที่ง่ายที่สุดคือการพิจารณาการทดสอบความแตกต่างภายในชุดข้อมูลเดียวกับการเตะที่สามารถแก้ไขปัญหาได้ แต่การขยายขอบเขตการแก้ไขภายนอกนั้นจะเป็นความลาดลื่น

นี่เป็นปัญหาที่ยากอย่างแท้จริงในหลายสาขาโดยเฉพาะอย่างยิ่ง FMRI ที่มีจุดข้อมูลนับพันที่ถูกเปรียบเทียบและมีบางอย่างที่เกิดขึ้นอย่างมีนัยสำคัญโดยบังเอิญ เนื่องจากในอดีตเคยมีการสำรวจภาคสนามอย่างมากและต้องทำบางสิ่งเพื่อแก้ไขความจริงที่ว่าสมองนับร้อย ๆ ส่วนจะดูมีความหมายโดยบังเอิญ ดังนั้นจึงมีการพัฒนาวิธีการปรับเกณฑ์มากมายในสาขานั้น

ในอีกด้านหนึ่งในบางฟิลด์หนึ่งอาจจะมองตัวแปร 3 ถึง 5 ระดับและมักจะทดสอบทุกชุดถ้ามีการวิเคราะห์ความหมายที่สำคัญเกิดขึ้น เป็นที่ทราบกันว่ามีปัญหา (ข้อผิดพลาดประเภท 1) แต่ก็ไม่ได้แย่มาก

ขึ้นอยู่กับมุมมองของคุณ นักวิจัย FMRI ตระหนักถึงความต้องการที่แท้จริงสำหรับการเปลี่ยนแปลงเกณฑ์ คนที่มองหา ANOVA ขนาดเล็กอาจรู้สึกว่ามีบางอย่างชัดเจนจากการทดสอบ มุมมองเชิงอนุรักษ์นิยมที่เหมาะสมของการเปรียบเทียบหลาย ๆ ครั้งคือการทำบางสิ่งบางอย่างเกี่ยวกับพวกเขาเสมอ แต่อิงจากชุดข้อมูลเดียวเท่านั้น ข้อมูลใหม่ใด ๆ จะรีเซ็ตเกณฑ์ ... เว้นแต่คุณจะเป็น Bayesian ...


ขอบคุณมันมีประโยชน์มาก ฉันจะลงคะแนนเมื่อฉันมีตัวแทนเพียงพอ
AgCl

นักวิจัย FMRI อาจใช้เกณฑ์ False Discovery Rate (FDR) เนื่องจากรับประกันการใช้งานผิด ๆ ของอัลฟา * 100% ตลอดระยะเวลาการทดสอบที่ยาวนาน
แบรนดอนเชอร์แมน

@ จอห์นคุณช่วยตอบคำถามนี้ได้ไหมstats.stackexchange.com/questions/431011/… ฉันจะมีความสุขถ้าคุณโปรดช่วยฉันด้วย
Sabbir Ahmed

26

นักสถิติที่ได้รับการยอมรับอย่างดีได้รับตำแหน่งที่หลากหลายในการเปรียบเทียบหลายครั้ง มันเป็นเรื่องที่บอบบาง หากใครบางคนคิดว่ามันง่ายฉันก็จะสงสัยว่าพวกเขาคิดยังไง

ต่อไปนี้เป็นมุมมองแบบเบย์ที่น่าสนใจในการทดสอบหลายรายการจาก Andrew Gelman: ทำไมเราไม่กังวลเกี่ยวกับการเปรียบเทียบหลายครั้ง


2
สิ่งที่ฉันคิดว่าน่าสนใจเกี่ยวกับบทความนี้คือมุมมองคือ Bayesian แต่วิธีการสร้างแบบจำลองลำดับชั้นที่เสนอเพื่อแทนที่การแก้ไขสำหรับการเปรียบเทียบหลาย ๆ แบบนั้นไม่ต้องการให้คุณเป็น Bayesian
conjugateprior

1
ฉันแค่ดูบทความนั้น ฉันคิดว่ามันอาจจะต้องมีการอ้างถึงเพิ่มเติม ฉันเกลียดการล้างเอฟเฟกต์ลงท่อระบายน้ำเพราะเทคนิคการเปรียบเทียบหลายขั้นสูงยังไม่เป็นที่รู้จักหรือทำได้ง่าย ในทางตรงกันข้ามวิธีการของเมอร์คือการตายอย่างง่าย ฉันสงสัยว่ามีปัญหาร้ายแรงที่ต้องพิจารณาหรือไม่
russellpierce


13

เกี่ยวข้องกับความคิดเห็นก่อนหน้านี้สิ่งที่นักวิจัย fMRI ควรจำไว้คือผลลัพธ์ที่สำคัญทางคลินิกคือสิ่งที่สำคัญไม่เปลี่ยนความหนาแน่นของพิกเซลเดียวบน fMRI ของสมอง ถ้ามันไม่ส่งผลในการปรับปรุง / ความเสียหายทางคลินิกมันไม่สำคัญ นั่นเป็นวิธีหนึ่งในการลดความกังวลเกี่ยวกับการเปรียบเทียบหลายรายการ

ดูสิ่งนี้ด้วย:

  1. Bauer, P. (1991) การทดสอบหลายครั้งในการทดลองทางคลินิก Stat Stat, 10 (6), 871-89; การสนทนา 889-90
  2. Proschan, MA และ Waclawiw, MA (2000) แนวทางปฏิบัติสำหรับการปรับหลายหลากในการทดลองทางคลินิก การควบคุมการทดลองของ Clin, 21 (6), 527-39
  3. Rothman, KJ (1990) ไม่จำเป็นต้องทำการปรับเปลี่ยนสำหรับการเปรียบเทียบหลายรายการ วิทยาการระบาด (Cambridge, Mass.), 1 (1), 43-6
  4. Perneger, ทีวี (1998) มีอะไรผิดปกติกับการปรับ bonferroni BMJ (การวิจัยทางคลินิก Ed.), 316 (7139), 1236-8

นี่เป็นสิ่งที่ควรค่าแก่การอ้างอิง: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico

ฉันแน่ใจว่าพวกเขาสนุกมากที่ขอแซลมอนที่ตายแล้วเกี่ยวกับอารมณ์ของมัน !!!
โก้

โพสต์นี้ยังมีการอ้างอิงที่มีประโยชน์เกี่ยวข้องกับ RCTs: j.mp/bAgr1B
chl

10

n(Xผม)ผม=1,...,nผม=1,...,n Xผมยังไม่มีข้อความ(θผม,1)

H0ผม:θผม=0H1ผม:θผม0

nผมτผมH0ผม|Xผม|>τผม

τผม

  1. เลือกเกณฑ์เดียวกันสำหรับทุกคน

  2. เพื่อเลือก เกณฑ์ที่แตกต่างกันสำหรับทุกคน (ส่วนใหญ่มักจะเป็นเกณฑ์ข้อมูลดาต้าดูด้านล่าง)

จุดมุ่งหมายที่แตกต่าง:ตัวเลือกเหล่านี้สามารถขับเคลื่อนไปสู่เป้าหมายที่แตกต่างกันเช่น

  • H0ผมผม
  • การควบคุมความคาดหวังของอัตราส่วนสัญญาณเตือนที่ผิดพลาด (หรืออัตราการค้นพบที่ผิด)

    เป้าหมายของคุณคืออะไรในตอนท้ายมันเป็นความคิดที่ดีที่จะใช้ดาต้าไวส์

คำตอบของฉันสำหรับคำถามของคุณ:ปรีชาของคุณเกี่ยวข้องกับการแก้ปัญหาหลักสำหรับการเลือกเกณฑ์ข้อมูล มันเป็นดังต่อไปนี้ (ที่จุดเริ่มต้นของขั้นตอนของโฮล์มซึ่งมีประสิทธิภาพมากกว่า Bonferoni):

พี|Xผม|H0ผมn-พีH0ผม

ในกรณีที่ผู้พิพากษาของคุณ:ฉันคิดว่า (และฉันเดาว่าคุณควรทำแบบเดียวกัน) ว่าผู้พิพากษาทั้งสองมีงบประมาณในการกล่าวหาที่ผิด ๆ ในชีวิตของพวกเขา ผู้ตัดสินอายุ 60 ปีอาจจะอนุรักษ์นิยมน้อยลงหากในอดีตเขาไม่ได้กล่าวหาใคร! แต่ถ้าเขาทำข้อกล่าวหาจำนวนมากแล้วเขาจะหัวโบราณมากขึ้นและอาจมากกว่าผู้ตัดสินที่ดีที่สุดของคุณ


ฉันคิดว่าคุณมีการพิมพ์ผิดในสมมติฐานของคุณ - พวกเขาทั้งคู่ดูเหมือนจะเหมือนกัน ...
walkytalky

2

บทความตัวอย่าง (และตลก); http://www.jsur.org/ar/jsur_ben102010.pdf ) เกี่ยวกับความต้องการของการแก้ไขการทดสอบหลายรายการในการศึกษาภาคปฏิบัติบางส่วนที่พัฒนาตัวแปรมากมายเช่น fmri การอ้างอิงสั้น ๆ นี้กล่าวถึงข้อความส่วนใหญ่:

"[... ] เราเสร็จสิ้นการสแกนเซสชั่น fMRI โดยมีแซลมอนแอตแลนติกโพสต์ชันสูตรเป็นหัวเรื่องปลาแซลมอนแสดงให้เห็นว่าเป็นมุมมองทางสังคมที่ใช้งานเดียวกัน

นั่นคือจากประสบการณ์ของฉันอาร์กิวเมนต์ที่ยอดเยี่ยมเพื่อสนับสนุนให้ผู้ใช้ใช้การแก้ไขการทดสอบหลาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.