เมื่อพิจารณาถึงพลังของคอมพิวเตอร์ในปัจจุบันมีเหตุผลที่จะทำการทดสอบแบบไคสแควร์มากกว่าการทดสอบที่แน่นอนของฟิชเชอร์หรือไม่?


86

เนื่องจากซอฟต์แวร์นั้นสามารถทำการคำนวณการทดสอบที่แน่นอนของ Fisher ได้อย่างง่ายดายในปัจจุบันมีสถานการณ์ใดที่การทดสอบไคสแควร์ดีกว่าการทดสอบที่แน่นอนของฟิชเชอร์จริงหรือไม่

ข้อดีของการทดสอบที่แน่นอนของฟิชเชอร์รวมถึง:

  • สเกลไปยังตารางฉุกเฉินที่มีขนาดใหญ่กว่า 2x2 (เช่นตารางr x cใด ๆ)
  • ให้ค่า p ที่แน่นอน
  • ไม่จำเป็นต้องมีจำนวนเซลล์ขั้นต่ำที่คาดว่าจะถูกต้อง

10
เพราะมันคลาสสิกเก่าที่ดี ในไม่ช้ามันก็จะกลายเป็นเหล้าองุ่นที่สวยงาม หลังจากนั้นเมื่อผู้คนลุกขึ้นต่อต้านคอมพิวเตอร์มันจะมีชีวิตอยู่ในวัยเยาว์ที่สอง
ttnphns

7
คุณเคยลองคำนวณสถิติการทดสอบของฟิชเชอร์บนโต๊ะขนาดใหญ่หรือไม่? (ใช้เวลานานเกินไป ... )
whuber

22
นอกจากความคิดเห็นและคำตอบที่ดีที่คุณได้รับแล้วฉันคิดว่าคำถามที่ดีกว่าคือ "ด้วยพลังของคอมพิวเตอร์ทำไมไม่ลองทดสอบการจำลอง / เปลี่ยนรูปตลอดเวลา"
Peter Flom

1
@ เมื่อฉันได้ใช้งาน (เป็นกรรมสิทธิ์) โดยไม่มีตาราง (จำนวนมาก) ใน C ++ มันรันค่า P หลายพันสำหรับตัวเลขสูงถึง 8 หลักในไม่กี่วินาที
Michel de Ruiter

1
@Michel ฉันหมายถึงจำนวนเซลล์ทั้งหมดในตาราง การคำนวณนั้นง่ายสำหรับตาราง 2 x 2 แต่เมื่อตารางขยายใหญ่การคำนวณจึงกลายเป็นเรื่องลำบาก
whuber

คำตอบ:


61

คุณสามารถเปลี่ยนคำถามได้ เนื่องจากการทดสอบสามัญของ Pearsonนั้นแม่นยำกว่าการทดสอบที่แม่นยำของ Fisher และเกือบจะเร็วกว่าในการคำนวณทำไมทุกคนถึงใช้การทดสอบของ Fisher?χ2

โปรดทราบว่ามันคือการเข้าใจผิดว่าความถี่มือถือคาดว่าจะต้องเกิน 5 เพียร์สันของให้ผลผลิตที่ถูกต้อง -values การทดสอบนั้นมีความแม่นยำตราบใดที่ความถี่ของเซลล์ที่คาดการณ์สูงกว่า 1.0 หากการแก้ไขถูกนำไปใช้กับสถิติการทดสอบχ2PN1N


จาก R-help, 2009 :

ทดสอบ Campbell, I. Chi-squared และ Fisher-Irwin ของตารางสองต่อสองพร้อมคำแนะนำตัวอย่างขนาดเล็ก สถิติการแพทย์ 2550; 26 : 3661-3675 ( นามธรรม )

  • ... หนังสือเล่มล่าสุดของ Armitage แนะนำว่าไม่ควรใช้การปรับความต่อเนื่องสำหรับการทดสอบไคสแควร์ในกรณีฉุกเฉิน

  • E. การดัดแปลงเพียร์สันของการทดสอบเพียร์สันไคสแควร์แตกต่างจากต้นฉบับโดยปัจจัย (N-1) / N;

  • Cochran ตั้งข้อสังเกตว่าหมายเลข 5 ใน "ความถี่ที่คาดหวังน้อยกว่า 5" นั้นเป็นไปตามอำเภอใจ

  • ผลการศึกษาที่ตีพิมพ์อาจสรุปได้ดังนี้สำหรับการทดลองเปรียบเทียบ:

    1. การทดสอบแบบไคสแควร์ของ Yateมีอัตราความผิดพลาดประเภทที่ 1 น้อยกว่าเล็กน้อยและมักจะน้อยกว่าครึ่งหนึ่ง

    2. การทดสอบ Fisher-Irwinมีอัตราความผิดพลาดประเภทที่ 1 น้อยกว่าเล็กน้อย

    3. การทดสอบแบบไค - สแควร์ของ K Pearsonมีอัตราความผิดพลาดแบบที่ 1 ใกล้เคียงกับการทดสอบแบบไค - สแควร์ของเยทมากกว่าและการทดสอบฟิชเชอร์ - เออร์วิน แต่ในบางสถานการณ์ให้ข้อผิดพลาดประเภทที่ 1 มีค่ามากกว่าค่าเล็กน้อย

    4. การทดสอบไคสแควร์ 'N-1' ทำตัวเหมือนเวอร์ชั่น 'N' ของเคเพียร์สัน แต่แนวโน้มของค่าที่สูงกว่าค่าเล็กน้อยจะลดลง

    5. การทดสอบ Fisher-Irwin สองด้านโดยใช้กฎของ Irwin นั้นมีความระมัดระวังน้อยกว่าวิธีที่เพิ่มความน่าจะเป็นด้านเดียวสองเท่า

    6. การทดสอบ mid-P Fisher-Irwin โดยการเพิ่มความน่าจะเป็นด้านเดียวให้ผลการทดสอบที่ดีกว่าการทดสอบ Fisher-Irwin รุ่นมาตรฐานเป็นสองเท่าและวิธีการ mid-P ตามกฎของ Irwin ยังคงทำงานได้ดีกว่า ";

  • การสนับสนุนที่แข็งแกร่งสำหรับการทดสอบ 'N-1' หากคาดว่าจะมีความถี่เกิน 1

  • ข้อบกพร่องในการทดสอบฟิชเชอร์ซึ่งตั้งอยู่บนสมมติฐานของฟิชเชอร์ว่าผลรวมทั้งหมดไม่มีข้อมูลที่เป็นประโยชน์

  • การสาธิตข้อมูลที่เป็นประโยชน์ในขนาดตัวอย่างที่เล็กมาก

  • การปรับความต่อเนื่องของ Yate ของ N / 2 นั้นมีขนาดใหญ่กว่าการแก้ไขและไม่เหมาะสม

  • ข้อโต้แย้งที่มีอยู่ในการใช้การทดสอบแบบสุ่มในการทดลองแบบสุ่ม;

  • การคำนวณกรณีที่เลวร้ายที่สุด

  • คำแนะนำโดยรวม : ใช้การทดสอบไคสแควร์ 'N-1' เมื่อความถี่ที่คาดหวังทั้งหมดมีอย่างน้อย 1 มิฉะนั้นใช้การทดสอบฟิชเชอร์ - เออร์วินโดยใช้กฎของเออร์วินในการทดสอบสองด้าน ตามที่สังเกต; ดูจดหมายถึงบรรณาธิการโดย Antonio Andres และคำตอบของผู้เขียนใน 27: 1791-1796; 2008


Crans GG, Shuster JJ การทดสอบที่แม่นยำของฟิชเชอร์เป็นอย่างไร การประเมินเชิงปริมาณของการทดลองแบบทวินามเปรียบเทียบสองตัวอย่าง สถิติการแพทย์ 2551; 27 : 3598-3611 ( นามธรรม )

  • ... กระดาษแผ่นแรกที่ใช้ในการวัดปริมาณการอนุรักษ์ของ Fisher อย่างแท้จริง

  • "ขนาดทดสอบของ FET น้อยกว่า 0.035 สำหรับขนาดตัวอย่างเกือบทุกขนาดก่อน 50 และไม่ได้เข้าใกล้ 0.05 แม้สำหรับขนาดตัวอย่างที่มากกว่า 100"

  • อนุรักษ์วิธี "แน่นอน";

  • ดูสถิติใน Med 28 : 173-179, 2009 สำหรับคำวิจารณ์ที่ยังไม่ได้ตอบ


Lydersen S, Fagerland MW, Laake P. การทดสอบที่แนะนำสำหรับการเชื่อมโยงในตาราง สถิติการแพทย์ 2009; 28 : 1159-1175 ( นามธรรม )2×2

  • ... ไม่ควรใช้การทดสอบที่แน่นอนของฟิชเชอร์เว้นแต่จะใช้การแก้ไขกลางP

  • คุณค่าของการทดสอบแบบไม่มีเงื่อนไข

  • ดูจดหมายถึงบรรณาธิการ 30: 890-891; 2011


1
คุณสามารถแนะนำวิธีใช้การแก้ไข (N-1) / N ได้หรือไม่? มีเครื่องคิดเลขออนไลน์ที่รวมการแก้ไขนี้หรือไม่? มีวิธีง่าย ๆ ในการปรับผลการทดสอบไคสแควร์ด้วยตนเองเพื่อทำการแก้ไขนี้ด้วยตัวเองหรือไม่?
DW

หนึ่งในข้อมูลอ้างอิงที่ฉันระบุไว้ข้างต้นคือทางออกที่ดีที่สุดของคุณ
Frank Harrell

1
ทำไมคุณถึงบอกว่า "อยู่เกือบตลอดเวลาที่ถูกต้องมากขึ้นกว่าการทดสอบที่แน่นอนฟิชเชอร์" ? ฉันจะบอกว่าสนทนาเพราะไม่ใช่การทดสอบที่ "แน่นอน" χ2 χ2
Stéphane Laurent

2
การติดป้ายกำกับสิ่งที่ "แน่นอน" ไม่ได้ทำให้เป็นเช่นนั้น ดูคำอธิบายที่ยอดเยี่ยมด้านล่างโดย @suncoolsu ที่คุณต้องพลาด (คุณพลาดทุกคำอธิบายข้างต้น) การทดสอบของเพียร์สันนั้นแม่นยำยิ่งกว่าเพียร์สันที่คิดไว้ ดูciteulike.org/user/harrelfe/article/13265687และciteulike.org/user/harrelfe/article/13263676เป็นต้น การทดสอบของ "ฟิชเชอร์" ของฟิชเชอร์นั้นแน่นอนในแง่ที่ว่าข้อผิดพลาดที่แท้จริงของฉันนั้นไม่ใหญ่กว่าที่อ้างไว้ แต่กลับกลายเป็นว่าเล็กกว่าที่อ้างสิทธิ์ดังนั้นข้อผิดพลาดประเภท II จึงสูงกว่าหมายถึงใช้พลังงานน้อยลง
Frank Harrell

ฉันรู้ความหมายของความถูกต้อง จุดที่แม่นยำที่ฉันไม่ชอบกับการทดสอบที่ไม่แน่นอนคือความเป็นไปได้ที่ข้อผิดพลาดประเภทที่ฉันจะสูงกว่าระดับที่กำหนด แต่คุณพูดถูกฉันผิดคำตอบของคุณและอีกคนหนึ่ง (ทั้งคู่ก็ยอดเยี่ยม)
Stéphane Laurent

47

นี่เป็นคำถามที่ยอดเยี่ยม

การทดสอบที่แม่นยำของฟิชเชอร์เป็นหนึ่งในตัวอย่างที่ยอดเยี่ยมของการใช้การออกแบบการทดลองที่ชาญฉลาดของฟิชเชอร์พร้อมกับการ จำกัด ข้อมูล (โดยทั่วไปบนโต๊ะที่มีแถวที่สังเกตและยอดรวม) และความเฉลียวฉลาดในการหาการแจกแจงความน่าจะเป็น สำหรับตัวอย่างที่ดีกว่าดูที่นี่ ) การใช้คอมพิวเตอร์เพื่อคำนวณค่า p ที่แน่นอนช่วยให้ได้คำตอบที่ถูกต้อง

อย่างไรก็ตามมันเป็นเรื่องยากที่จะพิสูจน์สมมติฐานของการทดสอบที่แน่นอนของฟิชเชอร์ในทางปฏิบัติ เนื่องจากสิ่งที่เรียกว่า "แน่นอน" นั้นมาจากความจริงที่ว่าใน "การทดลองชิมชา" หรือในกรณีตาราง 2x2 กรณีผลรวมแถวและผลรวมคอลัมน์นั่นคือผลรวมทั้งหมดจะถูกกำหนดโดยการออกแบบ สมมติฐานนี้ไม่ค่อยเป็นธรรมในทางปฏิบัติ สำหรับการอ้างอิงที่ดีดูที่นี่

ชื่อ "แน่นอน" นำไปสู่การเชื่อว่า p-values ​​ที่กำหนดโดยการทดสอบนี้มีความถูกต้องซึ่งในกรณีส่วนใหญ่ไม่น่าเสียดายที่ไม่ถูกต้องเนื่องจากเหตุผลเหล่านี้

  1. หากระยะขอบไม่คงที่โดยการออกแบบ (ซึ่งเกิดขึ้นเกือบทุกครั้งในทางปฏิบัติ) ค่า p จะเป็นแบบอนุรักษ์นิยม
  2. เนื่องจากการทดสอบใช้การแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่อง (โดยเฉพาะการแจกแจงแบบไฮเปอร์ - เรขาคณิต) สำหรับการตัดบางครั้งจึงไม่สามารถคำนวณ "ความน่าจะเป็นโมฆะที่แน่นอน" นั่นคือค่า p

ในกรณีส่วนใหญ่การใช้การทดสอบอัตราส่วนความน่าจะเป็นหรือการทดสอบ Chi-Square ไม่ควรให้คำตอบที่แตกต่างกันมาก (p-value) จากการทดสอบที่แม่นยำของฟิชเชอร์ ใช่เมื่อระยะขอบคงที่การทดสอบแบบฟิชเชอร์เป็นทางเลือกที่ดีกว่า แต่จะไม่ค่อยเกิดขึ้น ดังนั้นแนะนำให้ใช้การทดสอบ Chi-square ของการทดสอบอัตราส่วนความน่าจะเป็นเสมอสำหรับการตรวจสอบความสอดคล้อง

แนวคิดที่คล้ายกันนี้ใช้เมื่อการทดสอบที่แน่นอนของฟิชเชอร์ถูกวางในตารางใด ๆ ซึ่งโดยทั่วไปเทียบเท่ากับการคำนวณความน่าจะเป็นหลายตัวแปรแบบหลายมิติ ดังนั้นเราจึงต้องพยายามคำนวณค่า p-values ​​ตามสัดส่วน Chi-Square และอัตราส่วนความน่าจะเป็นนอกเหนือจากค่า p ที่ "แน่นอน"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.