ตารางฉุกเฉิน: การทดสอบจะทำอย่างไรและเมื่อไหร่?


17

ฉันต้องการที่จะเห็นส่วนขยายของการอภิปรายของการอภิปรายทดสอบไคส์สแควร์และฟิชเชอร์ที่แน่นอนขึ้นโดยขยายขอบเขตออกไปเล็กน้อย มีการทดสอบมากมายสำหรับการโต้ตอบในตารางฉุกเฉินเพียงพอที่จะทำให้หัวของฉันหมุน ฉันหวังว่าจะได้รับคำอธิบายเกี่ยวกับการทดสอบที่ฉันควรใช้และเมื่อใดและแน่นอนว่าคำอธิบายว่าทำไมการทดสอบหนึ่งควรจะดีกว่าอีกการทดสอบหนึ่ง

ปัญหาปัจจุบันของฉันคือกรณีคลาสสิกแต่คำตอบเกี่ยวกับมิติที่สูงกว่ายินดีต้อนรับเช่นเดียวกับเคล็ดลับสำหรับการดำเนินการแก้ปัญหาต่าง ๆ ใน R อย่างน้อยในกรณีที่ไม่ชัดเจนว่าจะดำเนินการอย่างไรn×ม.

ด้านล่างนี้เป็นรายการการทดสอบทั้งหมดที่ฉันรู้ ฉันหวังว่าด้วยการเปิดเผยข้อผิดพลาดของฉันพวกเขาสามารถแก้ไขได้

  • χ2 2 เครื่องแสตนด์บายเก่า มีสามตัวเลือกที่สำคัญที่นี่:

    • การแก้ไขที่สร้างขึ้นใน R สำหรับตาราง 2x2: "ครึ่งหนึ่งถูกลบออกจากทั้งหมดความแตกต่าง" ฉันควรทำสิ่งนี้ตลอดเวลาหรือไม่?|O-E|
    • การทดสอบ " "ไม่แน่ใจว่าจะทำอย่างไรใน Rยังไม่มีข้อความ-1χ2
    • การจำลอง Monte Carlo สิ่งนี้ดีที่สุดเสมอหรือ ทำไม R ไม่ให้ df กับฉันเมื่อฉันทำสิ่งนี้?
  • การทดสอบที่แน่นอนฟิชเชอร์

    • โดยทั่วไปแล้วเมื่อเซลล์ใดคาดว่าจะ <4 แต่เห็นได้ชัดว่ามีข้อโต้แย้งบางอย่างสำหรับคำแนะนำนี้
    • สมมติฐาน (มักเป็นเท็จ) ว่าระยะขอบได้รับการแก้ไขแล้วเป็นปัญหาที่ใหญ่ที่สุดในการทดสอบนี้หรือไม่?
  • การทดสอบที่แน่นอนของ Barnard

    • การทดสอบอื่นที่แน่นอนยกเว้นฉันไม่เคยได้ยินมาก่อน
  • การถดถอยปัวซอง

    • สิ่งหนึ่งที่ทำให้ฉันสับสนเกี่ยวกับ glms อยู่เสมอคือวิธีการทดสอบความสำคัญนี้อย่างแท้จริงเพื่อช่วยในการชื่นชม มันเป็นการดีที่สุดที่จะทำการเปรียบเทียบแบบจำลองที่ซ้อนกัน? แล้วการทดสอบ Wald สำหรับนักทำนายโดยเฉพาะล่ะ?
    • ฉันควรจะทำการปัวซองถดถอยหรือไม่? อะไรคือความแตกต่างระหว่างการปฏิบัตินี้และทดสอบ?χ2

คำตอบ:


13

นี่เป็นคำถามที่ดี แต่เป็นคำถามที่ยิ่งใหญ่ ฉันไม่คิดว่าฉันสามารถให้คำตอบที่สมบูรณ์ แต่ฉันจะทิ้งอาหารสำหรับความคิด

เป็นครั้งแรกภายใต้จุดบนกระสุนของคุณ, การแก้ไขที่คุณจะหมายถึงเป็นที่รู้จักกันแก้ไขเยตส์เพื่อความต่อเนื่อง ปัญหาคือเราคำนวณสถิติเชิงอนุมานที่ไม่ต่อเนื่อง : (มันไม่ต่อเนื่องเพราะมีเพียงจำนวน จำกัด ของอินสแตนซ์ที่แสดงในตารางฉุกเฉินมี มีการ จำกัด จำนวนของค่าตระหนักได้ว่าสถิตินี้สามารถใช้ใน.) แม้จะมีความเป็นจริงนี้จะเทียบกับการอย่างต่อเนื่องกระจายอ้างอิง ( ได้แก่ .ที่กระจายกับองศาอิสระ

χ2=Σ(O-E)2E

χ2 (R-1)(-1)) สิ่งนี้นำไปสู่ความไม่ตรงกันในบางระดับ ด้วยชุดข้อมูลขนาดเล็กโดยเฉพาะและหากบางเซลล์คาดหวังว่าค่าจะน้อยกว่า 5 ก็เป็นไปได้ที่ค่า p อาจน้อยเกินไป การแก้ไขของเยทส์ปรับสำหรับเรื่องนี้

กระแทกแดกดันปัญหาพื้นฐานเดียวกัน (ไม่ต่อเนื่องต่อเนื่องไม่ตรงกัน) สามารถนำไปสู่ P-ค่าที่สูงเกินไป โดยเฉพาะอย่างยิ่งค่า p ถูกกำหนดตามอัตภาพเป็นความน่าจะเป็นของการรับข้อมูลที่มากหรือมากกว่ากว่าข้อมูลที่สังเกต ด้วยข้อมูลอย่างต่อเนื่องเป็นที่เข้าใจกันว่าความน่าจะเป็นที่จะได้รับค่าใด ๆ นั้นมีค่าน้อยมากและดังนั้นเราจึงมีความน่าจะเป็นของข้อมูลที่สูงกว่ามาก อย่างไรก็ตามด้วยข้อมูลที่ไม่ต่อเนื่องจึงมีความเป็นไปได้ที่จะได้รับข้อมูลเช่นเดียวกับคุณ เฉพาะการคำนวณความน่าจะเป็นในการรับข้อมูลที่รุนแรงกว่าของคุณให้ค่า p ที่ระบุต่ำเกินไป (นำไปสู่ข้อผิดพลาดประเภท I ที่เพิ่มขึ้น) แต่รวมถึงความน่าจะเป็นในการรับข้อมูลเช่นเดียวกับที่คุณนำไปสู่ (ซึ่งจะนำไปสู่ข้อผิดพลาด Type II ที่เพิ่มขึ้น) ข้อเท็จจริงเหล่านี้แจ้งให้ความคิดของกลาง p-value ภายใต้วิธีนี้ค่า p คือความน่าจะเป็นของข้อมูลที่รุนแรงกว่าของคุณบวกครึ่ง ความน่าจะเป็นของข้อมูลเช่นเดียวกับคุณ

ในขณะที่คุณชี้ให้เห็นว่ามีความเป็นไปได้มากมายสำหรับการทดสอบข้อมูลตารางฉุกเฉิน การรักษาที่ครอบคลุมมากที่สุดของข้อดีและข้อเสียของวิธีการต่างๆคือที่นี่ กระดาษนั้นมีความเฉพาะเจาะจงกับตาราง 2x2 แต่คุณยังสามารถเรียนรู้มากมายเกี่ยวกับตัวเลือกสำหรับข้อมูลตารางฉุกเฉินโดยการอ่าน

ฉันก็คิดว่ามันคุ้มค่าที่จะพิจารณาตัวแบบอย่างจริงจัง การทดสอบที่เก่ากว่าเช่น chi-squared นั้นรวดเร็วง่ายและเข้าใจได้หลายคน แต่อย่าทิ้งความเข้าใจที่ครอบคลุมของข้อมูลของคุณไว้ในขณะที่คุณได้รับจากการสร้างแบบจำลองที่เหมาะสม หากมีเหตุผลที่จะนึกถึงแถว [คอลัมน์] ของตารางฉุกเฉินของคุณในฐานะตัวแปรตอบกลับและคอลัมน์ [แถว] เป็นตัวแปรอธิบาย / ตัวทำนายวิธีการสร้างแบบจำลองนั้นค่อนข้างง่าย ตัวอย่างเช่นหากคุณมีเพียงสองแถวคุณสามารถสร้างรูปแบบการถดถอยโลจิสติก หากมีหลายคอลัมน์คุณสามารถใช้การเข้ารหัสเซลล์อ้างอิง (การจำลองหุ่น) เพื่อสร้างแบบจำลองชนิด ANOVA ในทางกลับกันถ้าคุณมีมากกว่าสองแถวการถดถอยโลจิสติกพหุนามสามารถใช้ในลักษณะเดียวกัน หากแถวของคุณมีคำสั่งที่แท้จริงการถดถอยโลจิสติกอันดับจะให้ประสิทธิภาพที่เหนือกว่ากับ multinomial รูปแบบการบันทึกเชิงเส้น (การถดถอย Poisson) อาจมีความเกี่ยวข้องน้อยกว่าเว้นแต่คุณจะมีตารางฉุกเฉินที่มีมากกว่าสองมิติในความคิดของฉัน

สำหรับการรักษาที่ครอบคลุมหัวข้อเช่นนี้แหล่งที่ดีที่สุดเป็นหนังสือโดยอาเกรสติ: ทั้งเขารักษาอย่างเต็มรูปแบบ (ที่เข้มงวดมากขึ้น) ของเขาหนังสือบทนำ (ง่ายขึ้น แต่ยังคงครอบคลุมและดีมาก) หรืออาจจะยังของเขาหนังสือลำดับ

อัปเดต: เพื่อความสมบูรณ์ของรายการการทดสอบที่เป็นไปได้ฉันพบว่าเราสามารถเพิ่มการทดสอบอัตราส่วนความน่าจะเป็น (มักเรียกว่า ' ') มันคือ: นี่คือการกระจายในรูปแบบไคสแควร์และเกือบจะให้ผลการตัดสินใจเหมือนกัน ค่าที่รับรู้ของสถิติทั้งสองนั้นจะคล้ายกัน แต่แตกต่างกันเล็กน้อย คำถามที่จะมีพลังมากขึ้นในสถานการณ์ที่กำหนดนั้นค่อนข้างบอบบาง ฉันรวบรวมมันเป็นตัวเลือกเริ่มต้นตามประเพณีในบางสาขา ฉันไม่จำเป็นต้องสนับสนุนให้ใช้ในการทดสอบแบบดั้งเดิม ฉันแค่เขียนเพื่อความครบถ้วนเท่าที่ฉันพูด G2-ทดสอบ

G2=ΣOLN(OE)


1
นั่นเป็นคำอธิบายที่ดีของปัญหาพื้นฐานขอบคุณ! นอกจากนี้ฉันได้รับการบอกเล่าในอดีตว่าข้อความของ Agresti เป็นทรัพยากรที่ยอดเยี่ยมดังนั้นฉันจะลองดู
JVMcDonnell

4

ฉันจะพยายามตอบคำถามของคุณให้ดีที่สุดเท่าที่จะทำได้จากมุมมองของฉัน การทดสอบ Fisher-Irwin ครั้งแรกเป็นเพียงชื่ออื่นสำหรับการทดสอบที่แน่นอนของ Fisher ยกเว้นความจริงที่ว่าบางครั้งมันมีความเข้มข้นของการคำนวณฉันมักจะชอบใช้การทดสอบฟิชเชอร์ หากมีปัญหาใด ๆ กับการทดสอบนี้มันเป็นเงื่อนไขในผลรวมเล็กน้อย ความสวยงามของการทดสอบคือภายใต้สมมติฐานว่างชุดตารางฉุกเฉินที่มีผลรวมเล็กน้อยเช่นเดียวกับตารางสังเกตพบว่ามีการกระจาย hypergeometric บางคนโต้แย้งว่าพวกเขาไม่เห็นเหตุผลในการ จำกัด การพิจารณาในตารางที่มีผลรวมเล็กน้อยเดียวกัน

การทดสอบไคสแควร์ของเพียร์สันนั้นใช้กันมากในการทดสอบความสัมพันธ์ในตารางฉุกเฉิน เช่นเดียวกับการทดสอบอื่น ๆ อีกมากมายมันเป็นค่าประมาณและระดับความสำคัญไม่แม่นยำเสมอไป Cochran แสดงให้เห็นว่าในตัวอย่างเล็ก ๆ เมื่อบางเซลล์กระจัดกระจายมาก (เช่นมีน้อยกว่า 5 รายในบางเซลล์) การประมาณจะไม่ดี

มีการทดสอบโดยประมาณอื่น ๆ อีกมากมาย โดยทั่วไปเมื่อใช้การทดสอบของฟิชเชอร์โดยใช้ SAS ฉันได้รับผลลัพธ์จากการทดสอบเหล่านี้ทั้งหมดและพวกเขามักให้ผลลัพธ์ที่เหมือนกันเกือบทั้งหมด แต่การทดสอบของฟิชเชอร์นั้นมีเงื่อนไขที่แน่นอนเสมอกับยอดรวมทั้งหมด

เกี่ยวกับการถดถอยปัวซองนั่นคือรูปแบบที่เกี่ยวข้องกับตัวแปรเด็ดขาดกับยอดรวมของเซลล์ เช่นเดียวกับรุ่นอื่น ๆ มันขึ้นอยู่กับชุดของสมมติฐาน สิ่งสำคัญที่สุดคือการนับจำนวนเซลล์ตามการแจกแจงแบบปัวซองซึ่งหมายความว่าจำนวนการนับเฉลี่ยเท่ากับความแปรปรวน สิ่งนี้ไม่เป็นความจริงสำหรับการแจกแจงจำนวนเซลล์ ในกรณีของการกระจายเกินเหตุ (ความแปรปรวนมากกว่าค่าเฉลี่ย) ตัวแบบทวินามลบอาจเหมาะสมกว่า


"การทดสอบ Fisher-Irwin เป็นเพียงชื่ออื่นสำหรับการทดสอบที่แน่นอนของ Fisher" ... อ๊ะนี่ทำให้ความคิดเห็นนี้ทำให้ฉันสับสนน้อยลงขอบคุณ!
JVMcDonnell

3
คำตอบของคุณไม่ได้ลดความสับสนของฉันเกี่ยวกับเวลาที่จะทำสิ่งเหล่านี้ ฉันเดาว่าสิ่งหนึ่งที่ฉันหวังว่าจะได้ยินคือประเด็นที่เกี่ยวกับ chi ^ 2 สามารถแก้ไขได้ด้วยการจำลองสถานการณ์หรือการแก้ไข ฯลฯ ของ monte carlo เป็นต้น หรือขอบเขตที่สามารถแทนที่โดย glms ดังนั้นฉันจะปล่อยให้เปิดไว้สักครู่เพื่อดูว่าฉันจะได้กัดมากขึ้นหรือไม่ แต่ถ้าไม่มีใครหนักหลังจากนั้นสักหน่อยฉันจะยอมรับคำตอบของคุณ
JVMcDonnell

สำหรับฟิชเชอร์และ Chi-Square ฉันคิดว่าฉันบอกคุณเมื่อคุณสามารถใช้ไคสแควร์ หากคุณยอมรับแนวคิดของฟิชเชอร์ว่าคุณควรกำหนดเงื่อนไขให้กับผลรวมทั้งหมดการทดสอบของฟิชเชอร์จะมีผลบังคับใช้เสมอ แต่ถ้าคุณไม่ยอมรับสิ่งนั้นฉันคิดว่าคุณจะต้องเลือกการทดสอบแบบไม่มีเงื่อนไข สำหรับการทดสอบอื่น ๆ ของแบตเตอรี่ฉันไม่รู้อะไรเลยเกี่ยวกับคุณสมบัติของพวกมันดังนั้นจึงไม่สามารถแนะนำให้คุณใช้เมื่อไหร่ ประสบการณ์การใช้งานแบบฟอร์มฉันได้เห็นกรณีที่สำคัญเพราะผลมักจะอยู่ในข้อตกลงอย่างใกล้ชิด
Michael R. Chernick

มันเป็นความจริงหรือไม่ที่ฟิชเชอร์คิดว่า "คุณควรคำนึงถึงผลรวมทั้งหมด" สมมติฐานนี้ใช้ได้เฉพาะเมื่อผลรวมทั้งหมดถูกแก้ไข ในตัวอย่างการชิมชาหญิงสาวรู้ว่า 5 เป็นนมคนแรกและ 5 คนเป็นนมคนสุดท้าย แต่มันเป็นเรื่องธรรมดามากขึ้นในการทดลองว่าไม่มีการบังคับใช้ระยะขอบ พิจารณากรณีพลิกสองเหรียญ 10 ครั้ง เมื่อ 5 หัวม้วนไปรอบ ๆ เหรียญไม่เริ่มให้หางเพื่อรักษาระยะขอบ ในกรณีเช่นนี้จะมีการบันทึกไว้ว่าฟิชเชอร์มีความระมัดระวังสูง นั่นเป็นเหตุผลที่ฉันสนใจทางเลือกอื่น
JVMcDonnell

ใช่. ฉันเข้าใจว่าฟิชเชอร์เชื่อในการเลือกการกระจายการอ้างอิงที่ใช้ข้อมูลจากข้อมูลที่กำหนด ดังนั้นเขาจะคิดว่าไม่ว่าผลรวมที่เป็นมาเกี่ยวกับข้อมูลที่คุณสังเกตนั้นควรนำมาเปรียบเทียบกับข้อมูลที่จะเกิดขึ้นภายใต้สมมติฐานว่างที่ตามหลังข้อ จำกัด ของข้อมูลนั้นคือผลรวมทั้งหมดที่กำหนด เช่นเดียวกับความคิดอื่น ๆ ที่ฟิชเชอร์มีข้อโต้แย้ง
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.