นี่เป็นคำถามที่ดี แต่เป็นคำถามที่ยิ่งใหญ่ ฉันไม่คิดว่าฉันสามารถให้คำตอบที่สมบูรณ์ แต่ฉันจะทิ้งอาหารสำหรับความคิด
เป็นครั้งแรกภายใต้จุดบนกระสุนของคุณ, การแก้ไขที่คุณจะหมายถึงเป็นที่รู้จักกันแก้ไขเยตส์เพื่อความต่อเนื่อง ปัญหาคือเราคำนวณสถิติเชิงอนุมานที่ไม่ต่อเนื่อง :
(มันไม่ต่อเนื่องเพราะมีเพียงจำนวน จำกัด ของอินสแตนซ์ที่แสดงในตารางฉุกเฉินมี มีการ จำกัด จำนวนของค่าตระหนักได้ว่าสถิตินี้สามารถใช้ใน.) แม้จะมีความเป็นจริงนี้จะเทียบกับการอย่างต่อเนื่องกระจายอ้างอิง ( ได้แก่ .ที่กระจายกับองศาอิสระ
χ2= ∑ ( O - E)2E
χ2 ( r - 1 ) ( c - 1 )) สิ่งนี้นำไปสู่ความไม่ตรงกันในบางระดับ ด้วยชุดข้อมูลขนาดเล็กโดยเฉพาะและหากบางเซลล์คาดหวังว่าค่าจะน้อยกว่า 5 ก็เป็นไปได้ที่ค่า p อาจน้อยเกินไป การแก้ไขของเยทส์ปรับสำหรับเรื่องนี้
กระแทกแดกดันปัญหาพื้นฐานเดียวกัน (ไม่ต่อเนื่องต่อเนื่องไม่ตรงกัน) สามารถนำไปสู่ P-ค่าที่สูงเกินไป โดยเฉพาะอย่างยิ่งค่า p ถูกกำหนดตามอัตภาพเป็นความน่าจะเป็นของการรับข้อมูลที่มากหรือมากกว่ากว่าข้อมูลที่สังเกต ด้วยข้อมูลอย่างต่อเนื่องเป็นที่เข้าใจกันว่าความน่าจะเป็นที่จะได้รับค่าใด ๆ นั้นมีค่าน้อยมากและดังนั้นเราจึงมีความน่าจะเป็นของข้อมูลที่สูงกว่ามาก อย่างไรก็ตามด้วยข้อมูลที่ไม่ต่อเนื่องจึงมีความเป็นไปได้ที่จะได้รับข้อมูลเช่นเดียวกับคุณ เฉพาะการคำนวณความน่าจะเป็นในการรับข้อมูลที่รุนแรงกว่าของคุณให้ค่า p ที่ระบุต่ำเกินไป (นำไปสู่ข้อผิดพลาดประเภท I ที่เพิ่มขึ้น) แต่รวมถึงความน่าจะเป็นในการรับข้อมูลเช่นเดียวกับที่คุณนำไปสู่ (ซึ่งจะนำไปสู่ข้อผิดพลาด Type II ที่เพิ่มขึ้น) ข้อเท็จจริงเหล่านี้แจ้งให้ความคิดของกลาง p-value ภายใต้วิธีนี้ค่า p คือความน่าจะเป็นของข้อมูลที่รุนแรงกว่าของคุณบวกครึ่ง ความน่าจะเป็นของข้อมูลเช่นเดียวกับคุณ
ในขณะที่คุณชี้ให้เห็นว่ามีความเป็นไปได้มากมายสำหรับการทดสอบข้อมูลตารางฉุกเฉิน การรักษาที่ครอบคลุมมากที่สุดของข้อดีและข้อเสียของวิธีการต่างๆคือที่นี่ กระดาษนั้นมีความเฉพาะเจาะจงกับตาราง 2x2 แต่คุณยังสามารถเรียนรู้มากมายเกี่ยวกับตัวเลือกสำหรับข้อมูลตารางฉุกเฉินโดยการอ่าน
ฉันก็คิดว่ามันคุ้มค่าที่จะพิจารณาตัวแบบอย่างจริงจัง การทดสอบที่เก่ากว่าเช่น chi-squared นั้นรวดเร็วง่ายและเข้าใจได้หลายคน แต่อย่าทิ้งความเข้าใจที่ครอบคลุมของข้อมูลของคุณไว้ในขณะที่คุณได้รับจากการสร้างแบบจำลองที่เหมาะสม หากมีเหตุผลที่จะนึกถึงแถว [คอลัมน์] ของตารางฉุกเฉินของคุณในฐานะตัวแปรตอบกลับและคอลัมน์ [แถว] เป็นตัวแปรอธิบาย / ตัวทำนายวิธีการสร้างแบบจำลองนั้นค่อนข้างง่าย ตัวอย่างเช่นหากคุณมีเพียงสองแถวคุณสามารถสร้างรูปแบบการถดถอยโลจิสติก หากมีหลายคอลัมน์คุณสามารถใช้การเข้ารหัสเซลล์อ้างอิง (การจำลองหุ่น) เพื่อสร้างแบบจำลองชนิด ANOVA ในทางกลับกันถ้าคุณมีมากกว่าสองแถวการถดถอยโลจิสติกพหุนามสามารถใช้ในลักษณะเดียวกัน หากแถวของคุณมีคำสั่งที่แท้จริงการถดถอยโลจิสติกอันดับจะให้ประสิทธิภาพที่เหนือกว่ากับ multinomial รูปแบบการบันทึกเชิงเส้น (การถดถอย Poisson) อาจมีความเกี่ยวข้องน้อยกว่าเว้นแต่คุณจะมีตารางฉุกเฉินที่มีมากกว่าสองมิติในความคิดของฉัน
สำหรับการรักษาที่ครอบคลุมหัวข้อเช่นนี้แหล่งที่ดีที่สุดเป็นหนังสือโดยอาเกรสติ: ทั้งเขารักษาอย่างเต็มรูปแบบ (ที่เข้มงวดมากขึ้น) ของเขาหนังสือบทนำ (ง่ายขึ้น แต่ยังคงครอบคลุมและดีมาก) หรืออาจจะยังของเขาหนังสือลำดับ
อัปเดต: เพื่อความสมบูรณ์ของรายการการทดสอบที่เป็นไปได้ฉันพบว่าเราสามารถเพิ่มการทดสอบอัตราส่วนความน่าจะเป็น (มักเรียกว่า ' ') มันคือ:
นี่คือการกระจายในรูปแบบไคสแควร์และเกือบจะให้ผลการตัดสินใจเหมือนกัน ค่าที่รับรู้ของสถิติทั้งสองนั้นจะคล้ายกัน แต่แตกต่างกันเล็กน้อย คำถามที่จะมีพลังมากขึ้นในสถานการณ์ที่กำหนดนั้นค่อนข้างบอบบาง ฉันรวบรวมมันเป็นตัวเลือกเริ่มต้นตามประเพณีในบางสาขา ฉันไม่จำเป็นต้องสนับสนุนให้ใช้ในการทดสอบแบบดั้งเดิม ฉันแค่เขียนเพื่อความครบถ้วนเท่าที่ฉันพูด G2-ทดสอบ
G2= ∑ O ⋅ ln ( OE)