การพูดอย่างกว้าง ๆ (ไม่ใช่แค่ในการทดสอบความพอดี แต่ในสถานการณ์อื่น ๆ ) คุณไม่สามารถสรุปได้ว่าค่าว่างนั้นเป็นจริงเพราะมีทางเลือกอื่นที่แยกไม่ออกจากค่า null ในขนาดตัวอย่างที่กำหนดอย่างมีประสิทธิภาพ
นี่คือการแจกแจงสองแบบคือแบบมาตรฐานปกติ (เส้นทึบสีเขียว) และแบบที่คล้ายกัน (ปกติ 90% มาตรฐานและเบต้ามาตรฐาน 10% (2,2) ที่ทำเครื่องหมายด้วยเส้นประสีแดง):
สีแดงไม่ปกติ ที่พูดว่าเรามีโอกาสเล็กน้อยที่จะสังเกตเห็นความแตกต่างดังนั้นเราจึงไม่สามารถยืนยันได้ว่าข้อมูลนั้นมาจากการแจกแจงแบบปกติ - จะเป็นอย่างไรถ้ามาจากการแจกแจงแบบไม่ธรรมดาเหมือนสีแดงแทน?n = 100
เศษส่วนที่น้อยกว่าของ betas มาตรฐานที่มีพารามิเตอร์เท่ากัน แต่ใหญ่กว่านั้นจะยากกว่าที่จะเห็นความแตกต่างจากปกติ
แต่ที่ได้รับข้อมูลจริงเกือบจะไม่เคยจากการกระจายง่ายๆถ้าเรามีคำพยากรณ์ที่สมบูรณ์แบบ (หรืออย่างมีประสิทธิภาพขนาดตัวอย่างไม่มีที่สิ้นสุด) เราจะเป็นหลักเสมอปฏิเสธสมมติฐานที่ว่าข้อมูลที่ได้จากรูปแบบการกระจายบางอย่างง่าย
ดังที่จอร์จบ็อกซ์กล่าวไว้ว่า " ทุกรุ่นผิด แต่มีประโยชน์ "
ลองพิจารณาตัวอย่างเช่นการทดสอบภาวะปกติ มันอาจจะเป็นว่าข้อมูลที่จริงมาจากสิ่งที่ใกล้เคียงกับปกติ แต่พวกเขาจะเคยเป็นว่าปกติ? พวกเขาอาจจะไม่เคย
สิ่งที่ดีที่สุดที่คุณสามารถหวังได้จากการทดสอบรูปแบบนั้นคือสถานการณ์ที่คุณอธิบาย (ดูตัวอย่างการโพสต์การทดสอบภาวะปกติเป็นสิ่งที่ไร้ประโยชน์หรือไม่แต่มีจำนวนโพสต์อื่น ๆ ที่นี่ที่สร้างประเด็นที่เกี่ยวข้อง)
นี่เป็นส่วนหนึ่งของเหตุผลที่ฉันมักจะแนะนำให้คนอื่น ๆ ว่าคำถามที่พวกเขาสนใจจริง ๆ (ซึ่งมักจะเป็นสิ่งที่ใกล้เคียงกับ 'ข้อมูลของฉันอยู่ใกล้พอที่จะเผยแพร่ที่ฉันสามารถทำการอนุมานที่เหมาะสมบนพื้นฐานนั้น') ไม่ตอบรับอย่างดีจากการทดสอบความดีพอดี ในกรณีของภาวะปกติมักจะใช้วิธีอนุมานที่พวกเขาต้องการที่จะใช้ (t- ทดสอบการถดถอย ฯลฯ ) มีแนวโน้มที่จะทำงานได้ค่อนข้างดีในกลุ่มตัวอย่างขนาดใหญ่ - บ่อยครั้งที่การกระจายตัวดั้งเดิมค่อนข้างชัดเจนไม่ใช่ปกติ - เมื่อความดีของ การทดสอบแบบที่จะมีโอกาสมากที่จะปฏิเสธปกติ การใช้เพียงเล็กน้อยมีขั้นตอนที่น่าจะบอกคุณได้ว่าข้อมูลของคุณไม่ปกติเมื่อคำถามนั้นไม่สำคัญF
พิจารณาภาพด้านบนอีกครั้ง การกระจายสีแดงนั้นไม่ปกติและด้วยกลุ่มตัวอย่างที่มีขนาดใหญ่มากเราสามารถปฏิเสธการทดสอบปกติจากตัวอย่าง ... แต่ที่ขนาดตัวอย่างที่เล็กกว่าการถดถอยและการทดสอบตัวอย่างสองครั้ง (และการทดสอบอื่น ๆ อีกมากมาย นอกจากนี้) จะประพฤติตัวเป็นอย่างดีจนทำให้ไม่มีจุดหมายที่จะต้องกังวลเกี่ยวกับสิ่งที่ไม่ใช่เรื่องปกติแม้เพียงเล็กน้อย
ข้อพิจารณาที่คล้ายกันนี้ไม่เพียงขยายไปสู่การแจกแจงอื่น ๆ เท่านั้น แต่ส่วนใหญ่จะเป็นการทดสอบสมมติฐานจำนวนมากโดยทั่วไป (เช่นการทดสอบสองด้านของเป็นต้น) หนึ่งอาจถามคำถามแบบเดียวกัน - อะไรคือจุดของการทดสอบดังกล่าวถ้าเราไม่สามารถสรุปได้ว่าค่าเฉลี่ยใช้ค่าเฉพาะหรือไม่μ = μ0
คุณอาจสามารถระบุรูปแบบเฉพาะของการเบี่ยงเบนและดูการทดสอบความเท่ากันได้ แต่มันค่อนข้างมีเล่ห์เหลี่ยมเหมาะสมเพราะมีหลายวิธีที่การกระจายจะใกล้เคียง แต่แตกต่างจากสมมุติฐานที่แตกต่างกัน รูปแบบของความแตกต่างอาจมีผลกระทบต่อการวิเคราะห์ต่างกัน หากทางเลือกนั้นเป็นตระกูลที่กว้างขึ้นซึ่งรวมถึงโมฆะเป็นกรณีพิเศษการทดสอบความเท่ากันนั้นสมเหตุสมผลมากขึ้น (เช่นการทดสอบแบบเอ็กซ์โปเนนเชียลเทียบกับแกมม่า) - และแน่นอนว่าวิธีการ "ทดสอบสองด้านเดียว" ดำเนินไป เป็นวิธีที่จะทำให้เป็นรูปธรรม "ใกล้พอ" (หรืออาจเป็นไปได้ว่าถ้าแบบจำลองแกมม่าเป็นจริง แต่ในความเป็นจริงแล้วตัวเองจะมั่นใจได้อย่างแท้จริงว่าจะถูกปฏิเสธโดยความดีสามัญของการทดสอบแบบพอดี
ความเหมาะสมของการทดสอบแบบพอดี (และบ่อยครั้งกว่านั้นคือการทดสอบสมมติฐาน) เหมาะสำหรับสถานการณ์ที่มีข้อ จำกัด คำถามที่คนมักจะต้องการคำตอบนั้นไม่แม่นยำ แต่ค่อนข้างคลุมเครือและยากที่จะตอบ - แต่อย่างที่ John Tukey กล่าวว่า " ดีกว่าคำตอบที่ถูกต้องสำหรับคำถามที่ถูกต้องซึ่งมักจะคลุมเครือกว่าคำตอบที่ถูกต้อง คำถามที่ผิดซึ่งสามารถทำให้แม่นยำเสมอ "
แนวทางที่สมเหตุสมผลในการตอบคำถามที่คลุมเครือมากขึ้นอาจรวมถึงการจำลองและการตรวจสอบซ้ำอีกครั้งเพื่อประเมินความอ่อนไหวของการวิเคราะห์ที่ต้องการกับข้อสันนิษฐานที่คุณกำลังพิจารณาเปรียบเทียบกับสถานการณ์อื่น ๆ ที่สอดคล้องกับข้อมูลที่มีอยู่
(เป็นส่วนหนึ่งของพื้นฐานสำหรับวิธีการที่แข็งแกร่งผ่าน - การปนเปื้อน - โดยดูจากผลกระทบของการอยู่ภายในระยะหนึ่งในความรู้สึก Kolmogorov-Smirnov)ε