p-values ​​หลอกลวงเมื่อใด


14

เงื่อนไขข้อมูลที่เราควรระวังคืออะไรค่า p อาจไม่ใช่วิธีที่ดีที่สุดในการตัดสินใจนัยสำคัญทางสถิติ มีปัญหาประเภทใดบ้างที่เข้าหมวดนี้หรือไม่


2
คำตอบ Snarky: เกือบตลอดเวลา มีแรงจูงใจอย่างมากในการสร้างข้อผิดพลาด Type 1 (เช่น "การเตือนที่ผิดพลาด") เมื่อนักวิเคราะห์ตรวจสอบข้อมูลดังนั้นค่า p เกือบทั้งหมดที่คุณพบนั้นมีขนาดเล็กเกินไป
statsRus

7
เพิ่งโยนสิ่งนี้ออกไป แต่คำถามประเภทนี้จะไม่ถูกวางในการตรวจสอบความถูกต้องของCrossหรือไม่
buruzaemon

1
@buruzaemon: อาจจะ ฉันค้นหาแล้วนี่เป็นการจับคู่ที่ใกล้เคียงที่สุด: stats.stackexchange.com/questions/67320/ ...... ดูเหมือนจะมีคำถามมากกว่าหนึ่งคำถาม
อเล็กซ์ฉัน

คำตอบ:


9

คุณกำลังถามเกี่ยวกับData Dredgingซึ่งเป็นสิ่งที่เกิดขึ้นเมื่อทำการทดสอบสมมติฐานจำนวนมากกับชุดข้อมูลหรือทดสอบสมมติฐานกับชุดข้อมูลที่แนะนำโดยข้อมูลเดียวกัน

โดยเฉพาะอย่างยิ่งตรวจสอบอันตรายสมมติฐานหลายและทดสอบสมมติฐานแนะนำโดยข้อมูล

การแก้ปัญหาคือการใช้ชนิดของการแก้ไขบางอย่างสำหรับอัตราการค้นพบเท็จหรืออัตราความผิดพลาด Familywiseเช่นวิธีการของSchefféหรือ (มากโรงเรียนเก่า) Bonferroni แก้ไข

ในวิธีที่ค่อนข้างเข้มงวดน้อยกว่ามันอาจช่วยกรองการค้นพบของคุณตามช่วงความเชื่อมั่นสำหรับอัตราส่วนอัตราต่อรอง (OR) สำหรับผลลัพธ์ทางสถิติแต่ละรายการ หากช่วงความเชื่อมั่น 99% สำหรับอัตราส่วนอัตราต่อรองคือ 10-12 ดังนั้น OR คือ <= 1 ด้วยความน่าจะเป็นที่น้อยมากโดยเฉพาะถ้าขนาดตัวอย่างมีขนาดใหญ่เช่นกัน หากคุณพบอะไรเช่นนี้มันอาจจะเป็นผลที่ดีแม้ว่ามันจะออกมาจากการทดสอบสมมติฐานหลายล้าน


1
ในขณะที่ Bonferroni เป็นโรงเรียนเก่าแน่นอนมันยังคงเป็นที่นิยมสวย เกี่ยวข้องกับมันเป็นวิธีการที่เรียกว่าcorrectionidákการแก้ไข ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ) ฉันกำลังเรียกมันออกมาเพราะในระบบโฆษณาขนาดใหญ่ที่กำหนดเป้าหมายฉันทำงานกับเราเราสามารถใช้วิธีนี้เป็น UDF ใน Hive อย่างไรก็ตามวิธีนี้จะใช้ได้ผลดีกว่าเมื่อคุณมีความเป็นอิสระระหว่างการทดสอบ ถ้าไม่คุณต้องถอยกลับไปที่ Bonferroni หรือวิธีอื่น
Chris Simokat

5

คุณไม่ควรพิจารณาค่า p-out นอกบริบท

จุดหนึ่งที่ค่อนข้างพื้นฐาน (ดังที่แสดงโดยxkcd ) คือคุณต้องพิจารณาว่าคุณทำแบบทดสอบกี่ครั้ง เห็นได้ชัดว่าคุณไม่ควรตกใจที่จะเห็น p <0.05 สำหรับการทดสอบหนึ่งจาก 20 การทดสอบแม้ว่าสมมติฐานว่างจะเป็นจริงทุกครั้ง

ตัวอย่างที่ลึกซึ้งยิ่งขึ้นนี้เกิดขึ้นในฟิสิกส์พลังงานสูงและเป็นที่รู้จักกันเป็นผลกระทบลักษณะอื่นพื้นที่พารามิเตอร์ที่ใหญ่ขึ้นที่คุณค้นหาสัญญาณที่อาจเป็นตัวแทนของอนุภาคใหม่มีโอกาสมากขึ้นที่คุณจะเห็นสัญญาณที่ชัดเจนซึ่งเป็นเพียงความผันผวนแบบสุ่ม


2

สิ่งหนึ่งที่คุณควรระวังคือขนาดตัวอย่างที่คุณใช้ ตัวอย่างที่มีขนาดใหญ่มากเช่นนักเศรษฐศาสตร์ที่ใช้ข้อมูลสำมะโนจะนำไปสู่ค่า p ที่ลดลง กระดาษนี้"ใหญ่เกินไปที่จะล้มเหลว: ตัวอย่างขนาดใหญ่และปัญหาค่า p"ครอบคลุมปัญหาบางอย่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.