การเปรียบเทียบและการตัดกันค่า p ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1


21

ฉันสงสัยว่าถ้าใครสามารถให้บทสรุปสั้น ๆ เกี่ยวกับคำจำกัดความและการใช้ค่า p, ระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1

ฉันเข้าใจว่าค่า p ถูกกำหนดเป็น "ความน่าจะเป็นที่จะได้รับสถิติการทดสอบอย่างน้อยที่สุดเท่าที่เราสังเกตจริง" ในขณะที่ระดับนัยสำคัญเป็นเพียงค่า cutoff ตามอำเภอใจเพื่อประเมินว่าค่า p นั้นมีความสำคัญหรือไม่ . ข้อผิดพลาดประเภทที่ 1 คือข้อผิดพลาดของการปฏิเสธสมมติฐานว่างที่เป็นจริง อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับความแตกต่างระหว่างระดับนัยสำคัญและข้อผิดพลาดประเภทที่ 1 พวกเขาไม่ใช่แนวคิดเดียวกันหรือไม่

ตัวอย่างเช่นสมมติว่าการทดลองง่าย ๆ ที่ฉันพลิกเหรียญ 1,000 ครั้งและนับจำนวนครั้งที่มันตกลงบน 'หัว' สมมุติฐานว่างของฉัน, H0, นั่นคือหัว = 500 (เหรียญไม่มีอคติ) จากนั้นฉันตั้งระดับความสำคัญของฉันที่ alpha = 0.05

ฉันพลิกเหรียญ 1,000 ครั้งจากนั้นฉันคำนวณค่า p ถ้าค่า p เป็น> 0.05 จากนั้นฉันไม่สามารถปฏิเสธสมมติฐานว่างได้และถ้าค่า p เป็น <0.05 จากนั้นฉันก็ปฏิเสธสมมติฐานว่าง

ทีนี้ถ้าฉันทำการทดลองซ้ำหลายครั้งทุกครั้งที่คำนวณ p-value และปฏิเสธหรือล้มเหลวในการปฏิเสธสมมติฐานว่างและเก็บนับจำนวนที่ฉันปฏิเสธ / ล้มเหลวในการปฏิเสธแล้วฉันจะสิ้นสุดการปฏิเสธสมมติฐานว่าง 5% สิ่งใดที่เป็นจริงถูกต้อง นี่คือคำจำกัดความของข้อผิดพลาดประเภทที่ 1 ดังนั้นระดับความสำคัญในการทดสอบความสำคัญของฟิชเชอร์จึงเป็นข้อผิดพลาดประเภทที่ 1 จากการทดสอบสมมติฐานของเนย์แมน - เพียร์สันหากคุณทำการทดลองซ้ำ

ทีนี้สำหรับ p-values ​​ถ้าผมได้ค่า p-0.06 จากการทดลองครั้งล่าสุดของฉันและฉันทำการทดลองหลายครั้งและนับค่าทั้งหมดที่ฉันได้ p-value จาก 0 ถึง 0.06 แล้วฉันจะไม่มี มีโอกาส 6% ที่จะปฏิเสธสมมุติฐานว่างเปล่าจริงหรือ

คำตอบ:


16

คำถามดูง่าย แต่การสะท้อนของคุณรอบ ๆ แสดงว่ามันไม่ง่าย

ที่จริงแล้วค่า p- เป็นส่วนเสริมที่ค่อนข้างช้าไปจากทฤษฎีสถิติ การคำนวณค่า p โดยคอมพิวเตอร์ไม่น่าเบื่อมาก นี่คือเหตุผลที่วิธีเดียวที่จะทำการทดสอบทางสถิติจนกระทั่งเมื่อเร็ว ๆ นี้คือการใช้ตารางการทดสอบทางสถิติตามที่ฉันอธิบายในโพสต์บล็อกนี้ เนื่องจากตารางเหล่านั้นถูกคำนวณสำหรับระดับคงที่(โดยทั่วไปคือ 0.05, 0.01 และ 0.001) คุณจึงสามารถทำการทดสอบกับระดับเหล่านั้นได้เท่านั้นα

คอมพิวเตอร์ทำให้ตารางเหล่านั้นไร้ประโยชน์ แต่ตรรกะของการทดสอบยังคงเหมือนเดิม คุณควร:

  1. กำหนดสมมติฐานว่าง
  2. กำหนดสมมติฐานทางเลือก
  3. ตัดสินใจข้อผิดพลาด type I สูงสุด (ความน่าจะเป็นของการปฏิเสธสมมติฐานว่าง) ที่คุณพร้อมที่จะยอมรับ
  4. ออกแบบขอบเขตการปฏิเสธ น่าจะเป็นที่สถิติทดสอบตกอยู่ในภูมิภาคที่ได้รับการปฏิเสธว่าสมมติฐานคือระดับของคุณ\ดังที่ @ MånsTอธิบายว่าสิ่งนี้ไม่ควรเล็กกว่าข้อผิดพลาดประเภทที่ฉันยอมรับได้ของคุณและในหลาย ๆ กรณีใช้การประมาณแบบเชิงเส้นกำกับα
  5. ทำการทดลองแบบสุ่มคำนวณสถิติการทดสอบและดูว่ามันอยู่ในภูมิภาคการปฏิเสธหรือไม่

ในทางทฤษฎีมีความเท่าเทียมกันอย่างเข้มงวดระหว่างเหตุการณ์"สถิติตกอยู่ในเขตการปฏิเสธ"และ"ค่า p น้อยกว่า "αซึ่งเป็นเหตุให้รู้สึกว่าคุณสามารถรายงานค่า p แทนได้ ในทางปฏิบัติจะช่วยให้คุณสามารถข้ามขั้นตอนที่ 3 และประเมินผิดพลาดประเภทที่ผมหลังการทดสอบจะทำ

หากต้องการกลับมาที่โพสต์ของคุณคำสั่งของสมมติฐานว่างไม่ถูกต้อง สมมติฐานว่างคือความน่าจะเป็นของการพลิกหัวคือ (สมมุติฐานว่างไม่สามารถเกี่ยวข้องกับผลลัพธ์ของการทดลองแบบสุ่ม)1/2

หากคุณทำการทดสอบซ้ำอีกครั้งและอีกครั้งด้วยค่า p-value 0.05 ใช่คุณควรมีการปฏิเสธประมาณ 5% และถ้าคุณตั้งค่าการตัดค่า p-0.06 คุณควรท้ายด้วยการปฏิเสธประมาณ 6% โดยทั่วไปสำหรับการทดสอบอย่างต่อเนื่องโดยคำจำกัดความของ p-valueพี

PRโอ(พี<x)=x,(0<x<1),

ซึ่งมีค่าประมาณจริงเท่านั้นสำหรับการทดสอบแบบไม่ต่อเนื่อง

นี่คือรหัส R ที่ฉันหวังว่าจะสามารถอธิบายได้เล็กน้อย การทดสอบแบบทวินามนั้นค่อนข้างช้าดังนั้นฉันจึงทำการทดลองสุ่มเพียง 10,000 ครั้งโดยที่ฉันพลิก 1,000 เหรียญ ฉันทำการทดสอบแบบทวินามและรวบรวม 10,000 ค่า p

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

คุณจะเห็นได้ว่าสัดส่วนไม่ถูกต้องเนื่องจากขนาดตัวอย่างไม่ จำกัด และการทดสอบไม่ต่อเนื่อง แต่ยังมีการเพิ่มขึ้นประมาณ 1% ระหว่างทั้งสอง


@ MånsTขอบคุณ! +1 ถึงคุณสำหรับความแตกต่างระหว่างการทดสอบแบบต่อเนื่องและแบบแยกส่วน (ซึ่งฉันจะมองข้ามโดยสิ้นเชิง)
gui11aume

4
@ gui11aume ขอบคุณสำหรับการป้อนข้อมูลของคุณ! อย่างไรก็ตามคำแถลงของคุณ "ค่า p เป็นส่วนเพิ่มเติมที่ค่อนข้างช้าไปจากทฤษฎีสถิติ" นั้นแปลก จากสิ่งที่ฉันได้อ่านการทดสอบนัยสำคัญของฟิชเชอร์ด้วยค่า p เกิดขึ้นในปี 1925 ในขณะที่ 'การทดสอบสมมติฐาน' ของเนย์แมนเพียร์สันมาถึงการปรับปรุงงานของฟิชเชอร์ในอีกไม่กี่ปีต่อมา ในขณะที่มันเป็นความจริงที่ค่า p- เป็นเรื่องยากที่จะคำนวณ (ดังนั้นจึงใช้ระดับความสำคัญมาตรฐาน) งานของเขาเป็นอนุสาวรีย์ ในความเป็นจริงเขาถูกเรียกว่า 'บิดาแห่งสถิติ' เพราะเขาได้สร้างพื้นฐานของสถิติสมัยใหม่จำนวนมาก
BYS2

2
@ BYS2 ถูกต้องอย่างแน่นอน (+1) ทฤษฎีของค่า p วันที่กลับมาจากต้นกำเนิดของสถิติ มันคือการใช้งานที่แพร่หลายของพวกเขาที่เพิ่งเกิดขึ้น ขอบคุณสำหรับการสังเกต ;-)
gui11aume

@ guillaume ขอบคุณสำหรับสิ่งนั้นฉันมีคำถามอีกอย่างรวดเร็ว คุณบอกว่าสมมุติฐานว่างของฉันไม่สามารถเป็น H 0 = 500 ได้ แต่ฉันดูเหมือนว่าจะมีตำรามากมายที่ใช้ตัวอย่างเช่น: nul l สมมติฐานคือค่าเฉลี่ยจะเป็น 0 หรือความแตกต่างของค่าเฉลี่ยจะเป็น 10 .. ฉันไม่เคยมีปัญหาใด ๆ ทำแบบนั้น: s .. การกระจายตัวทีก็แค่ขยายถ้าผมใช้ H0 = 500 แทน H0 = 0.5
BYS2

1
@ gui11aume: บางทีมันอาจจะน่าสนใจที่จะดูคำตอบของฉัน: stats.stackexchange.com/questions/166323/…

15

คุณได้รับคำตอบที่ดีจาก @MansT & @ gui11aume (+1 ต่อคน) ให้ฉันดูว่าฉันจะได้สิ่งที่ชัดเจนยิ่งขึ้นทั้งสองคำตอบของพวกเขา

nk

พี(k)=n!k!(n-k)!พีk(1-พี)n-k
α=05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=050.021αข้อผิดพลาดประเภทที่ฉันα05ความน่าจะเป็นทวินาม โปรดทราบว่าสถานการณ์เช่นนี้ทำให้เกิดการพัฒนาค่ากลาง pเพื่อช่วยลดความคลาดเคลื่อนระหว่างค่า p และระดับนัยสำคัญ

อาจมีหลายกรณีที่ค่า p ที่คำนวณได้ไม่เท่ากับอัตราความผิดพลาดประเภทที่ 1 ในระยะยาวนอกจากความจริงที่ว่าอัตราความผิดพลาดประเภทที่ 1 นั้นไม่จำเป็นต้องเท่ากับระดับนัยสำคัญ พิจารณาตารางฉุกเฉิน 2x2 ด้วยค่าที่สังเกตได้เหล่านี้:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12=1.3,พี=248χ2χ2พี=0.56710.56370.5671

ดังนั้นปัญหาที่นี่คือว่าด้วยข้อมูลที่ไม่ต่อเนื่อง:

  • ระดับความสำคัญที่คุณต้องการอาจไม่ใช่อัตราข้อผิดพลาดประเภทที่เป็นไปได้ &
  • การใช้ (โดยทั่วไป) การประมาณสถิติอย่างต่อเนื่องจะทำให้ค่า p ที่คำนวณไม่ถูกต้อง

ยังไม่มีข้อความ

(แม้ว่าคำถามจะไม่ถามเกี่ยวกับการแก้ไขปัญหาเหล่านี้) มีบางสิ่งที่ช่วยลดปัญหาเหล่านี้:

  • ยังไม่มีข้อความ
  • มักจะมีการแก้ไข (เช่นการแก้ไขของ Yates เพื่อความต่อเนื่อง) ที่จะนำค่าที่คำนวณมาให้ใกล้เคียงกับค่าที่ถูกต้องมากขึ้น
  • ยังไม่มีข้อความ
  • ค่า p กลางเสนอความเป็นไปได้ในการทำให้อัตราความผิดพลาดประเภทที่ 1 ใกล้เคียงกับระดับความเชื่อมั่นที่คุณเลือก
  • คุณสามารถใช้อัตราความผิดพลาดประเภทที่หนึ่งที่มีอยู่อย่างชัดเจน (หรือบันทึกสิ่งที่จะเป็น)

เยี่ยมมากที่คุณได้เข้าไปดูรายละเอียดที่เราทิ้งไว้ข้างๆ (+1)
gui11aume

@gung - คุณสามารถแสดงความคิดเห็นเกี่ยวกับวิธีที่คุณได้รับอัตราความผิดพลาดแบบที่ 1 สำหรับตารางแรกได้หรือไม่?
stats134711

@ stats134711 เป็นเพียงผลรวมของความน่าจะเป็นรายบุคคลสำหรับตัวเลือกที่มากหรือสุดขีด (2 ด้าน)
gung - Reinstate Monica

14

แนวคิดนี้มีการเชื่อมโยงซึ่งกันและกันอย่างใกล้ชิด

P(เสื้อYพีอี ผม อีRRโอR)=ααP(เสื้อYพีอี ผม อีRRโอR)ααP(เสื้อYพีอี ผม อีRRโอR)αα

p-value เป็นระดับนัยสำคัญต่ำสุดที่ยอมรับสมมติฐานว่าง ดังนั้นมันจึงบอกเราว่า "สำคัญแค่ไหน" ผลที่ได้คือ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.