การเปรียบเทียบค่า p กับแต่ละรายการมีความหมายอย่างไร


20

ฉันมีประชากรสองคน (ชายและหญิง) แต่ละคนมีตัวอย่าง สำหรับตัวอย่างแต่ละตัวอย่างฉันมีคุณสมบัติ A & B สองรายการ (เกรดเฉลี่ยปีแรกและคะแนน SAT) ฉันใช้การทดสอบแบบแยกต่างหากสำหรับ A & B: ทั้งคู่พบความแตกต่างอย่างมีนัยสำคัญระหว่างทั้งสองกลุ่ม A กับP = 0.008และ B กับP = 0.0021000p=0.008p=0.002

การอ้างว่าทรัพย์สิน B นั้นเป็นการเลือกปฏิบัติที่ดีกว่า (สำคัญกว่า) คือคุณสมบัติ A หรือไม่? หรือว่าการทดสอบ t เป็นเพียงการวัดใช่หรือไม่ (สำคัญหรือไม่สำคัญ)?

ปรับปรุง : ตามความเห็นที่นี่และกับสิ่งที่ผมได้อ่านในวิกิพีเดียผมคิดว่าคำตอบที่ควรจะวางความหมาย p-value และรายงานของคุณขนาดของผล ความคิดใด ๆ


+ โปรดยกโทษให้ฉันด้วยว่าฉันไม่ใช่เจ้าของภาษาอังกฤษ :)
Dov

ไม่มีปัญหา: หากคุณรู้สึกว่าการแก้ไข (รอง) ที่ฉันทำเปลี่ยนคำถามของคุณด้วยวิธีที่มีความหมายใด ๆ โปรดอย่าลังเลที่จะแก้ไขให้ถูกต้อง
whuber

คุณวัดผลอะไร (นั่นคืออะไรที่แตกต่างกันระหว่างกลุ่มที่กำหนดโดย A / ไม่ A หรือ B / ไม่ใช่ B?) มันวัดจากตัวอย่าง 1,000 รายการทั้งหมดหรือบางส่วนหายไป?
แขกที่เข้าพัก

3
การรายงานขนาดเอฟเฟกต์สองขนาดที่แตกต่างกันหรือช่วงความมั่นใจสำหรับเอฟเฟกต์สองขนาดที่แตกต่างกันนั้นเป็นความคิดที่ดี มันจะง่ายกว่าในการตีความถ้าผลลัพธ์ในชุดข้อมูลสองชุดของคุณเหมือนกัน (มันคืออะไร)
Peter Ellis

2
คุณสามารถแสดงนัยสำคัญทางสถิติและขนาดเอฟเฟกต์ได้อย่างสะดวกมากโดยใช้พล็อตป่า! การนำเสนอ CIs 95% หมายความว่าคุณกำลังใช้ตัวเลข 4 ตัวแทนที่จะเป็น 2 แต่เมื่อทุกคนพูดพาดพิงถึงตัวเลขนั้นก็เพียงพอที่จะแสดงถึงข้อมูลที่จำเป็นในการเปรียบเทียบการทดสอบ
AdamO

คำตอบ:


20

หลายคนอาจโต้แย้งว่าค่าอาจมีนัยสำคัญ ( p < α ) หรือไม่และดังนั้นจึงไม่มีความรู้สึกที่จะเปรียบเทียบค่าpสองค่าระหว่างกัน นี่เป็นสิ่งที่ผิด ในบางกรณีมันทำpp<αp

ในกรณีเฉพาะของคุณไม่ต้องสงสัยเลยว่าคุณสามารถเปรียบเทียบค่าโดยตรงได้ ถ้าขนาดของกลุ่มตัวอย่างได้รับการแก้ไข ( n = 1000 ) จากนั้นพี -values ที่เกี่ยวข้อง monotonically ไปที -values ซึ่งเป็นในทางกลับกันที่เกี่ยวข้อง monotonically ขนาดผลที่เป็นวัดโดยโคเฮนง โดยเฉพาะd = 2 t / pn=1000ptd . ซึ่งหมายความว่าค่าpของคุณอยู่ในการติดต่อแบบหนึ่งต่อหนึ่งที่มีขนาดเอฟเฟกต์และเพื่อให้คุณมั่นใจได้ว่าหากค่าp-valueสำหรับคุณสมบัติ A มีขนาดใหญ่กว่าคุณสมบัติ B ดังนั้นขนาดเอฟเฟกต์สำหรับ A จะเล็กกว่า กว่าทรัพย์สิน Bd=2t/npp

ฉันเชื่อว่านี่เป็นคำตอบสำหรับคำถามของคุณ

คะแนนเพิ่มเติมหลายประการ:

  1. นี่เป็นจริงเท่านั้นเนื่องจากขนาดของตัวอย่างได้รับการแก้ไข หากคุณได้รับp = 0.008สำหรับคุณสมบัติ A ในการทดสอบหนึ่งโดยมีขนาดตัวอย่างหนึ่งขนาดและp = 0.002สำหรับคุณสมบัติ B ในการทดสอบอื่นที่มีขนาดตัวอย่างอื่นจะเป็นการยากกว่าที่จะเปรียบเทียบnp=0.008p=0.002

    • หากคำถามนั้นมีความเฉพาะเจาะจงว่า A หรือ B นั้นดีกว่า "การแบ่งแยก" ในประชากร (เช่น: คุณสามารถทำนายเพศได้ดีเพียงใดโดยดูที่ค่า A หรือ B?) คุณควรจะดูขนาดเอฟเฟกต์ ในกรณีง่าย ๆ การรู้และnก็เพียงพอที่จะคำนวณขนาดของเอฟเฟกต์pn

    • หากคำถามนั้นคลุมเครือมากขึ้น: การทดลองใดให้ "หลักฐาน" เพิ่มเติมกับโมฆะ? (สิ่งนี้อาจมีความหมายถ้าเช่น A = B) - จากนั้นปัญหาจะซับซ้อนและเป็นที่ถกเถียงกัน แต่ฉันจะบอกว่าค่าตามคำนิยามคือสรุปสเกลาร์ของหลักฐานต่อโมฆะดังนั้นค่าp -valueต่ำกว่าหลักฐานที่แข็งแกร่งยิ่งขึ้นแม้ว่าขนาดตัวอย่างจะแตกต่างกันpp

  2. การบอกว่าขนาดเอฟเฟ็กต์สำหรับ B นั้นใหญ่กว่า A ไม่ได้หมายความว่ามันใหญ่กว่าอย่างมีนัยสำคัญ คุณต้องมีการเปรียบเทียบโดยตรงระหว่าง A และ B เพื่อทำการเรียกร้องดังกล่าว

  3. ก็มักจะเป็นความคิดที่ดีที่จะรายงาน (และตีความ) ขนาดผลและช่วงความเชื่อมั่นนอกเหนือไปจาก -valuesp


3
คะแนนดีเกี่ยวกับความน่าเบื่อและ 3 คะแนนสุดท้าย ตอนนี้คำสั่ง "คุณมั่นใจ": จริงเพียงพอสำหรับตัวอย่าง แต่ "สำคัญมาก"? (เช่นมีผลกระทบที่น่าเชื่อถือสำหรับประชากรหรือไม่) คุณได้กล่าวถึงเรื่องนี้สั้น ๆ ใน # 2 การรักษาแบบเต็มรูปแบบนี้ยินดีต้อนรับ Cheers ~
rolando2

4
สิ่งนี้ถูกต้อง แต่ฉันก็พยายามอธิบายให้ชัดเจนด้วยว่ามันจำเป็นในกรณีนี้เท่านั้น (คุณต้องทราบด้วย) ฉันคิดว่ามิเชลกำลังสร้างจุดคุ้มค่าที่คุณไม่ควรใช้ค่า p ด้วยวิธีนี้
gung - Reinstate Monica

1
(-1) เนื้อความของโพสต์นี้ถูกต้อง แต่ประโยคเปิด ("หลายคนอาจโต้แย้งว่า ... มันไม่สมเหตุสมผลเลยที่จะเปรียบเทียบค่าสองค่าระหว่างกันนี่เป็นสิ่งที่ผิด") ง่ายเกินไป เข้าใจผิดว่าเป็นคำแนะนำทั่วไปเมื่อในความเป็นจริงมันจะถือเฉพาะในกรณีพิเศษเช่นที่นี่ p
Andrew M

1
@AndrewM บางที ฉันแก้ไขจุดเริ่มต้นของคำตอบแล้ว ดูว่าคุณชอบมันตอนนี้ดีกว่า
อะมีบาพูดว่า Reinstate Monica

0

ขอบคุณใครก็ตามที่ลงคะแนนฉันเพราะตอนนี้ฉันมีคำตอบที่แตกต่างไปจากเดิมอย่างสิ้นเชิงฉันจึงลบคำตอบเดิมของฉันไปเพราะมันไม่ถูกต้องจากมุมมองนี้

ในบริบทของคำถามนี้ซึ่งเกี่ยวข้องกับคำถามที่ว่า "คือ A หรือ B ซึ่งเป็นผู้แบ่งแยกที่ดีกว่าในการศึกษาของฉัน" เรากำลังเผชิญกับการสำรวจสำมะโนประชากรและไม่ใช่ตัวอย่าง ดังนั้นการใช้สถิติเชิงอนุมานเช่นสถิติที่ใช้ในการสร้างค่า p จึงไม่เกี่ยวข้อง สถิติเชิงอนุมานใช้เพื่ออนุมานการประมาณประชากรจากที่เราได้จากตัวอย่างของเรา หากเราไม่ต้องการพูดคุยกับประชากรวิธีการเหล่านั้นไม่จำเป็น (มีปัญหาบางอย่างเกี่ยวกับค่าที่หายไปในการสำรวจสำมะโนประชากร แต่ไม่เกี่ยวข้องในสถานการณ์นี้)

ไม่มีความน่าจะเป็นที่จะได้รับผลลัพธ์ในประชากร เราได้ผลลัพธ์ที่เราได้รับ ดังนั้นความน่าจะเป็นของผลลัพธ์ของเราคือ 100% ไม่จำเป็นต้องสร้างช่วงความมั่นใจ - การประมาณจุดสำหรับตัวอย่างนั้นแน่นอน เราแค่ไม่ต้องประมาณอะไรเลย

ในกรณีเฉพาะของ "ตัวแปรใดที่ทำงานได้ดีกับข้อมูลที่ฉันมี" สิ่งที่ต้องทำคือดูผลลัพธ์ในรูปแบบสรุปอย่างง่าย ตารางอาจเพียงพออาจมีกราฟเหมือนพล็อตกล่อง


-1

คุณได้รับความแตกต่างใน p แต่มันไม่ชัดเจนว่าความแตกต่างนั้นหมายถึงอะไร (มันใหญ่เล็กสำคัญ?)

อาจใช้ bootstrapping:

เลือก (แทนที่) จากข้อมูลของคุณทำซ้ำการทดสอบของคุณคำนวณความแตกต่างของ p's (p_a - p_b) ทำซ้ำ 100-200 ครั้ง

ตรวจสอบว่าส่วนใดของเดลต้า p ของคุณคือ <0 (หมายถึง p ของ A ต่ำกว่า p ของ B)

หมายเหตุ: ฉันเคยเห็นสิ่งนี้ทำแล้ว แต่ไม่ใช่ผู้เชี่ยวชาญ


1
คำตอบนี้อธิบายวิธีหนึ่งในการเปรียบเทียบค่า p แต่คำถามต้นฉบับดูเหมือนจะยังไม่ได้รับคำตอบ: ขั้นตอนนี้สมเหตุสมผลหรือไม่และมีวิธีตีความผลลัพธ์อย่างไร
whuber

-1

เพิ่มคำตอบเนื่องจากความคิดเห็นยาวเกินไป!

มิเชลมีการตอบรับที่ดี แต่ความคิดเห็นมากมายแสดงให้เห็นถึงการสนทนาทั่วไปที่เกิดขึ้นเกี่ยวกับค่า p แนวคิดพื้นฐานมีดังต่อไปนี้:

1) ค่า p ที่น้อยลงไม่ได้หมายความว่าผลลัพธ์จะมีนัยสำคัญมากหรือน้อย มันหมายความว่าโอกาสที่จะได้รับผลลัพธ์อย่างน้อยที่สุดเท่าที่จะมากได้ ความสำคัญเป็นผลลัพธ์แบบไบนารีตามระดับนัยสำคัญที่คุณเลือก (ซึ่งคุณเลือกก่อนที่จะทำการทดสอบ)

2) ขนาดของเอฟเฟ็กต์ (มักจะเป็นมาตรฐานถึงส่วนเบี่ยงเบนมาตรฐานของ #) เป็นวิธีที่ดีในการหาจำนวน "สองวิธีที่ต่างกัน" ดังนั้นหากปริมาณ A มีขนาดผลกระทบของ. 8 ส่วนเบี่ยงเบนมาตรฐานและปริมาณ B มีขนาดผลของ. 5 ส่วนเบี่ยงเบนมาตรฐานคุณจะบอกว่ามีความแตกต่างระหว่างกลุ่มสองกลุ่มในปริมาณ A มากกว่าในการวัดปริมาณมาตรฐาน B. :

.2 ความเบี่ยงเบนมาตรฐาน = ผลกระทบ "เล็ก"

.5 ความเบี่ยงเบนมาตรฐาน = ผล "ปานกลาง"

.8 ความเบี่ยงเบนมาตรฐาน = ผลกระทบ "ใหญ่"


1
แต่เมื่อกำหนดขนาดตัวอย่างที่คงที่ค่า p จะสัมพันธ์โดยตรงกับขนาดเอฟเฟกต์!
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.