ค่า p ที่เล็กลงมีความน่าเชื่อถือมากกว่าหรือไม่


31

ฉันอ่านค่า value, อัตราข้อผิดพลาดประเภท 1, ระดับนัยสำคัญ, การคำนวณพลังงาน, ขนาดผลกระทบและการอภิปราย Fisher vs Neyman-Pearson นี่ทำให้ฉันรู้สึกท่วมท้นไปเล็กน้อย ฉันขอโทษสำหรับกำแพงข้อความ แต่ฉันรู้สึกว่าจำเป็นต้องให้ภาพรวมของความเข้าใจปัจจุบันของฉันเกี่ยวกับแนวคิดเหล่านี้ก่อนที่ฉันจะย้ายไปยังคำถามจริงของฉันp


จากสิ่งที่ฉันรวบรวมมาค่าเป็นเพียงการวัดความประหลาดใจความน่าจะเป็นที่จะได้ผลลัพธ์อย่างน้อยที่สุดเท่าที่เป็นไปได้เนื่องจากสมมติฐานว่างเป็นจริง ฟิชเชอร์มีจุดประสงค์เพื่อให้มันเป็นมาตรการต่อเนื่องp

ในกรอบงานของ Neyman-Pearson คุณเลือกระดับนัยสำคัญล่วงหน้าและใช้สิ่งนี้เป็นจุดตัด (โดยพลการ) ระดับนัยสำคัญเท่ากับอัตราข้อผิดพลาดประเภท 1 มันถูกกำหนดโดยความถี่ในระยะยาวเช่นถ้าคุณต้องทำการทดสอบซ้ำ 1,000 ครั้งและสมมติฐานว่างเป็นจริงการประมาณ 50 ของการทดลองเหล่านั้นจะส่งผลอย่างมีนัยสำคัญเนื่องจากความแปรปรวนของการสุ่มตัวอย่าง โดยการเลือกระดับความสำคัญเราจะป้องกันตนเองจากความผิดพลาดเชิงบวกเหล่านี้ด้วยความน่าจะเป็น แบบดั้งเดิมจะไม่ปรากฏในกรอบนี้P

หากเราพบค่า 0.01 นี่ไม่ได้หมายความว่าอัตราความผิดพลาดประเภท 1 คือ 0.01 ข้อผิดพลาดประเภท 1 จะถูกระบุเป็นค่าเริ่มต้น ฉันเชื่อว่านี่เป็นหนึ่งในข้อโต้แย้งที่สำคัญในการอภิปราย Fisher vs NP เนื่องจากค่า value มักถูกรายงานเป็น 0.05 *, 0.01 **, 0.001 *** สิ่งนี้อาจทำให้ผู้คนเข้าใจผิดในการบอกว่าผลกระทบมีความสำคัญที่ค่าแทนที่จะเป็นค่านัยสำคัญที่แน่นอนpพีpp

ฉันยังตระหนักว่าค่าเป็นค่าของขนาดตัวอย่าง ดังนั้นจึงไม่สามารถใช้เป็นการวัดแบบสัมบูรณ์ ค่าขนาดเล็กอาจชี้ไปที่ผลขนาดเล็กและไม่เกี่ยวข้องในการทดสอบตัวอย่างขนาดใหญ่ ในการแก้ปัญหานี้เป็นสิ่งสำคัญที่จะทำการคำนวณขนาดกำลังไฟ / เอฟเฟกต์เมื่อพิจารณาขนาดตัวอย่างสำหรับการทดสอบของคุณ บอกเราว่ามีผลหรือไม่ไม่ใช่มีขนาดใหญ่แค่ไหน ดูซัลลิแวน 2012พีพีppP

คำถามของฉัน: ฉันจะกระทบยอดข้อเท็จจริงที่ว่าค่าเป็นการวัดความประหลาดใจได้อย่างไร (เล็กลง = น่าเชื่อถือยิ่งขึ้น) ในขณะเดียวกันก็ไม่สามารถมองว่าเป็นการวัดที่สมบูรณ์ได้?p

สิ่งที่ฉันสับสนเกี่ยวกับคือต่อไปนี้: เราสามารถมั่นใจในเล็กกว่าขนาดใหญ่ได้หรือไม่? ในความรู้สึกของชาวประมงฉันจะบอกว่าใช่เราแปลกใจมากขึ้น ในกรอบการทำงาน NP การเลือกระดับนัยสำคัญที่ต่ำกว่าจะบ่งบอกว่าเรากำลังปกป้องตัวเองอย่างรุนแรงยิ่งขึ้นจากผลบวกที่ผิดพลาดp

แต่ในทางกลับกันค่าจะขึ้นอยู่กับขนาดตัวอย่าง พวกเขาไม่ใช่การวัดที่แน่นอน ดังนั้นเราจึงไม่สามารถบอกได้ว่า 0.001593 สำคัญกว่า 0.0439 แต่สิ่งนี้จะบอกเป็นนัยในกรอบของฟิชเชอร์: เราจะต้องประหลาดใจกับมูลค่าที่สูงเช่นนี้ แม้จะมีการอภิปรายเกี่ยวกับคำที่มีความสำคัญสูงในการเป็นผู้เรียกชื่อผิด: มันผิดหรือไม่ที่จะอ้างถึงผลลัพธ์ว่า "สำคัญมาก"?p

ฉันได้ยินมาว่าค่าในบางสาขาของวิทยาศาสตร์นั้นถือว่ามีความสำคัญเมื่อมันมีค่าน้อยกว่า 0.0001 ในขณะที่ค่าอื่น ๆ ที่อยู่รอบ ๆ 0.01 นั้นถือว่ามีความสำคัญมากp

คำถามที่เกี่ยวข้อง:


อย่าลืมว่าค่า p ที่มีนัยสำคัญไม่ได้บอกอะไรคุณเกี่ยวกับทฤษฎีของคุณ สิ่งนี้ได้รับการยอมรับจากผู้พิทักษ์ที่กระตือรือร้นมากที่สุด: ความสำคัญทางสถิติ: เหตุผลความถูกต้องและยูทิลิตี้ Siu L. Chow พฤติกรรมทางวิทยาศาสตร์และสมอง (1998) 21, 169–239ข้อมูลถูกตีความเมื่อเปลี่ยนเป็นหลักฐาน สมมติฐานการตีความจะขึ้นอยู่กับความต้องการที่จะระบุและจากนั้นถ้าเป็นไปได้การตรวจสอบ สิ่งที่ถูกวัด
สดใส

2
+1 แต่ฉันอยากสนับสนุนให้คุณมุ่งเน้นคำถามและลบคำถามด้านข้างออก หากคุณสนใจว่าทำไมบางคนโต้แย้งว่าช่วงความเชื่อมั่นดีกว่าค่า p ให้ถามคำถามแยกต่างหาก (แต่ต้องแน่ใจว่าไม่เคยถามมาก่อน)
อะมีบาพูดว่า Reinstate Monica

3
นอกเหนือจากนั้นคำถามของคุณไม่ซ้ำซ้อนทำไมค่า p ต่ำกว่าจึงไม่มีหลักฐานที่เป็นโมฆะ? คุณเคยเห็นไหมว่า บางทีคุณสามารถเพิ่มลงในรายการในตอนท้ายของโพสต์ ดูคำถามที่คล้ายกันความรู้สึกแบบใดที่ทำให้การเปรียบเทียบค่า p กับแต่ละอื่น ๆ มีความหมาย แต่ฉันลังเลที่จะแนะนำกระทู้นั้นเพราะคำตอบที่ยอมรับมี IMHO ไม่ถูกต้อง / ทำให้เข้าใจผิด (ดูการอภิปรายในความคิดเห็น)
อะมีบาพูดว่า Reinstate Monica


2
ขอบคุณสำหรับลิงค์ @Glen_b; ฉันรู้ว่ากระดาษ Gelman & Stern ดีและมักจะอ้างอิงถึงตัวเอง แต่ไม่เคยเห็นกระดาษ 2013 หรือการอภิปรายของมันมาก่อน อย่างไรก็ตามฉันขอเตือน OP เกี่ยวกับการตีความ Gelman & Stern ในบริบทของคำถามของเขา / เธอ G&S เสนอตัวอย่างที่ดีกับการศึกษาสองเรื่องที่ประเมินผลกระทบที่และ10 ± 10 ; ในกรณีหนึ่งp < 0.01ในอีกp > 0.05แต่ความแตกต่างระหว่างการประมาณการไม่สำคัญ นี่เป็นสิ่งสำคัญที่ต้องจำไว้ แต่ถ้าตอนนี้ติดตาม OP เราถามว่าการศึกษาครั้งแรกมีความน่าเชื่อถือมากขึ้นฉันจะบอกว่าใช่แน่นอน 25±1010±10p<0.01p>0.05
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


18

ค่าเล็กลง"น่าเชื่อถือมากกว่า" หรือไม่? ใช่แน่นอนพวกเขาเป็นp

ในเฟรมเวิร์กฟิชเชอร์เป็นการหาปริมาณของหลักฐานที่มีต่อสมมุติฐานว่าง หลักฐานอาจมีความน่าเชื่อถือไม่มากก็น้อย มีขนาดเล็กพี -value ที่มากกว่าที่มันเป็นที่น่าเชื่อ โปรดทราบว่าในการทดลองใดก็ตามที่มีขนาดตัวอย่างคงที่nที่หน้า -value ที่เกี่ยวข้อง monotonically ขนาดผลกระทบเป็นอย่าง @Scortchi ชี้ให้เห็นในคำตอบของเขา (+1) p-value ที่เล็กกว่าจึงสอดคล้องกับขนาดเอฟเฟกต์ที่ใหญ่กว่า แน่นอนพวกเขาเชื่อมั่นมากขึ้น!ppnpp

ในกรอบการทำงานของ Neyman-Pearson เป้าหมายคือเพื่อรับการตัดสินใจแบบไบนารี: ทั้งหลักฐานคือ "สำคัญ" หรือไม่ ด้วยการเลือก threshold เรารับประกันว่าเราจะไม่มีผลบวกปลอมมากกว่าα โปรดทราบว่าคนที่แตกต่างกันสามารถมีαที่แตกต่างกันในใจเมื่อดูข้อมูลเดียวกัน บางทีเมื่อฉันอ่านกระดาษจากเขตข้อมูลที่ฉันสงสัยเกี่ยวกับฉันจะไม่คิดว่าเป็นผล "สำคัญ" ด้วยเช่นp = 0.03แม้ว่าผู้เขียนจะเรียกพวกเขาอย่างมีนัยสำคัญ αส่วนบุคคลของฉันอาจถูกตั้งค่าเป็น0.001หรืออะไรบางอย่าง เห็นได้ชัดว่ายิ่งลดลงpรายงานαααp=0.03α0.001p- มูลค่าผู้อ่านที่สงสัยมากขึ้นก็จะสามารถโน้มน้าวใจ! ดังนั้นอีกครั้งค่าต่ำกว่าน่าเชื่อถือมากขึ้นp

การปฏิบัติที่เป็นมาตรฐานในปัจจุบันคือการรวมวิธีการของฟิชเชอร์และเนย์แมน - เพียร์สัน: ถ้าผลลัพธ์จะถูกเรียกว่า "สำคัญ" และp-ค่าคือรายงานว่า [หรือหรือประมาณ] และใช้เป็นการวัดความเชื่อมั่น กับดาวใช้การแสดงออกว่า "สำคัญมาก" ฯลฯ ); ถ้าp > αผลลัพธ์จะถูกเรียกว่า "ไม่สำคัญ" และนั่นก็คือp<αpp>α

สิ่งนี้มักเรียกกันว่า "วิธีการแบบผสมผสาน" และแน่นอนว่าเป็นแบบไฮบริด บางคนยืนยันว่าลูกผสมนี้ไม่ต่อเนื่องกัน ฉันมักจะไม่เห็นด้วย ทำไมการทำสองสิ่งที่ถูกต้องในเวลาเดียวกันจึงไม่ถูกต้อง

อ่านเพิ่มเติม:


1
(+1) แต่ดูที่หัวข้อ 4.4 ของกระดาษของ Michael Lew: บางคนค่อนข้างจะเปรียบเสมือนจำนวนหลักฐานที่มีโอกาสมากกว่าค่า p ซึ่งสร้างความแตกต่างเมื่อเปรียบเทียบค่า p จากการทดลองที่มีการสุ่มตัวอย่างที่แตกต่างกัน ดังนั้นพวกเขาจึงพูดถึง "การจัดทำดัชนี" หรือ "ปรับเทียบ" หลักฐาน / ความน่าจะเป็น
Scortchi - Reinstate Monica

ขออภัยฉันตั้งใจจะพูดอย่างแม่นยำยิ่งขึ้นว่าในมุมมองนี้ "หลักฐาน" ที่สัมพันธ์กัน (หรือ "สนับสนุน") สำหรับค่าต่าง ๆ ที่พารามิเตอร์อาจใช้คืออัตราส่วนของฟังก์ชันความน่าจะเป็นที่ประเมินสำหรับข้อมูลที่สังเกตได้ ดังนั้นในตัวอย่างของลิวหัวหนึ่งในหกของการโยนเป็นหลักฐานเดียวกันกับสมมติฐานว่างโดยไม่คำนึงว่าแผนการสุ่มตัวอย่างเป็นทวินามหรือทวินามลบ แต่ค่า p แตกต่างกัน - คุณอาจบอกว่าภายใต้หนึ่งแผนการสุ่มตัวอย่างคุณมีโอกาสน้อยที่จะสะสมหลักฐานมากกับโมฆะ (แน่นอนสิทธิในการใช้คำว่า "หลักฐาน" เช่นเดียวกับ "สำคัญ", ...
Scortchi - Reinstate Monica

... ยังไม่ได้รับการยอมรับอย่างแน่นอน)
Scortchi - Reinstate Monica

อืมขอบคุณมากสำหรับความสนใจของฉันในส่วนนี้; ฉันอ่านมันมาก่อน แต่ดูเหมือนจะพลาดความสำคัญไป ฉันต้องบอกว่าตอนนี้ฉันสับสน Lew เขียนว่าค่า p ไม่ควร "ปรับ" โดยการหยุดกฎเข้าบัญชี แต่ฉันไม่เห็นการปรับเปลี่ยนใด ๆ ในสูตรของเขาที่ 5-6 ค่า p ที่ไม่ได้ปรับคืออะไร
อะมีบาพูดว่า Reinstate Monica

1
@Scortchi: อืมม ฉันไม่เข้าใจว่าทำไมค่า p เหล่านี้อย่างใดอย่างหนึ่งคือ "ปรับ" และอีกอันไม่ได้ ทำไมไม่กลับกัน ฉันไม่เชื่อในข้อโต้แย้งของลิวที่นี่และฉันก็ไม่เข้าใจเลย เมื่อคิดเกี่ยวกับเรื่องนั้นฉันพบคำถามของ Lewเกี่ยวกับหลักการความน่าจะเป็นและค่า p จากปี 2012และโพสต์คำตอบที่นั่น ประเด็นคือไม่มีกฎการหยุดที่แตกต่างกันเพื่อรับค่า p ที่แตกต่างกัน ใครสามารถพิจารณาสถิติการทดสอบที่แตกต่างกัน บางทีเราสามารถพูดคุยกันต่อไปได้
อะมีบาพูดว่า Reinstate Monica

9

ฉันไม่รู้ว่าค่า p ที่เล็กกว่านั้นหมายถึงอะไร "ดีกว่า" หรือพวกเรา "มั่นใจใน" พวกเขามากขึ้น แต่เกี่ยวกับค่า p เป็นตัวชี้วัดว่าเราควรประหลาดใจเพียงใดกับข้อมูลถ้าเราเชื่อว่าสมมติฐานว่างเปล่าดูเหมือนสมเหตุสมผลพอสมควร p-value คือฟังก์ชัน monotonic ของสถิติการทดสอบที่คุณเลือกเพื่อวัดความคลาดเคลื่อนด้วยสมมติฐานว่างในทิศทางที่คุณสนใจปรับเทียบมันเกี่ยวกับคุณสมบัติของมันภายใต้กระบวนการสุ่มตัวอย่างที่เกี่ยวข้องจากประชากรหรือการมอบหมายการทดลองแบบทดลองที่เกี่ยวข้อง "ความสำคัญ" ได้กลายเป็นศัพท์ทางเทคนิคเพื่ออ้างถึงค่า p- เป็นอย่างใดอย่างหนึ่งหรือสูงกว่าค่าที่ระบุบางอย่าง; ดังนั้นแม้กระทั่งผู้ที่ไม่มีความสนใจในการระบุระดับนัยสำคัญ & การยอมรับหรือปฏิเสธสมมติฐานมีแนวโน้มที่จะหลีกเลี่ยงวลีเช่น "สำคัญมาก" - การยึดมั่นในการประชุมที่ทำจากขนสัตว์

เกี่ยวกับการพึ่งพาค่า p-size กับขนาดตัวอย่างและขนาดของเอฟเฟกต์อาจมีความสับสนเกิดขึ้นเพราะอาจดูเหมือนว่า 474 หัวจาก 1,000 โยนควรจะแปลกใจน้อยกว่า 2 จาก 10 ถึงคนที่คิดว่าเหรียญมีความยุติธรรม - หลังจากทั้งหมด สัดส่วนตัวอย่างเบี่ยงเบนเพียงเล็กน้อยจาก 50% ในกรณีก่อนหน้า แต่ค่า p มีค่าเท่ากัน แต่จริงหรือเท็จไม่ยอมรับองศา ค่า p กำลังทำสิ่งที่ถามมา: บ่อยครั้งที่ช่วงความมั่นใจสำหรับพารามิเตอร์คือสิ่งที่ต้องการประเมินว่าการวัดผลกระทบนั้นแม่นยำเพียงใดและความสำคัญในทางปฏิบัติหรือทางทฤษฎีของขนาดโดยประมาณ


1
p=0.04p=0.000004

1

ขอบคุณสำหรับความคิดเห็นและการอ่านที่แนะนำ ฉันมีเวลามากขึ้นในการไตร่ตรองเกี่ยวกับปัญหานี้และฉันเชื่อว่าฉันสามารถแยกแหล่งที่มาหลักของความสับสน

  • ตอนแรกฉันคิดว่ามีการแบ่งแยกขั้วระหว่างการดูค่า p เป็นค่าของความประหลาดใจเมื่อเทียบกับการระบุว่าไม่ใช่การวัดแบบสัมบูรณ์ ตอนนี้ฉันรู้ว่าข้อความเหล่านี้ไม่จำเป็นต้องขัดแย้งกัน อดีตทำให้เรามีความมั่นใจมากขึ้นหรือน้อยลงในความสุดขั้ว (ไม่เหมือนกันหรือไม่?) ของผลกระทบที่สังเกตได้เมื่อเทียบกับผลการทดลองอื่นในสมมุติฐาน ในขณะที่หลังเพียงบอกเราว่าสิ่งที่อาจถือเป็นค่า p- เชื่อในการทดลองหนึ่งอาจไม่น่าประทับใจในอีกการทดลองหนึ่งเช่นถ้าขนาดตัวอย่างแตกต่างกัน

  • ความจริงที่ว่าบางสาขาวิทยาศาสตร์ใช้พื้นฐานที่แตกต่างกันของค่า p- ที่แข็งแกร่งอาจเป็นภาพสะท้อนของความแตกต่างในขนาดตัวอย่างทั่วไป (ดาราศาสตร์, คลินิก, การทดลองทางจิตวิทยา) และ / หรือความพยายามที่จะถ่ายทอดขนาดผลใน p- ราคา. แต่สิ่งหลังคือการรวมที่ไม่ถูกต้องของทั้งสอง

  • ความสำคัญเป็นคำถามใช่ / ไม่ใช่ตามตัวอักษรที่ถูกเลือกก่อนการทดสอบ ดังนั้นค่า p จึงไม่มีนัยสำคัญมากกว่าอีกค่าหนึ่งเนื่องจากค่าเหล่านี้มีขนาดเล็กกว่าหรือใหญ่กว่าระดับนัยสำคัญที่เลือก ในทางกลับกันค่า p ที่เล็กกว่าจะน่าเชื่อถือมากกว่าขนาดที่ใหญ่กว่า (สำหรับขนาดตัวอย่างที่เหมือนกัน / การทดลองที่เหมือนกันดังที่กล่าวไว้ในจุดแรกของฉัน)

  • ช่วงความเชื่อมั่นถ่ายทอดขนาดของเอฟเฟกต์โดยเนื้อแท้ทำให้เป็นตัวเลือกที่ดีในการป้องกันปัญหาที่กล่าวถึงข้างต้น


0

p-value ไม่สามารถวัดความประหลาดใจได้เพราะเป็นเพียงการวัดความน่าจะเป็นเมื่อโมฆะเป็นจริง หากค่า Null เป็นจริงค่า p ที่เป็นไปได้แต่ละค่ามีแนวโน้มเท่ากัน ไม่มีใครประหลาดใจที่ p-value ใด ๆ ก่อนตัดสินใจปฏิเสธ null เมื่อมีคนตัดสินใจว่าจะมีผลกระทบแล้วความหมายของค่า p- หายไป มีเพียงรายงานว่ามันเป็นลิงค์ในห่วงโซ่อุปนัยที่ค่อนข้างอ่อนแอเพื่อแสดงให้เห็นถึงการปฏิเสธหรือไม่เป็นโมฆะ แต่ถ้ามันถูกปฏิเสธจริง ๆ แล้วมันไม่มีความหมายอีกต่อไป


+1 สำหรับข้อเท็จจริง "เมื่อค่า null เป็นจริงดังนั้นค่า p ทุกตัวมีแนวโน้มเท่ากัน '' อย่างไรก็ตามฉันคิดว่านี่คงเป็นเพียงตัวแปรสุ่มต่อเนื่องหรือไม่

โปรดทราบว่าฉันกล่าวว่าค่า p ที่เป็นไปได้ของ p มีแนวโน้มเท่ากัน นี่คือความจริงสำหรับตัวแปรที่รอบคอบหรือต่อเนื่อง ด้วยตัวแปรที่รอบคอบจำนวนของค่าที่เป็นไปได้จะลดลง
John

คุณแน่ใจหรือว่าการกระจายของ p-values ​​(ภายใต้H0 ) จะเหมือนกันเสมอสำหรับตัวแปรที่ไม่ต่อเนื่องเนื่องจากลิงก์นี้ดูเหมือนว่าจะพูดอะไรบางอย่างที่แตกต่างกัน: stats.stackexchange.com/questions/153249/…

ฉันเชื่อว่าคำตอบชั้นนำแสดงให้เห็นว่านี่ไม่ใช่ปัญหา เหตุผลที่การแจกแจงมีลักษณะไม่สม่ำเสมอเนื่องจากค่า p ที่เป็นไปได้นั้นมีระยะห่างไม่เท่ากัน Glenn เรียกมันว่าเหมือนเครื่องแบบ ฉันคิดว่าเป็นไปได้ว่าด้วยการทดสอบข้อมูลทวินามที่กระจัดกระจายมากกับ Ns ขนาดเล็กบางทีความน่าจะเป็นของค่า p เฉพาะนั้นไม่เท่ากัน แต่ถ้าคุณพิจารณาความน่าจะเป็นของค่า p ในช่วงที่กำหนดมันจะใกล้เคียงกันมากขึ้น
John

1
@amoeba: ขอบอกว่า t-test ที่คุณกล่าวถึงการทดสอบและคุณได้รับP = 0.0000000004 อาจเป็นไปได้ว่าด้วยตัวอย่างเดียวกับที่คุณทดสอบH 0 : μ = 0.45และคุณได้รับp = 0.0000000001คุณจะบอกว่ามีหลักฐานเพิ่มเติมสำหรับμ = 0.45H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45หรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.