ค่า p เป็นค่าประมาณหรือไม่?


32

เนื่องจากสามารถคำนวณช่วงความเชื่อมั่นสำหรับค่า p และเนื่องจากการประมาณช่วงเวลาตรงข้ามคือการประมาณค่าจุด: ค่า p เป็นค่าประมาณจุดหรือไม่


6
ฉันไม่เชื่อว่าใครสามารถคำนวณช่วงความมั่นใจสำหรับค่า p; มันเป็นสถิติที่คำนวณจากข้อมูลไม่ใช่พารามิเตอร์ที่อธิบายถึงกระบวนการสร้างข้อมูล แน่นอนคุณยังสามารถถามสิ่งที่สถิติประมาณการ
Scortchi - Reinstate Monica

1
@ Scortchi: แต่ถ้าฉันจะใช้เช่น bootstrapping เพื่อคำนวณการกระจายของค่า p และจากนั้นจะสร้างช่วงเวลาร้อยละ 95% ของการกระจาย bootstrapped นี้แล้วถ้ามันไม่ใช่ช่วงความมั่นใจสำหรับ p-value - คืออะไร มัน ?
อะมีบาพูดว่า Reinstate Monica

2
@amoeba: ช่วงความมั่นใจเป็นเรื่องเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักในขณะที่ช่วงเวลา bootstrap ของคุณเป็นการประมาณพื้นที่ 95% สำหรับสถิติ
ซีอาน

@Scorthci: ฉันเคยเห็นซอฟต์แวร์ที่พิมพ์ CI สำหรับ p- ค่า ในกรณีนี้ค่า p โดยประมาณถูกคำนวณโดยการทดสอบการเปลี่ยนรูปดังนั้นถ้า CI กว้างเกินไป (เช่น p-value และ p-value [ 0.05 , 1 ] ) คุณจะใช้วิธีเรียงสับเปลี่ยนมากกว่า ก่อนที่จะทำการอนุมาน [0,0.05][0.05,1]
หน้าผา AB

4
@Cliff นั่นไม่ใช่ช่วงความมั่นใจสำหรับคุณสมบัติ p-value quaของการแจกแจง: นั่นเป็นช่วงความเชื่อมั่นสำหรับตัวประมาณค่า Stochastic ของ p-value ของการทดสอบสำหรับตัวอย่างเฉพาะ ถึงแม้ว่าพวกเขาจะฟังดูคล้ายกันและทั้งคู่ต่างก็มีช่วงเวลาต่างกัน
whuber

คำตอบ:


23

การประมาณจุดและช่วงความเชื่อมั่นใช้สำหรับพารามิเตอร์ที่อธิบายการแจกแจงเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน

แต่แตกต่างจากสถิติตัวอย่างอื่น ๆ เช่นค่าเฉลี่ยตัวอย่างและค่าเบี่ยงเบนมาตรฐานตัวอย่าง p-value ไม่ใช่ตัวประมาณค่าที่มีประโยชน์ของพารามิเตอร์การกระจายที่น่าสนใจ ดูคำตอบโดย @whuber สำหรับรายละเอียดทางเทคนิค

p-value สำหรับสถิติการทดสอบให้ความน่าจะเป็นของการสังเกตการเบี่ยงเบนจากค่าที่คาดหวังของสถิติการทดสอบอย่างน้อยใหญ่เท่าที่สังเกตในตัวอย่างที่คำนวณภายใต้สมมติฐานที่สมมติฐานว่างเป็นจริง หากคุณมีการแจกแจงทั้งหมดมันจะสอดคล้องกับสมมติฐานว่างหรือไม่ก็ได้ สิ่งนี้สามารถอธิบายได้ด้วยตัวแปรตัวบ่งชี้ (อีกครั้งดูคำตอบโดย @whuber)

แต่ p-value ไม่สามารถใช้เป็นตัวประมาณค่าที่เป็นประโยชน์ของตัวแปรตัวบ่งชี้ได้เนื่องจากมันไม่สอดคล้องกันเนื่องจาก p-value ไม่ได้มาบรรจบกันเมื่อขนาดตัวอย่างเพิ่มขึ้นหากสมมติฐานว่างเป็นจริง นี่เป็นวิธีสลับซับซ้อนที่ค่อนข้างระบุว่าการทดสอบทางสถิติสามารถปฏิเสธหรือล้มเหลวในการปฏิเสธค่า null แต่ไม่ยืนยัน


3
บัญชีที่ดีกว่าส่วนใหญ่ของการทดสอบทางสถิติ (Lehman, Kiefer, ฯลฯ ) ไม่ได้อ้างถึง "ประชากร" เลย แต่ให้กรอบสถานการณ์ในแง่ของการประมาณค่าพารามิเตอร์ของการแจกแจง สิ่งนี้ไม่ต้องการการสุ่มที่เกิดจากการสุ่มตัวอย่างเพียงอย่างเดียวและทำให้ทฤษฎีสามารถนำไปใช้กับสถานการณ์ที่การสุ่มเป็นส่วนหนึ่งของแบบจำลองได้กว้างขึ้น
whuber

2
แต่คุณได้โต้แย้งอย่างชัดเจนว่าด้วยคำแถลงว่า "ไม่มีความน่าจะเป็นที่เกี่ยวข้องกับประชากรเลย" โปรดทราบเช่นกันว่าตัวประมาณทั้งหมด "กำหนดไว้อย่างชัดเจนในระดับตัวอย่าง" ดังนั้นจึงเป็นเรื่องยากที่จะกำหนดความแตกต่างที่คุณพยายามทำในโพสต์นี้
whuber

2
แน่นอน! แต่การกระจายไม่ใช่ประชากร
whuber

4
(-1) ฉันเห็นด้วยกับคำตอบทั่วไปของ @ Tim และคำตอบ recondite whuber ทั้งสอง แต่ฉันพยายามที่จะทำความเข้าใจกับสิ่งนี้ (1) "แต่ค่า p-ไม่ใช่พารามิเตอร์ประชากรเนื่องจากมีการกำหนดไว้อย่างชัดเจนในระดับตัวอย่าง": นี่เป็นค่าที่ไม่ต้องสงสัยที่ชี้ให้เห็น แต่ "แต่" ทำให้ดูเหมือนว่าคุณกำลังบอกว่าค่า p สามารถ ไม่ต้องประมาณค่าอะไรเลยเพราะมันเป็นค่าสถิติตัวอย่างราวกับว่าค่าเฉลี่ยตัวอย่างไม่สามารถประมาณค่าอะไรก็ได้เพราะมันเป็นค่าสถิติตัวอย่าง ...
Scortchi - Reinstate Monica

2
(2) "นี่เป็นเพราะไม่มีความน่าจะเป็นที่เกี่ยวข้องกับประชากรเลยก็ถือว่าได้รับการแก้ไข แต่ไม่ทราบ": (a) p-value ไม่ได้คำนวณจากตัวอย่างเพราะ "ไม่มีความน่าจะเป็น [.. .] "; (b) ตามที่ @ whuber ชี้ให้เห็นการสุ่มตัวอย่างจากประชากร จำกัด เป็นกรณีพิเศษ (c) ไม่ว่าในกรณีใดมันก็ไม่ได้ติดตามสิ่งที่คุณพูดว่าค่า p ไม่ได้ประมาณอะไรเกี่ยวกับประชากร
Scortchi - Reinstate Monica

21

ใช่มันอาจเป็น (และถูก) แย้งว่าค่า p เป็นค่าประมาณจุด

ในการระบุคุณสมบัติใด ๆ ของการแจกแจงค่า p อาจประมาณได้เราต้องสมมติว่ามันไม่เอนเอียง แต่ asymptotically ค่าเฉลี่ย p-value สำหรับสมมติฐานคือ (นึกคิด; สำหรับการทดสอบบางคนก็อาจจะมีบางจำนวนภัณฑ์อื่น ๆ ) และสมมติฐานอื่น ๆ มันเป็น0 ดังนั้นค่า p-value อาจถูกพิจารณาเป็นตัวประมาณของฟังก์ชันตัวบ่งชี้ครึ่งหนึ่งสำหรับสมมติฐานว่าง1/20


เป็นที่ยอมรับใช้ความคิดสร้างสรรค์ในการดูค่า p ด้วยวิธีนี้ เราสามารถทำได้ดีขึ้นเล็กน้อยโดยดูตัวประเมินที่เป็นปัญหาในการตัดสินใจของเราโดยใช้ p-value: การกระจายพื้นฐานเป็นสมาชิกของสมมติฐานว่างหรือสมมติฐานสำรองหรือไม่? ขอเรียกชุดของการตัดสินใจนี้เป็นไปได้ดีJack Kiefer เขียนD

เราคิดว่ามีการทดลองที่ผลลัพธ์ที่นักสถิติสามารถสังเกตได้ ผลลัพธ์นี้ถูกอธิบายโดยตัวแปรสุ่มหรือเวกเตอร์สุ่ม ... กฎหมายน่าจะเป็นของXเป็นที่รู้จักกับสถิติ แต่มันเป็นที่รู้จักกันว่าฟังก์ชั่นการกระจายFของXเป็นสมาชิกของคลาสที่ระบุΩของฟังก์ชั่นการจัดจำหน่าย ...XXFXΩ

DFF

D

แม้ว่ามันจะน่าสนใจที่จะสำรวจข้อ จำกัด (และข้อ จำกัด ) ของคำจำกัดความดังกล่าวตามที่คำถามนี้ชวนให้เราทำบางทีเราไม่ควรยืนยันอย่างแรงเกินไปว่าค่า p-value เป็นตัวประมาณค่าจุดเพราะความแตกต่างระหว่างตัวประมาณและการทดสอบ มีประโยชน์และธรรมดา


ในความคิดเห็นของคำถามนี้คริสเตียนโรเบิร์ตนำมาให้ความสนใจกับกระดาษ 1992 ที่เขาและผู้เขียนร่วมเอาว่ามุมมองนี้และวิเคราะห์ภัณฑ์ของ P-ค่าเป็นประมาณการของฟังก์ชั่นตัวบ่งชี้ที่ ดูลิงค์ในการอ้างอิงด้านล่าง กระดาษเริ่ม

วิธีการทดสอบสมมติฐานมักจะถือว่าปัญหาของการทดสอบเป็นหนึ่งในการตัดสินใจมากกว่าการประมาณ แม่นยำยิ่งขึ้นการทดสอบสมมติฐานอย่างเป็นทางการจะส่งผลให้ข้อสรุปว่าสมมติฐานนั้นเป็นจริงหรือไม่และไม่ได้ให้หลักฐานที่เกี่ยวข้องกับข้อสรุปนั้น ในบทความนี้เราพิจารณาการทดสอบสมมติฐานว่าเป็นปัญหาการประมาณค่าภายในกรอบการตัดสินใจเชิงทฤษฎี ...

[เน้นเพิ่มแล้ว]


อ้างอิง

Jiunn Tzon Hwang จอร์จ Casella, คริสเตียนโรเบิร์ตมาร์ตินตันเวลส์และโรเจอร์เอชฟาร์เรล, การประมาณค่าความแม่นยำในการทดสอบ แอน statist เล่มที่ 20 หมายเลข 1 (1992), 490-509 เปิดการเข้าถึง

แจ็คคาร์ล Kiefer, รู้เบื้องต้นเกี่ยวกับสถิติการอนุมาน Springer-Verlag, 1987


2
อืมมม ฉันไม่แน่ใจว่ามุมมองนี้มีประโยชน์หรือไม่ สำหรับหนึ่งในแง่นี้ p-value ไม่ใช่ตัวประมาณที่ดีเนื่องจากมันไม่สอดคล้องกันหากสมมุติฐานว่างเป็นจริง และในบางกรณี (คุณพูดถึงมัน) มันมีอคติขึ้นกับขนาดตัวอย่างด้วย อาจเป็นจริงทางเทคนิค แต่ตัวเลขสุ่มใด ๆ อาจเป็นตัวประมาณ (แย่มาก) สำหรับพารามิเตอร์ใดก็ได้เช่นกัน
Erik

10
คำถามไม่ถามว่า p-value เป็นตัวประมาณที่ดีหรือไม่ @Erik ในฐานะผู้ประเมินมันมีข้อบกพร่องที่เห็นได้ชัด ยกตัวอย่างเช่นความแปรปรวนเชิงซีโมติคของมันสำหรับสมมติฐานว่างคือไม่ใช่ศูนย์ โปรดทราบว่าอคติของตัวประมาณค่าที่ไม่เอนเอียงเกือบทั้งหมดขึ้นอยู่กับขนาดตัวอย่าง แม้ว่าคุณจะถูกต้องแล้วว่าสามารถดูตัวเลขสุ่มอิสระเป็นตัวประมาณได้ แต่มันจะเป็นตัวประมาณค่าของสิ่งที่แตกต่าง: มันจะประมาณค่าเฉลี่ยของตัวเอง (ตามคำนิยาม) ดังนั้นการคัดค้านของคุณดูเหมือนจะไม่เกี่ยวข้องกับคำถามในมือ
whuber

7
ฉันไม่คิดว่าเราจะแตกต่างกันในประเด็นเหล่านี้ @Erik ยกเว้นส่วนที่ "ไม่ช่วยเหลือ" ในฐานะที่เป็นนิคคอคส์ชี้ให้เห็นในความคิดเห็นที่อื่นในหัวข้อนี้ แต่ก็น่าสนใจที่จะพิจารณาความรู้สึกที่ p-value อาจพิจารณาตัวประมาณและสิ่งที่แน่นอนมันอาจจะประมาณ ที่สามารถช่วยให้เราเข้าใจดีขึ้นเพียงเล็กน้อยว่า p-value คืออะไร (และไม่ใช่) หลายคนมองว่าเป็นการออกกำลังกายที่มีประโยชน์
whuber

7
pIΘ0(θ)

1
@ ซีอานฉันรู้ว่าเราแค่ 23 ปีข้างหลังคุณ ... ขอบคุณสำหรับการอ้างอิง!
whuber

11

pμx¯μp<0.05pp


5
คำแถลงเบื้องต้นของคุณสะท้อนได้อย่างถูกต้องว่ามีการอธิบายสิ่งต่าง ๆ อย่างไร แต่ก็ยังไม่ลึกพอ ข้อเท็จจริงพื้นฐานนี่คือการสุ่มตัวอย่างการเปลี่ยนแปลงความแปรปรวนจากกลุ่มตัวอย่างกับกลุ่มตัวอย่าง ใช้ตัวอย่างอื่นและค่า P ของคุณจะแตกต่างกัน ใช้ความฉลาดเล็กน้อยในการดูสิ่งที่คาดคะเนและมันก็ไม่ธรรมดา (เท่าที่ฉันรู้) ตามแบบแผนเพื่ออธิบายว่าเป็นการประมาณค่าพารามิเตอร์ แต่มุมมองนั้นเหมาะสมอย่างสมบูรณ์ ดูคำตอบที่น่าสนใจของ @ whuber (ดินแดนทั้งหมดถูกปูหญ้าด้วยการถอดความแบบโคลนตามความจำเป็นในการทำให้การสอนง่ายขึ้น)
Nick Cox

1
วิธีการใช้คำศัพท์นั้นน่าสนใจและสำคัญ (และความลุ่มหลงส่วนบุคคลโดยวิธี) คำถามที่ยังคงสิ่งที่ P-value คือ นี่ก็ชี้ให้เห็น [ที่หลีกเลี่ยงไม่ได้ที่นี่] ในกระทู้นี้ มันเป็นแบบแผนที่มีประโยชน์ในการพิจารณาว่าพารามิเตอร์เป็นสิ่งที่ไม่รู้จักซึ่งปรากฏในข้อมูลจำเพาะของแบบจำลอง แต่ก็มีสิ่งแปลกปลอมอื่น ๆ ด้วย
Nick Cox

3
p<0.05p<0.01p<0.001p=0.003p<0.05αp<α
อะมีบาพูดว่า Reinstate Monica

5
คำถามนี้ตัดกับคนอื่น ๆ ซึ่งส่วนใหญ่ขัดแย้งกันอย่างมาก หนึ่งคืออุดมคติที่จุดประสงค์ของการทดสอบคือการตัดสินใจใช่หรือไม่ใช่ซึ่งไม่ตรงกับปัญหาทั้งหมดเลย ข้อเท็จจริงสำคัญอีกประการหนึ่งคือการใช้ระดับขีด จำกัด เป็นเวลาหลายทศวรรษที่ผู้คนใช้ตารางที่ตีพิมพ์จากตารางที่พิมพ์และค่า P ที่แน่นอนนั้นไม่สามารถเข้าถึงได้ในขณะที่ผู้คนไม่ได้ใช้คอมพิวเตอร์
Nick Cox

4
@ 00schneider: หากคุณเคยเห็นช่วงเวลาที่กำหนดสำหรับค่า p มันไม่น่าจะเป็นช่วงความเชื่อมั่นสำหรับพารามิเตอร์ประชากรที่กำหนดโดย whuber ประเด็นของทิมคือไม่จำเป็นต้องพิจารณาพวกเขาว่าเป็นการประเมินอะไรเลยน่าสนใจแม้ว่ามันอาจจะเป็นเช่นนั้น
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.