เข้าใจผิดเกี่ยวกับค่า P หรือไม่


16

ดังนั้นฉันจึงอ่านมากเกี่ยวกับวิธีตีความค่า P อย่างถูกต้องและจากสิ่งที่ฉันอ่านค่า p บอกว่าไม่มีความน่าจะเป็นที่สมมติฐานว่างเป็นจริงหรือเท็จ อย่างไรก็ตามเมื่ออ่านคำสั่งต่อไปนี้:

p - value แสดงถึงความน่าจะเป็นที่ทำให้เกิดข้อผิดพลาดประเภทที่ 1 หรือปฏิเสธสมมติฐานว่างเมื่อเป็นจริง ยิ่งค่า p น้อยลงเท่าใดความน่าจะเป็นที่คุณจะปฏิเสธสมมติฐานที่ผิดพลาดนั้นจะผิดไป

แก้ไข: แล้ว 5 นาทีต่อมาฉันอ่าน:

การตีความค่า P ไม่ถูกต้องเป็นเรื่องธรรมดามาก ข้อผิดพลาดที่พบบ่อยที่สุดคือการตีความค่า P เนื่องจากความน่าจะเป็นในการทำผิดพลาดโดยการปฏิเสธสมมติฐานว่างเปล่าที่แท้จริง (ข้อผิดพลาด Type I)

สิ่งนี้ทำให้ฉันสับสน อันไหนที่ถูก? และทุกคนสามารถอธิบายวิธีการแปลค่า p อย่างถูกต้องและมันเกี่ยวข้องกับความน่าจะเป็นในการทำข้อผิดพลาดประเภทที่ 1 ได้อย่างไร


1
The p – value represents the probability of making a type I error, or rejecting the null hypothesis when it is trueค่า p แสดงถึงความน่าจะเป็น apriori ในการสร้างข้อผิดพลาดประเภทที่ 1 นั่นคือการปฏิเสธสมมติฐานว่างภายใต้สมมติฐานที่ว่ามันเป็นความจริง
ttnphns

4
@ พอล: ความน่าจะเป็นที่จะปฏิเสธเงื่อนไขว่างบนโมฆะที่เป็นจริงคือความน่าจะเป็นของความผิดพลาดประเภทที่ 1 ซึ่งไม่เหมือนกับ p-value ความน่าจะเป็นของความผิดพลาดประเภทที่ 1 มีค่าเท่ากัน (สำหรับตัวแปรสุ่มต่อเนื่อง) ไปยังระดับความสำคัญที่เลือกได้โปรดดูคำตอบของฉันด้านล่าง

ใช่ฉันเห็นแล้วคุณพูดถูก
เปาโล

4
@fcoppens ความน่าจะเป็นของความผิดพลาดประเภทที่ 1 จะเท่ากับระดับอัลฟาที่เลือกไว้ล่วงหน้าเท่านั้นหากคุณกำหนดสมมติฐานว่างเป็นจริง ในกรณีที่ไม่มีเงื่อนไขคุณไม่ทราบว่าเป็นโมฆะจริงหรือเท็จและเพื่อให้คุณสามารถระบุความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 หากคุณให้โอกาสก่อนหน้านี้สำหรับความจริงของโมฆะ
Michael Lew - คืนสถานะโมนิก้า

@Michael Lew: เงื่อนไขของโมฆะนี้ถูกกล่าวถึงในคำตอบของฉันด้านล่าง?

คำตอบ:


25

เนื่องจากความคิดเห็นของคุณฉันจะแยกออกเป็นสองส่วน:

P-ค่า

ในการทดสอบสมมติฐานทางสถิติคุณสามารถค้นหา 'หลักฐานทางสถิติ' สำหรับสมมติฐานทางเลือก ดังที่ฉันอธิบายในสิ่งต่อไปนี้หากเราไม่ยอมรับสมมติฐานว่าง มันคล้ายกับ 'พิสูจน์โดยความขัดแย้ง' ในวิชาคณิตศาสตร์

ดังนั้นหากเราต้องการที่จะหาหลักฐานทางสถิติ 'จากนั้นเราคิดตรงข้ามซึ่งเราแสดงของสิ่งที่เราพยายามที่จะพิสูจน์ซึ่งเราเรียกว่าเอช 1 หลังจากนี้เราวาดตัวอย่างและจากตัวอย่างเราคำนวณสถิติทดสอบที่เรียกว่า (เช่นค่า t ในการทดสอบ t)H0H1

จากนั้นเมื่อเราสมมติว่านั้นเป็นจริงและตัวอย่างของเราถูกสุ่มจากการแจกแจงภายใต้H 0เราสามารถคำนวณความน่าจะเป็นของการสังเกตค่าที่สูงกว่าหรือเท่ากับค่าที่ได้จากตัวอย่าง (สุ่ม) ของเรา ความน่าจะเป็นนี้เรียกว่าค่า pH0H0

หากค่านี้เป็น '' พอเพียง '' กล่าวคือมีขนาดเล็กกว่าระดับนัยสำคัญที่เราเลือกไว้เราจะปฏิเสธและเราพิจารณาว่าH 1นั้นคือ 'การพิสูจน์ทางสถิติ'H0H1

มีหลายสิ่งที่สำคัญในการทำเช่นนี้:

  • เราได้รับความน่าจะเป็นภายใต้สมมติฐานที่ว่าเป็นจริงH0
  • เราได้สุ่มตัวอย่างจากการกระจายที่สันนิษฐานภายใต้H0
  • เราตัดสินใจที่จะพบหลักฐานสำหรับหากสถิติการทดสอบที่ได้จากตัวอย่างสุ่มมีความน่าจะเป็นต่ำ ดังนั้นจึงเป็นไปไม่ได้ที่จะเกินในขณะที่H 0เป็นจริงและในกรณีเหล่านี้เราทำข้อผิดพลาดประเภทที่ 1 H1H0

ดังนั้นอะไรคือข้อผิดพลาดแบบที่ 1: ข้อผิดพลาดแบบที่ 1 เกิดขึ้นเมื่อตัวอย่างที่สุ่มมาจากนำไปสู่ข้อสรุปว่าH 0เป็นเท็จในความเป็นจริงขณะที่มันเป็นจริงH0H0

โปรดทราบว่านี่หมายความว่าค่าp ไม่ใช่ความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 อันที่จริงข้อผิดพลาดประเภทที่ 1 คือการตัดสินใจที่ผิดพลาดโดยการทดสอบและการตัดสินใจสามารถทำได้โดยการเปรียบเทียบค่า p-value กับระดับนัยสำคัญที่เลือกไว้กับค่า p-value เพียงอย่างเดียวอย่างใดอย่างหนึ่งไม่สามารถตัดสินใจได้ p-value ไปยังระดับนัยสำคัญที่เลือกได้ซึ่งการตัดสินใจและตราบใดที่ไม่มีการตัดสินใจข้อผิดพลาดประเภทที่ 1 ก็ยังไม่ถูกกำหนดไว้

ค่า p คืออะไร? การปฏิเสธที่ไม่ถูกต้องของนั้นเกิดจากการที่เราวาดตัวอย่างแบบสุ่มภายใต้H 0ดังนั้นอาจเป็นไปได้ว่าเรามี '' โชคร้าย '' โดยการวาดตัวอย่างและสิ่งที่นำไปสู่ ​​'โชคร้าย' เป็นการปฏิเสธที่ผิดพลาดของH 0H0H0H0 0ดังนั้นค่า p (แม้ว่านี่จะไม่ถูกต้องทั้งหมด) ก็เหมือนกับความน่าจะเป็นที่จะวาด '' ตัวอย่างที่ไม่ดี '' การตีความที่ถูกต้องของ p-value คือความน่าจะเป็นที่สถิติการทดสอบสูงกว่าหรือเท่ากับค่าของสถิติการทดสอบที่ได้จากตัวอย่างที่สุ่มแบบสุ่มภายใต้H0


อัตราการค้นพบที่ผิด (FDR)

ตามที่อธิบายไว้ข้างต้นในแต่ละครั้งสมมติฐานถูกปฏิเสธพิจารณานี้เป็น 'หลักฐานทางสถิติสำหรับ 1 ดังนั้นเราจึงได้พบความรู้ทางวิทยาศาสตร์ใหม่จึงจะเรียกว่าการค้นพบ อธิบายด้วยข้างต้นคือเราสามารถทำการค้นพบที่ผิดพลาด (เช่นการปฏิเสธH 0 ) เมื่อเราทำข้อผิดพลาดประเภทที่ 1 ในกรณีนี้เรามีความเชื่อผิด ๆ เกี่ยวกับความจริงทางวิทยาศาสตร์ เราต้องการค้นพบสิ่งที่แท้จริงจริง ๆ เท่านั้นดังนั้นเราจึงพยายามทำให้การค้นพบที่ผิดพลาดให้น้อยที่สุดนั่นคือเราจะควบคุมข้อผิดพลาดประเภทที่ 1 มันไม่ได้เป็นเรื่องยากมากที่จะเห็นว่าน่าจะเป็นของความผิดพลาดประเภทคือระดับนัยสำคัญที่เลือกα ดังนั้นเพื่อควบคุมข้อผิดพลาดประเภท I หนึ่งจึงแก้ไขαH1H0αα- ระดับที่สะท้อนถึงความตั้งใจที่จะยอมรับ '' หลักฐานเท็จ ''

โดยสัญชาตญาณนี่หมายความว่าถ้าเราดึงตัวอย่างจำนวนมากและแต่ละตัวอย่างเราทำการทดสอบ ของการทดสอบเหล่านี้จะนำไปสู่ข้อสรุปที่ผิด เป็นสิ่งสำคัญที่จะต้องทราบว่าเรา'เฉลี่ยมากกว่าตัวอย่างจำนวนมาก'; การทดสอบเดียวกันหลายตัวอย่าง α

ถ้าเราใช้ตัวอย่างเดียวกันทำการทดสอบที่แตกต่างกันจำนวนมากเรามีข้อผิดพลาดในการทดสอบหลายครั้ง (ดูที่ anser ของฉันในขอบเขตข้อผิดพลาดที่เหมาะสำหรับครอบครัว: การใช้ชุดข้อมูลอีกครั้งในการศึกษาที่แตกต่างกันของคำถามอิสระ ) ในกรณีนั้นเราสามารถควบคุมอัตราเงินเฟ้อโดยใช้เทคนิคเพื่อควบคุมอัตราความผิดพลาดที่เหมาะกับครอบครัว (FWER)เช่นการแก้ไข Bonferroniα

วิธีการที่แตกต่างกันกว่า FWER คือการควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) ในกรณีนั้นมีการควบคุมจำนวนการค้นพบที่ผิด (FD) ในการค้นพบทั้งหมด (D) ดังนั้นจึงมีการควบคุม , D คือจำนวนของการปฏิเสธH0FDDH0

ดังนั้นความน่าจะเป็นที่ผิดพลาดประเภทที่ 1นั้นเกี่ยวกับการดำเนินการทดสอบเดียวกันกับตัวอย่างที่แตกต่างกันมากมาย สำหรับจำนวนมากของกลุ่มตัวอย่างประเภทที่น่าจะเป็นข้อผิดพลาดที่จะมาบรรจบกันจำนวนตัวอย่างที่นำไปสู่การปฏิเสธเท็จหารด้วยจำนวนของกลุ่มตัวอย่างที่วาด

FDRจะทำอย่างไรกับการทดสอบหลายตัวอย่างเดียวกันและสำหรับจำนวนมากของการทดสอบก็จะมาบรรจบกันกับจำนวนของการทดสอบที่ผิดพลาดประเภทที่ทำ (เช่นจำนวนของการค้นพบที่ผิดพลาด) หารด้วยผลรวมจำนวนการปฏิเสธของH0

โปรดทราบว่าการเปรียบเทียบทั้งสองย่อหน้าข้างต้น:

  1. บริบทแตกต่างกัน หนึ่งการทดสอบและตัวอย่างจำนวนมากเมื่อเทียบกับการทดสอบจำนวนมากและหนึ่งตัวอย่าง
  2. ตัวหารสำหรับการคำนวณความน่าจะเป็นที่ผิดพลาดประเภทที่ 1 นั้นแตกต่างจากตัวหารสำหรับการคำนวณ FDR อย่างชัดเจน ตัวเศษมีลักษณะคล้ายกัน แต่มีบริบทที่แตกต่างกัน

FDR บอกคุณว่าถ้าคุณทำการทดสอบหลายอย่างในตัวอย่างเดียวกันและคุณพบ 1,000 การค้นพบ (เช่นการปฏิเสธของ ) จากนั้นด้วย FDR ที่ 0.38 คุณจะมีการค้นพบที่ผิดพลาด0.38 × 1,000H00.38×1000


5
The correct interpretation of the p-value is that it is the probability that the test-statistic exceeds the value of the test-statistic derived from a randomly drawn sample under H0เป็นเช่นนั้นหรือ ไม่ใช่ "เท่ากับหรือสูงกว่า" ใช่หรือไม่ P-value คือโพรบที่อยู่ภายใต้ H0 จริงเราสังเกตความแตกต่างหรือความสัมพันธ์นี้หรือดีกว่าที่สังเกตจริง
ttnphns

@ttnphns สำหรับสถิติการทดสอบต่อเนื่องไม่มีความแตกต่างเนื่องจากการวัดจุดเป็นศูนย์ สำหรับสถิติการทดสอบแบบไม่ต่อเนื่องคุณถูกต้อง (+1) ฉันเปลี่ยนข้อความตาม

1
คุณวาดความแตกต่างที่มีประโยชน์มากระหว่างค่า P กับอัตราความผิดพลาดประเภทที่ 1 แต่ฉันคิดว่าคุณต้องระวังคำว่า "พิสูจน์" มากขึ้น การเพิ่มโมดิฟายเออร์ "สถิติ" ไม่ได้ทำให้นิ่มลงอย่างเพียงพอในความคิดของฉัน
Michael Lew - คืนสถานะโมนิก้า

1
คุณได้จัดการกับหลักฐานราวกับว่ามันมีเพียงสถานะไบนารี: มีอยู่และไม่มีอยู่ ในความเข้าใจมาตรฐานของหลักฐานที่ไม่ใช่สถิติแนวคิดของคำมีการให้คะแนนอย่างช้าๆและมันซับซ้อนกว่าความแข็งแกร่งเพียงมิติเดียวที่สามารถจับภาพได้ ความยากลำบากมาจากความไม่ลงรอยกันของการพิจารณาอัตราความผิดพลาดพร้อมการตีความหลักฐานทั่วไป ฉันสนใจที่จะอ่านบัญชีใด ๆ ที่รวบรวมการตีความที่ไม่ใช่แบบไบนารีของ 'หลักฐาน' ภายในกรอบของ FDR (ฉันยังไม่เคยเห็นเลย)
Michael Lew - คืนสถานะโมนิก้า

1
ขอบคุณสำหรับการแก้ไข ฉันได้ทำการเปลี่ยนแปลงที่เกี่ยวข้องเมื่อคืนและให้เครดิตโพสต์ของคุณ
Antoni Parellada

4

คำสั่งแรกไม่เป็นความจริงอย่างเคร่งครัด

จากกระดาษที่ดีเกี่ยวกับความเข้าใจผิดที่มีนัยสำคัญ: ( http://myweb.brooklyn.liu.edu/cortiz/PDF%20Files/Misinterpretations%20of%20Significance.pdf )

"[คำสั่งนี้] อาจมีลักษณะคล้ายกับคำจำกัดความของข้อผิดพลาดของ Type I (เช่นความน่าจะเป็นที่จะปฏิเสธ H0 ถึงแม้ว่ามันจะเป็นจริง) แต่เมื่อปฏิเสธ H0 จริงการตัดสินใจนี้จะผิดถ้าหาก H0 เป็นจริงดังนั้นความน่าจะเป็น "ที่คุณตัดสินใจผิด" คือ p (H0) และความน่าจะเป็นนี้ ... ไม่สามารถได้มาจากการทดสอบนัยสำคัญสมมุติฐานว่าง "

เพื่อประเมินความน่าจะเป็นที่คุณปฏิเสธ H0 อย่างไม่ถูกต้องคุณต้องมีความน่าจะเป็นที่ H0 เป็นจริงซึ่งคุณไม่สามารถรับได้โดยใช้การทดสอบนี้


ขอขอบคุณ! ดังนั้นเมื่อฉันอ่านส่วนแรกของstatsdonewrong.com/p-value.htmlผู้เขียนสรุปว่า FDR คือ 38% ดังนั้นความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 คือ 38%
rb612

FDR คืออัตราการค้นพบที่ผิดและแตกต่างจากข้อผิดพลาดประเภทที่ 1 มากดังนั้นคำตอบสำหรับคำถามของคุณคือไม่ใช่ FDR จะทำอย่างไรกับการทดสอบหลายเช่นเมื่อคุณทำการทดสอบหลายตัวอย่างเดียวกันเห็นstats.stackexchange.com/questions/164181/... FDR เป็นทางเลือกสำหรับ Familywise Error Rate แต่เพื่ออธิบายว่าจำนวนอักขระในความคิดเห็นนั้น จำกัด เกินไป

ฉันเพิ่มส่วนที่สองในคำตอบเพื่ออธิบาย FDR

1
เนื่องจากเป็นไปไม่ได้ที่จะกำหนดความน่าจะเป็นของ H0 ที่เป็นจริงโดยไม่ต้องมีก่อนจึงเป็นไปไม่ได้ที่จะกำหนด FDR หากไม่มีก่อน ระมัดระวังในการตีความเอกสาร FDR ของคุณเพราะนักบวชที่ใช้ในเอกสารเหล่านั้นอาจไม่จำเป็นต้องเกี่ยวข้องกับสถานการณ์การทดลองของคุณเอง
Michael Lew - คืนสถานะโมนิก้า

1

ในความหมายที่ถูกต้องของ p-value เป็นเงื่อนไขน่าจะเป็นของผลอย่างน้อยเป็นสื่อกระแสไฟฟ้าสมมติฐานทางเลือกที่เป็นค่าสังเกต (อย่างน้อยเป็น "ที่สุด") สมมติว่าสมมติฐานที่เป็นความจริง การตีความที่ไม่ถูกต้องโดยทั่วไปเกี่ยวข้องกับความน่าจะเป็นที่ขอบหรือการสลับเงื่อนไข:

p-value=P(อย่างน้อยที่สุดเท่าที่เห็นผล|H0)P(พิมพ์ผิดพลาด).

-1

p-value ช่วยให้เราสามารถกำหนดได้ว่าสมมติฐานว่าง (หรือสมมติฐานที่อ้างสิทธิ์) สามารถปฏิเสธได้หรือไม่ หากค่า p-value น้อยกว่าระดับนัยสำคัญαดังนั้นสิ่งนี้จึงแสดงถึงผลลัพธ์ที่มีนัยสำคัญทางสถิติและสมมติฐานว่างควรถูกปฏิเสธ ถ้า p-value มากกว่าระดับนัยสำคัญαดังนั้นสมมติฐานว่างจะไม่สามารถปฏิเสธได้ นี่คือเหตุผลทั้งหมดในการค้นหาค่า p หากคุณใช้ตารางหรือใช้เครื่องคิดเลขออนไลน์เช่นเครื่องคิดเลขp-value นี้นี้เพื่อค้นหาค่า p จากค่าสถิติการทดสอบ

ตอนนี้ฉันรู้แล้วว่าคุณพูดถึงข้อผิดพลาดของ type I และ type II สิ่งนี้ไม่มีส่วนเกี่ยวข้องกับค่า p สิ่งนี้เกี่ยวข้องกับข้อมูลดั้งเดิมเช่นขนาดตัวอย่างที่ใช้และค่าที่ได้รับสำหรับข้อมูล หากขนาดตัวอย่างเล็กเกินไปตัวอย่างนี้อาจทำให้เกิดข้อผิดพลาดประเภทที่ 1


2
-1 ฉันขอโทษที่ยินดีต้อนรับคุณสู่เว็บไซต์ของเราด้วย downvote แต่คำตอบนี้ไม่ถูกต้องอย่างชัดเจน: ไม่ใช่กรณีที่ค่า p คือความน่าจะเป็นที่แท้จริงของสมมติฐานว่าง นี้จะกล่าวถึงอย่างกว้างขวางในหลายกระทู้เกี่ยวกับ P-ค่าและการทดสอบสมมติฐานเช่นstats.stackexchange.com/questions/31
whuber

1
ฉันแก้ไขคำตอบดั้งเดิมเล็กน้อยเพื่อให้แม่นยำยิ่งขึ้น
user1445657
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.