เมื่อใดที่จะใช้เฟรมเวิร์ก Fisher และ Neyman-Pearson


73

ฉันอ่านมากเมื่อเร็ว ๆ นี้เกี่ยวกับความแตกต่างระหว่างวิธีการทดสอบสมมติฐานของฟิชเชอร์กับโรงเรียนแห่งความคิดของเนย์แมน - เพียร์สัน

คำถามของฉันคือไม่สนใจการคัดค้านทางปรัชญาสักครู่; เมื่อใดที่เราควรใช้วิธีการของชาวประมงในการสร้างแบบจำลองทางสถิติและเมื่อใดควรใช้วิธีการของเนย์แมน - เพียร์สันในระดับนัยสำคัญและอื่น ๆ ? มีวิธีปฏิบัติหรือไม่ในการตัดสินใจเลือกมุมมองที่จะรับรองในปัญหาการปฏิบัติที่ได้รับ?


คุณอ่านเรื่องนี้จากที่ไหน กรุณาอ้างอิงแหล่งที่มาของคุณ
xmjx

8
ดูตัวอย่างได้ที่นี่ ( jstor.org/stable/2291263 ) หรือที่นี่ ( stats.org.uk/statistical-inference/Lenhard2006.pdf )
Stijn

คำตอบ:


83

|x¯-100|

ฟิชเชอร์คิดว่าค่า p สามารถตีความได้ว่าเป็นหลักฐานที่ต่อเนื่องกับสมมติฐานว่าง ไม่มีค่าคงที่พิเศษซึ่งผลลัพธ์กลายเป็น 'สำคัญ' วิธีที่ฉันมักจะพยายามทำสิ่งนี้ให้กับผู้คนก็คือชี้ให้เห็นว่าสำหรับทุกเจตนารมณ์และจุดประสงค์ p = .049 และ p = .051 ประกอบด้วยหลักฐานจำนวนเท่ากันกับสมมติฐานว่าง (cf. @ คำตอบของ Henrik ที่นี่ ) .

บนมืออื่น ๆ , Neyman และเพียร์สันคิดว่าคุณสามารถใช้ p-value เป็นส่วนหนึ่งของกรงเล็บกระบวนการตัดสินใจ ในตอนท้ายของการสอบสวนคุณต้องปฏิเสธสมมติฐานว่างหรือไม่สามารถปฏิเสธสมมติฐานว่างได้ นอกจากนี้สมมติฐานว่างอาจเป็นจริงหรือไม่จริงก็ได้ ดังนั้นจึงมีความเป็นไปได้ทางทฤษฎีสี่ประการ (แม้ว่าจะอยู่ในสถานการณ์ใดก็ตามมีเพียงสอง): คุณสามารถตัดสินใจได้อย่างถูกต้อง (ไม่สามารถปฏิเสธความจริง - หรือปฏิเสธสมมติฐาน - โมฆะเท็จ) หรือคุณสามารถพิมพ์ได้ ข้อผิดพลาด I หรือ type II (โดยการปฏิเสธ null จริงหรือล้มเหลวในการปฏิเสธสมมติฐาน null ที่ผิดพลาดตามลำดับ) (โปรดทราบว่า p-value นั้นไม่เหมือนกับอัตราความผิดพลาดประเภทที่ฉันพูดถึงที่นี่αพี<α

Fisherian และ Neyman เพียร์สันวิธีการที่มีไม่เหมือนกัน ความขัดแย้งหลักของกรอบการทำงานของเนย์แมน - เพียร์สันคือเมื่อสิ้นสุดการศึกษาคุณต้องตัดสินใจและเดินออกไป นักวิจัยเข้าหา Fisher ด้วยผลลัพธ์ที่“ ไม่สำคัญ” เมื่อถามถึงสิ่งที่เขาควรทำและฟิชเชอร์กล่าวว่า 'ไปหาข้อมูลเพิ่มเติม'


โดยส่วนตัวแล้วฉันพบว่าตรรกะที่สง่างามของวิธี Neyman-Pearson น่าดึงดูดมาก แต่ฉันคิดว่ามันไม่เหมาะสมเสมอไป ในใจของฉันต้องมีเงื่อนไขอย่างน้อยสองเงื่อนไขก่อนที่จะพิจารณากรอบการทำงานของ Neyman-Pearson:

  1. ควรมีสมมติฐานทางเลือกเฉพาะบางประการ (เอฟเฟกต์ขนาด ) ที่คุณสนใจด้วยเหตุผลบางอย่าง (ฉันไม่สนใจว่าขนาดเอฟเฟกต์คืออะไรเหตุผลของคุณคือไม่ว่าจะเป็นแบบที่ดีหรือเชื่อมโยงกันเป็นต้นว่าคุณมีขนาดเดียว)
  2. ควรมีเหตุผลบางอย่างที่สงสัยว่าผลกระทบจะเป็น 'สำคัญ' หากสมมติฐานทางเลือกเป็นจริง (ในทางปฏิบัติสิ่งนี้มักจะหมายความว่าคุณทำการวิเคราะห์พลังงานและมีข้อมูลเพียงพอ)

เมื่อไม่ปฏิบัติตามเงื่อนไขเหล่านี้ค่า p ยังคงสามารถตีความได้ตามความคิดของฟิชเชอร์ ยิ่งไปกว่านั้นมันดูเหมือนว่าสำหรับฉันที่ส่วนใหญ่เงื่อนไขเหล่านี้จะไม่พบ ต่อไปนี้เป็นตัวอย่างง่ายๆที่นึกถึงเมื่อมีการทดสอบ แต่ไม่ตรงตามเงื่อนไขข้างต้น:

  • ANOVA ของ Omnibus สำหรับแบบจำลองการถดถอยหลายตัว (เป็นไปได้ที่จะหาว่าพารามิเตอร์ลาดเอียงที่ไม่เป็นศูนย์ทั้งหมดมารวมกันเพื่อสร้างพารามิเตอร์ที่ไม่เป็นศูนย์กลางสำหรับการแจกแจงแบบ Fแต่มันไม่ง่ายเลยสำหรับฉัน ทำมัน)
  • W
  • ค่าของการทดสอบความสม่ำเสมอของความแปรปรวน (เช่นการทดสอบของ Levene ; ความเห็นเดียวกันกับข้างบน)
  • การทดสอบอื่น ๆ เพื่อตรวจสอบสมมติฐาน ฯลฯ
  • t-tests ของ covariates นอกเหนือจากตัวแปรอธิบายของความสนใจหลักในการศึกษา
  • การวิจัยเบื้องต้น / การสำรวจ (เช่นการศึกษานำร่อง)

แม้ว่านี่จะเป็นหัวข้อที่เก่ากว่า แต่คำตอบก็น่ายินดีมาก +1
Stijn

+1 คำตอบยอดเยี่ยม! ฉันประทับใจในความสามารถของคุณในการอธิบายแนวคิดเหล่านี้ในลักษณะที่กระชับ
COOLSerdash

1
นี่เป็นคำตอบที่ยอดเยี่ยมจริงๆ @gung
Patrick S. Forscher

5
AFAIK Neyman-Pearson ไม่ได้ใช้ค่าฟิชเชอร์ p ดังนั้นเกณฑ์ "p <alpha" สิ่งที่คุณเรียกว่า "Neyman-Pearson" จริงๆแล้วคือ "การทดสอบนัยสำคัญ Null-hypothesis hypothesis" (ลูกผสมของ Fisher และ NP) ไม่ใช่ทฤษฎีการตัดสินใจของ Neyman-Pearson ที่บริสุทธิ์
แฟรงค์

"ถ้าค่าอ้างอิงเป็นพารามิเตอร์ประชากรจริง" เพื่อความแม่นยำมันคือ "ถ้าการแจกแจงความน่าจะเป็นคือสิ่งที่ถูกระบุในสมมติฐานว่าง" สมมติฐานว่างไม่เพียง แต่ระบุสถิติสรุปเช่นค่าเฉลี่ย แต่เป็นการกระจายความน่าจะเป็นทั้งหมด บ่อยครั้งที่ตระกูลการแจกจ่ายถูกนำมาเป็นนัย (เช่นการแจกแจงแบบปกติ) ณ จุดที่ระบุพารามิเตอร์นั้นจะระบุการแจกแจง
สะสม

18

การปฏิบัติจริงอยู่ในสายตาของคนดู แต่;

  • การทดสอบความสำคัญของฟิชเชอร์สามารถตีความได้ว่าเป็นวิธีการตัดสินใจว่าข้อมูลบ่งชี้ `สัญญาณ 'ที่น่าสนใจหรือไม่ เราอาจปฏิเสธสมมติฐานว่าง (ซึ่งอาจเป็นข้อผิดพลาด Type I) หรือไม่พูดอะไรเลย ตัวอย่างเช่นในแอปพลิเคชั่น 'omics' ที่ทันสมัยการตีความนี้เหมาะกับ; เราไม่ต้องการสร้างข้อผิดพลาด Type I มากเกินไปเราต้องการดึงสัญญาณที่น่าตื่นเต้นที่สุดแม้ว่าเราอาจจะพลาด

  • สมมติฐานของเนย์แมน - เพียร์สันสมเหตุสมผลเมื่อมีทางเลือกสองอย่างที่แยกจากกัน (เช่น Higgs Boson ทำหรือไม่มี) ระหว่างที่เราตัดสินใจ เช่นเดียวกับความเสี่ยงของข้อผิดพลาด Type I ที่นี่เราสามารถสร้างข้อผิดพลาด Type II - เมื่อมีสัญญาณจริง แต่เราบอกว่ามันไม่ได้อยู่ที่นั่นทำให้การตัดสินใจ 'null' อาร์กิวเมนต์ของ NP คือว่าโดยไม่ทำอัตราความผิดพลาดประเภทที่ 1 มากเกินไปเราต้องการลดความเสี่ยงของข้อผิดพลาด Type II ให้น้อยที่สุด

บ่อยครั้งที่ทั้งสองระบบดูเหมือนจะไม่สมบูรณ์แบบตัวอย่างเช่นคุณอาจต้องการการประมาณค่าจุดและการวัดความไม่แน่นอนที่เกี่ยวข้อง นอกจากนี้อาจไม่สำคัญว่าคุณจะใช้รุ่นใดเพราะคุณรายงานค่า p และปล่อยการตีความการทดสอบไปยังผู้อ่าน แต่หากต้องการเลือกระหว่างแนวทางด้านบนให้ระบุว่าข้อผิดพลาด Type II นั้นเกี่ยวข้องกับแอปพลิเคชันของคุณหรือไม่


5

ประเด็นทั้งหมดคือคุณไม่สามารถเพิกเฉยต่อความแตกต่างทางปรัชญา ขั้นตอนทางคณิตศาสตร์ในสถิติไม่เพียง แต่โดดเดี่ยวเป็นสิ่งที่คุณนำไปใช้โดยไม่ต้องมีสมมติฐานพื้นฐานทฤษฎี ... ปรัชญา

ที่กล่าวว่าหากคุณยืนยันที่จะยึดมั่นกับปรัชญาบ่อยๆอาจมีปัญหาบางประการที่ Neyman-Pearson ต้องได้รับการพิจารณาอย่างแท้จริง พวกเขาต้องการทดสอบซ้ำหลายครั้งเช่นการควบคุมคุณภาพหรือ fMRI การตั้งค่าอัลฟาที่เฉพาะเจาะจงไว้ล่วงหน้าและพิจารณา Type I, Type II และเฟรมเวิร์กพลังงานทั้งหมดจะมีความสำคัญมากขึ้นในการตั้งค่านั้น


ฉันไม่ได้ยืนยันที่จะยึดติดกับสถิติบ่อยครั้ง แต่ฉันก็แค่สงสัยว่ามีสถานการณ์ที่การใช้มุมมองฟิชเชอร์หรือเนย์แมน - เพียร์สันอาจเป็นไปตามธรรมชาติ ฉันรู้ว่ามีความแตกต่างทางปรัชญา แต่บางทีก็อาจจะมีด้านที่ต้องพิจารณาด้วยเช่นกัน?
Stijn

3
โอเคสวยมากแค่สิ่งที่ฉันพูด ... เนย์แมน - เพียร์สันมีส่วนเกี่ยวข้องกับสถานการณ์ที่คุณทำการทดสอบจำนวนมากโดยไม่มีการสนับสนุนทางทฤษฎีในแต่ละข้อ มุมมองฟิชเชอร์ไม่ได้แก้ไขปัญหานั้น
จอห์น

1

ความเข้าใจของฉันคือ: p-value คือบอกเราว่าจะเชื่ออะไร (ยืนยันทฤษฎีที่มีข้อมูลเพียงพอ) ในขณะที่วิธี Neyman-Pearson คือการบอกเราว่าต้องทำอย่างไร (ทำการตัดสินใจที่ดีที่สุดแม้จะมีข้อมูล จำกัด ) ดังนั้นสำหรับฉันแล้วค่า p เล็ก (ค่าเล็ก) นั้นเข้มงวดกว่าในขณะที่วิธี Neyman-Pearson เป็นวิธีปฏิบัติมากกว่า นั่นอาจเป็นเหตุผลที่ค่า p ถูกใช้มากขึ้นในการตอบคำถามทางวิทยาศาสตร์ในขณะที่ Neyman และ Pearson ถูกนำมาใช้มากขึ้นในการตัดสินใจเชิงสถิติ / เชิงปฏิบัติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.