ตัวอย่างของการศึกษาโดยใช้ p <0.001, p <0.0001 หรือแม้แต่ค่า p ต่ำกว่า?


11

ฉันมาจากสังคมศาสตร์โดยที่ p <0.05 เป็นบรรทัดฐานค่อนข้างมากโดยที่ p <0.1 และ p <0.01 ก็ปรากฏขึ้นด้วย แต่ฉันสงสัยว่า: สาขาวิชาใดถ้ามีให้ใช้ค่า p ต่ำกว่าเป็นเรื่องธรรมดา มาตรฐาน?

คำตอบ:


9

ความคิดเห็นของฉันคือว่ามัน (และควร) ไม่ขึ้นอยู่กับสาขาวิชา ตัวอย่างเช่นคุณอาจทำงานในระดับความสำคัญต่ำกว่าถ้าเช่นคุณกำลังพยายามทำซ้ำการศึกษาที่มีผลลัพธ์ทางประวัติศาสตร์หรือเป็นที่ยอมรับ (ฉันสามารถคิดถึงการศึกษาหลายเรื่องเกี่ยวกับStroop effectซึ่งนำไปสู่ ในช่วงไม่กี่ปีที่ผ่านมา) จำนวนนั้นจะต้องพิจารณา "ธรณีประตู" ที่ต่ำกว่าภายในกรอบคลาสสิกของเนย์แมน - เพียร์สันสำหรับการทดสอบสมมติฐาน อย่างไรก็ตามความสำคัญทางสถิติและการปฏิบัติ (หรือเนื้อหาสาระ) เป็นอีกเรื่องหนึ่งp<0.001

sidenote "ระบบดาว" ดูเหมือนว่าจะมีคำถามทางวิทยาศาสตร์มาตั้งแต่ต้นยุค 70 แต่เห็นว่าโลกรอบตัว (p <.05) โดยเจโคเฮน ( นักจิตวิทยาอเมริกัน , 1994, 49 (12), 997-1003) แม้ว่าข้อเท็จจริงที่ว่าสิ่งที่เราต้องการรู้มักจะได้รับข้อมูลที่ฉันสังเกตเห็นความน่าจะเป็นที่เป็นจริงคืออะไร อย่างไรก็ตามมีการอภิปรายที่ดีเกี่ยวกับ " Why P = 0.05? " โดย Jerry DallalH0


โปรดแก้ไขความคิดของฉัน: บางสาขาอาจมุ่งเน้นไปที่การพูดการสัมผัสทางชีวเคมีและด้วยเหตุนี้จึงต้องการใช้ p <0.001 เพื่อป้องกันข้อผิดพลาดประเภทที่ 1 ที่อาจนำไปสู่อันตรายต่อสุขภาพ นอกจากนี้จากบทความของAm Psychฉันยังจำการศึกษาที่ยอดเยี่ยมในAm J ของ Sociolหรือวารสารทางสังคมศาสตร์ที่ฉันติดตาม ที่ฉันชอบคือของหลักสูตรZiliak และ McCloskey
คุณพ่อ

1
สิ่งที่คุณอธิบายที่นี่ฟังดูย้อนหลัง ฉันกังวลเกี่ยวกับข้อผิดพลาดของ Type II โดยบอกว่าไม่มีอะไรเกิดขึ้นเมื่อมีการสัมผัสทางชีวเคมี ในกรณีนั้นฉันอาจตั้งค่าอัลฟาให้สูงขึ้นไม่ต่ำกว่า
John

ฉันทำงานภายใต้ข้อสันนิษฐานว่าแบบทดสอบจะมีรูปแบบ: "มาประเมินกันว่าการตั้งครรภ์เกี่ยวข้องกับ HRT หรือไม่" (ในกรณีนั้นข้อผิดพลาด Type I นั้นรุนแรงกว่าข้อผิดพลาด Type II แต่บางทีการออกแบบนี้ไม่ได้มาตรฐาน)
คุณพ่อ

7

มันอาจจะหายากสำหรับทุกคนที่จะใช้ระดับอัลฟาที่กำหนดไว้ล่วงหน้าต่ำกว่าพูดว่า 0.01 แต่ก็ไม่ได้หาได้ยากนักที่คนอ้างว่าอัลฟาโดยนัยน้อยกว่า 0.01 ในความเชื่อที่ผิดที่ว่าค่า P ที่สังเกตเห็นน้อยกว่า 0.01 เหมือนกับ Neyman-Pearson alpha ที่น้อยกว่า 0.01

ค่า P ของฟิชเชอร์ไม่เหมือนหรือเปลี่ยนได้ด้วยอัตราความผิดพลาดของ Neyman-Pearson ไม่ได้หมายความว่าเว้นแต่จะมีการตัดสินใจใช้เป็นระดับวิกฤตสำหรับความสำคัญเมื่อการออกแบบได้รับการออกแบบ หากคุณใช้อย่างมีนัยสำคัญแล้วหมายความว่ามีความน่าจะเป็นมีการเรียกร้องค่าบวกที่ผิดพลาดα = 0.0023 0.0023 P = 0.05 P = 0.0023 0.05P=0.0023α=0.00230.0023P=0.05P=0.00230.05

มาดูHubbard และคณะ ความสับสนเกี่ยวกับมาตรการหลักฐาน (p's) กับข้อผิดพลาด (α's) ในการทดสอบทางสถิติแบบดั้งเดิม ฉบับอเมริกันสถิติ (2546) ฉบับ 57 (3)


ฉันเข้าใจความแตกต่างแม้ว่าฉันอาจจะทำผิดพลาดเป็นประจำ แต่คำถามของฉันคือมีการใช้งานตามปกติที่ไหนสักแห่งที่นั่นเช่น p <.0001 หรือไม่ หรือที่จะกล่าวยั่วโมโห p <.05 ลัทธิสากลคืออะไร?
คุณพ่อ

'ลัทธิ' ของ P <0.05 อาจเป็นสากลเกือบ แต่มันเป็นไปไม่ได้ที่จะมั่นใจในการยืนยันใด ๆ ในประเด็นนี้เพราะข้อยกเว้นที่ชัดเจนมีแนวโน้มที่จะเป็นผลมาจากวิธีการผสมแบบไม่รู้วิธีของฟิชเชอร์และ Neyman-Pearson ในงานวิจัยทางเภสัชวิทยาขั้นพื้นฐานแทบจะไม่เคยมีคำสั่งที่ชัดเจนเกี่ยวกับการใช้อัตราความผิดพลาดของ Neyman-Pearson
Michael Lew

ขอบคุณสำหรับตัวอย่าง ฉันรู้สึกประทับใจน้อยลงจากการวิจัยทางเภสัชวิทยาด้วยเหตุผลหลาย ๆ อย่าง (ไม่ใช่ทั้งหมดทางวิทยาศาสตร์) ...
คุณพ่อ

1
คุณไม่ควรแสดงความคิดเห็นของฉันเกี่ยวกับการวิจัยทางเภสัชวิทยาเบื้องต้นเป็นคำวิจารณ์ที่เฉพาะเจาะจงของสาขานั้นมันเป็นเพียงวินัยของตัวเองโดยเฉพาะและเป็นคนที่ฉันมีประสบการณ์มากที่สุด ฉันมั่นใจว่าคุณจะได้พบกับหลายพื้นที่ในการวิจัยขั้นพื้นฐานที่มีข้อบกพร่องเดียวกันกับค่า P แบบผสมและอัตราความผิดพลาด
Michael Lew

ไม่ต้องกังวลฉันสามารถจินตนาการได้อย่างง่ายดายว่าข้อบกพร่องนี้เดินทางได้ดีในหลาย ๆ สาขา
คุณพ่อ

3

ฉันไม่คุ้นเคยกับวรรณกรรมนี้มากนัก แต่ฉันเชื่อว่านักฟิสิกส์บางคนใช้เกณฑ์ต่ำกว่ามากในการทดสอบทางสถิติ แต่พวกเขาพูดถึงมันแตกต่างกันเล็กน้อย ตัวอย่างเช่นหากการวัดเป็นสามส่วนเบี่ยงเบนมาตรฐานจากการทำนายเชิงทฤษฎีจะมีการอธิบายว่าเป็นการเบี่ยงเบน“ สามซิกม่า” โดยทั่วไปนี่หมายความว่าพารามิเตอร์ที่น่าสนใจแตกต่างจากค่าที่ทำนายในการทดสอบ az ด้วยα = .01 ซิกมาสองคร่าวเทียบเท่ากับα = .05 (อันที่จริงแล้วมันคือ 1.96 σ) ถ้าฉันไม่เข้าใจผิดระดับความผิดพลาดมาตรฐานในฟิสิกส์คือ 5 sigma ซึ่งจะเป็นα = 5 * 10 ^ -7

นอกจากนี้ในด้านประสาทวิทยาหรือระบาดวิทยาดูเหมือนว่าจะมีมากขึ้นเรื่อย ๆ ที่จะทำการแก้ไขเพื่อเปรียบเทียบหลาย ๆ อย่างเป็นประจำ ระดับความผิดพลาดของการทดสอบแต่ละครั้งจึงต่ำกว่า p <.01


1
ระบาดวิทยาทางพันธุกรรมใช้ในการศึกษาความสัมพันธ์ของ Genomewide โดยไม่คำนึงถึงจำนวนการทดสอบที่แม่นยำ α=5×10-8
แขกที่เข้าพัก

1

ดังที่บันทึกไว้โดยGaël Laurans เหนือการวิเคราะห์ทางสถิติที่พบปัญหาการเปรียบเทียบหลายครั้งมักจะใช้เกณฑ์ที่อนุรักษ์นิยมมากกว่า อย่างไรก็ตามในสาระสำคัญพวกเขาใช้ 0.05 แต่คูณด้วยจำนวนการทดสอบ เป็นที่ชัดเจนว่ากระบวนการนี้ (การแก้ไข Bonferroni) สามารถนำไปสู่ค่า p ที่น้อยอย่างไม่น่าเชื่อ นั่นเป็นสาเหตุที่ผู้คนในอดีต (ในระบบประสาท) หยุดที่ p <0.001 ปัจจุบันมีการใช้วิธีการอื่น ๆ ของการแก้ไขเปรียบเทียบหลายรายการ (ดูทฤษฎีสนามสุ่มของมาร์คอฟ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.