เกี่ยวกับค่า p ทำไม 1% และ 5% ทำไมไม่ 6% หรือ 10%


80

เกี่ยวกับ s ผมสงสัยว่าทำไม % และ % ดูเหมือนจะเป็นมาตรฐานทองคำสำหรับ ทำไมค่าอื่น ๆ เช่น % หรือ %15"statistical significance"610

มีเหตุผลทางคณิตศาสตร์พื้นฐานสำหรับเรื่องนี้หรือนี่เป็นเพียงการประชุมที่จัดขึ้นอย่างกว้างขวาง?


2
เกิดอะไรขึ้นถ้าทุกคนมี 12 นิ้ว เราจะนับฐาน 12 ไม่ใช่ฐาน 10 และนั่นหมายความว่า "1%" จะเป็น 1/144 หรือ 0.0069444444
Contango

คำตอบ:


77

หากคุณตรวจสอบข้อมูลอ้างอิงด้านล่างคุณจะพบว่ามีการเปลี่ยนแปลงเล็กน้อยในพื้นหลังแม้ว่าจะมีองค์ประกอบทั่วไปอยู่บ้าง

ตัวเลขเหล่านั้นอย่างน้อยก็ส่วนหนึ่งขึ้นอยู่กับความคิดเห็นบางส่วนจากฟิชเชอร์ซึ่งเขากล่าวว่า

(ในขณะที่คุยกันในระดับ 1/20)

มันสะดวกที่จะนำประเด็นนี้มาเป็นข้อ จำกัด ในการตัดสินว่าการเบี่ยงเบนนั้นสำคัญหรือไม่ การเบี่ยงเบนเกินกว่าสองเท่าของค่าเบี่ยงเบนมาตรฐานจึงถือว่าเป็นทางการอย่างมีนัยสำคัญ

ฟิชเชอร์, RA (1925) วิธีการทางสถิติสำหรับการวิจัยแรงงาน , P 47

ในทางกลับกันบางครั้งเขาก็กว้างขึ้น:

หากหนึ่งในยี่สิบดูเหมือนจะไม่ได้ราคาสูงพอเราอาจจะวาดเส้นที่หนึ่งในห้าสิบ (จุดร้อยละ 2) หรือหนึ่งในร้อย (จุดร้อยละ 1) โดยส่วนตัวแล้วผู้เขียนชอบที่จะกำหนดมาตรฐานความสำคัญต่ำที่ 5 เปอร์เซ็นต์และไม่สนใจผลลัพธ์ทั้งหมดที่ล้มเหลวในการเข้าถึงระดับนี้ ความจริงทางวิทยาศาสตร์ควรจะถือว่าเป็นที่ยอมรับเฉพาะในกรณีที่การทดลองการทดลองออกแบบอย่างถูกต้องไม่ค่อยล้มเหลวที่จะให้ระดับนัยสำคัญนี้

ฟิชเชอร์, RA (1926) การจัดเรียงของการทดลองภาคสนาม
วารสารของกระทรวงเกษตรพี 504

ฟิชเชอร์ยังใช้ 5% สำหรับตารางหนังสือของเขา - แต่ตารางอื่น ๆ ของเขาส่วนใหญ่มีระดับนัยสำคัญที่หลากหลายกว่า

ความคิดเห็นบางส่วนของเขาได้แนะนำแนวทางที่เข้มงวดมากขึ้น (เช่นระดับอัลฟาที่ต่ำกว่าหรือสูงกว่า) ในสถานการณ์ที่แตกต่างกัน

การเรียงลำดับดังกล่าวนำไปสู่แนวโน้มที่จะสร้างตารางที่เน้นระดับนัยสำคัญ 5% และ 1% (และบางครั้งกับผู้อื่นเช่น 10%, 2% และ 0.5%) สำหรับความต้องการของค่ามาตรฐานอื่น ๆ ที่จะใช้

อย่างไรก็ตามในบทความนี้ Cowles และ Davis แนะนำว่าการใช้ 5% หรืออย่างน้อยก็ใกล้เคียงกว่าความคิดเห็นของ Fisher

ในระยะสั้นการใช้ 5% ของเรา (และระดับที่น้อยกว่า 1%) เป็นแบบแผนโดยพลการค่อนข้างมาก แต่ผู้คนจำนวนมากดูเหมือนจะรู้สึกว่าสำหรับปัญหามากมายที่พวกเขากำลังอยู่ในประเภทที่เหมาะสม

ไม่มีเหตุผลใดที่ควรใช้ค่าเฉพาะโดยทั่วไป

การอ้างอิงเพิ่มเติม:

Dallal, Gerard E. (2012) คู่มือเล็ก ๆ น้อย ๆ ของการปฏิบัติทางสถิติ - ทำไมต้องเป็น 0.05

สติกเลอร์สตีเฟ่น (ธันวาคม 2551) "ฟิชเชอร์กับ 5% ระดับ" โอกาส 21 (4): 12. ใช้ได้ที่นี่

(ระหว่างพวกคุณคุณจะได้พื้นหลังพอสมควร - ดูเหมือนว่าระหว่างพวกเขามีกรณีที่ดีสำหรับการคิดระดับนัยสำคัญอย่างน้อยใน ballpark ทั่วไป 5% - พูดระหว่าง 2% และ 10% - มีมากหรือน้อย อากาศสักพัก)


36

ฉันต้องให้คำตอบที่ไม่ใช่ (เหมือนที่นี่ ):

"... แน่นอนว่าพระเจ้าทรงรัก. 06 เกือบเท่ากับ. 05 มีข้อสงสัยใด ๆ หรือไม่ว่าพระเจ้าทรงมองเห็นความแข็งแกร่งของหลักฐานสำหรับหรือต่อต้านโมฆะในฐานะหน้าที่ต่อเนื่องที่ค่อนข้างใหญ่ของ p" (p.1277)

Rosnow, RL, & Rosenthal, R. (1989) วิธีการทางสถิติและการให้เหตุผลของความรู้ทางจิตวิทยา นักจิตวิทยาอเมริกัน , 44 (10), 1276-1284 รูปแบบไฟล์ PDF

บทความนี้มีการอภิปรายเพิ่มเติมเกี่ยวกับปัญหานี้


9
แล้ว 0.055 ล่ะ :)
โก้

33
@nico ไม่มีใครชอบ 0.055
Fomite

18

ฉันเชื่อว่ามีจิตวิทยาพื้นฐานบางอย่างสำหรับ 5% ฉันต้องบอกว่าฉันจำไม่ได้ว่าที่ไหนที่ฉันหยิบมันขึ้นมา แต่นี่คือแบบฝึกหัดที่ฉันเคยทำกับทุก ๆ

ลองนึกภาพคนแปลกหน้าเข้ามาใกล้คุณในผับและบอกคุณว่า: "ฉันมีเหรียญเอนเอียงที่ผลิตหัวบ่อยกว่าก้อยคุณต้องการซื้อจากฉันเพื่อที่คุณจะพนันกับเพื่อนของคุณและทำเงินกับสิ่งนั้น" คุณเห็นด้วยอย่างลังเลที่จะยอมรับและโยนเหรียญพูด 10 ครั้ง คำถาม : มีกี่ครั้งที่ต้องมีหัว / ก้อยเพื่อโน้มน้าวให้คุณรู้ว่ามันลำเอียง?

จากนั้นฉันจะแสดงมือ: ใครจะมั่นใจได้ว่าเหรียญจะลำเอียงถ้าแยกเป็น 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? สองหรือสามคนแรกไม่เชื่อใครเลยและคนสุดท้ายจะโน้มน้าวให้ทุกคน แม้ว่า 2/8 และ 1/9 จะโน้มน้าวผู้คนส่วนใหญ่ ตอนนี้ถ้าคุณค้นหาตารางทวินาม 2/8 คือ 5.5% และ 1/9 คือ 1% QED

n

ในอีกคำตอบหนึ่ง Glen_b เสนอราคา Fisherให้อภิปรายว่าควรแก้ไขตัวเลขวิเศษเหล่านี้หรือไม่ขึ้นอยู่กับปัญหาที่ร้ายแรงดังนั้นโปรดอย่าทำ "มีวิธีการรักษาโรคมะเร็งเม็ดเลือดขาวในน้องสาวของคุณ แต่มันจะรักษาเธอใน 3 เดือนหรือฆ่าเธอใน 3 วันดังนั้นลองพลิกเหรียญสักหน่อย "- นี่มันดูโง่เหมือนการ์ตูน xkcd ที่น่าอับอายที่แม้แต่แอนดรูเจลแมนไม่ชอบมาก

χ2 ทดสอบสัดส่วนและพลังงาน


3
ผู้วิเศษสามารถควบคุมการพลิกเหรียญได้บ่อยครั้ง นักสถิติ - นักคณิตศาสตร์ - นักมายากล (เปลี่ยนแปลงเพื่อลิ้มรส) Persi Diaconis เป็นที่รู้จักกันดีในเรื่องนี้ (และอื่น ๆ อีกมาก)
Nick Cox

@StasK - ไม่กี่ปีที่ผ่านมาฉันถามคำถามที่คล้ายกับสิ่งที่อยู่ในวรรคสองของคุณข้างต้น นี่คือลิงค์ของ: stats.stackexchange.com/questions/7036/…
bill_080

คุณถามถึงพลังโดยพื้นฐานแล้ว คำถามนี้กล่าวถึงระดับของการทดสอบ
StasK

9

5% ดูเหมือนจะถูกปัดเศษจาก 4.56% โดยฟิชเชอร์ซึ่งสอดคล้องกับ "ส่วนท้ายของส่วนโค้งที่อยู่นอกเหนือค่าเฉลี่ยบวกสามหรือลบสามข้อผิดพลาดที่น่าจะเป็นไปได้" (Hurlbert & Lombardi, 2009)

อีกองค์ประกอบหนึ่งของเรื่องนี้คือการสร้างตารางด้วย vlaues ที่สำคัญ (Pearson et al., 1990; Lehmann, 1993) ฟิชเชอร์ไม่ได้รับอนุญาตจากเพียร์สันให้ใช้ตารางของเขา (อาจเป็นเพราะการตลาดของเพียร์สันในการตีพิมพ์ของเขาเอง (Hurlbert & Lombardi, 2009) และลักษณะปัญหาของความสัมพันธ์ของพวกเขา

Hurlbert, SH, & Lombardi, CM (2009, ตุลาคม) การล่มสลายครั้งสุดท้ายของกรอบการตัดสินใจเชิงทฤษฎีของ Neyman-Pearson และการเพิ่มขึ้นของ neoFisherian ใน Annales Zoologici Fennici (ตอนที่ 46, ฉบับที่ 5, หน้า 311-349) การประกาศทางสัตววิทยาและพฤกษศาสตร์ของฟินแลนด์

Lehmann, EL (1993) ทฤษฎีการทดสอบสมมติฐานของฟิชเชอร์เนย์แมน - เพียร์สัน: หนึ่งทฤษฎี วารสารสมาคมสถิติอเมริกัน, 88 (424), 1242-1249

เพียร์สัน, ES, Gosset, WS, Plackett, RL, & Barnard, GA (1990) นักเรียน: ชีวประวัติทางสถิติของ William Sealy Gosset สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ดสหรัฐอเมริกา

ดูเพิ่มเติมที่: Gigerenzer, G. (2004) สถิติไม่สนใจ วารสารเศรษฐศาสตร์สังคม, 33 (5), 587-606

Hubbard, R. , & Lindsay, RM (2008) เหตุใดค่า P จึงไม่ใช่ตัวชี้วัดที่มีประโยชน์ในการทดสอบนัยสำคัญทางสถิติ ทฤษฎีและจิตวิทยา, 18 (1), 69-88


7

ดูเหมือนว่าฉันคำตอบคือมากขึ้นในทฤษฎีเกมการวิจัยกว่าในสถิติ การมีการเผา 1% และ 5% ในจิตสำนึกทั่วไปหมายความว่านักวิจัยไม่มีอิสระที่จะเลือกระดับนัยสำคัญที่เหมาะสมกับความบกพร่องได้ สมมติว่าเราเห็นกระดาษที่มีค่า p-.055 และระดับความสำคัญตั้งไว้ที่ 6% - คำถามจะถูกถาม 1% และ 5% ให้รูปแบบของความมุ่งมั่นที่น่าเชื่อถือ


7
อาจ แต่คุณคิดว่านักวิจัยไม่ได้จัดการกับการถดถอยใช้การทดสอบซ้ำ ๆ และอื่น ๆ เพื่อบีบภายใต้ระดับ 5% ที่จัดตั้งขึ้นเช่น ...
kirk

แน่นอนว่าเป็นไปได้และอาจเกิดขึ้นได้ แต่คำถามคือประมาณ 1% และ 5% ดูเหมือนกับฉันว่ามันเป็นความพยายามที่จะสร้างการประชุมทางสังคมว่าเมื่อใดที่จะยอมรับสิ่งที่สำคัญ สิ่งเหล่านี้เป็นกฎเกณฑ์ แต่โดยพลการสำหรับกลุ่มนักวิจัยแทนที่จะเป็นกฎเกณฑ์สำหรับนักวิจัยรายบุคคล
คาดคะเน

3
เห็นด้วยฉันแค่ชี้ให้เห็นว่าการมีระดับนัยสำคัญตามปกติไม่ได้หมายความว่าไม่ควรถามคำถามตามที่คุณสรุปไว้ในโพสต์ เพียงเพราะกระดาษนำเสนอผลลัพธ์ที่สำคัญในระดับทั่วไปไม่ได้หมายความว่ามันน่าเชื่อถือ!
เกริก

อาฉันใช้ความน่าเชื่อถือในความหมายของทฤษฎีเกม (หรือพยายาม) ในฐานะที่คุณเป็นภัยคุกคามที่น่าเชื่อถือหากไม่ใช่สิ่งที่คุณสามารถถอยกลับหรือเปลี่ยนใจในภายหลัง ในกรณีนี้นักวิจัยรายบุคคลจะมีช่วงเวลาที่ยากลำบากในการลงมือทำตามเกณฑ์อื่น ๆ
คาดคะเน


6

สมมติฐานส่วนบุคคลของฉันคือ 0.05 (หรือ 1 ใน 20) เกี่ยวข้องกับค่า at / z ที่ (ใกล้มาก) 2. การใช้ 2 เป็นสิ่งที่ดีเพราะมันง่ายมากที่จะสังเกตเห็นว่าผลลัพธ์ของคุณมีนัยสำคัญทางสถิติ ไม่มีการรวมกันของตัวเลขกลมอื่น ๆ


7
Z=1Z=3

9
1/31/201/4001/16000Z=1,2,3,4

1
:) อืม ... จุดดี แต่คุณจะต้องถูก จำกัด ด้วยสิ่งที่คุณจะใช้เป็นตัวตัด - 1/3 คือความหย่อนยานเล็กน้อย 1/400 ต่อการสัมผัสที่เข้มงวด
Jeremy Miles

10
นั่นคือสิ่งที่ฉันได้รับ Jeremy: ประเพณี 5% และ 1% เป็นพื้นฐานอย่างน้อยส่วนหนึ่งในแนวคิดของความเสี่ยงทางสถิติ ("หละหลวมน้อย" หรือ "สัมผัสที่เข้มงวด") และไม่ได้เดิม ได้รับมาจากกฎง่ายๆ
whuber

1
Z=11/π

6

หมายเลขที่ถูกต้องเท่านั้นคือ. 04284731

... ซึ่งเป็นการตอบสนองแบบไม่ลงรอยกันซึ่งตั้งใจจะหมายความว่าการเลือก. 05 นั้นโดยพลการ ฉันมักจะรายงานค่า p มากกว่าสิ่งที่ค่า p มากกว่าหรือน้อยกว่า

"ความสำคัญ" เป็นตัวแปรต่อเนื่องและในความคิดของฉันการแยกแยะว่ามันมักจะทำอันตรายมากกว่าดี ฉันหมายความว่าถ้า p = .13 คุณจะมีความมั่นใจมากกว่าถ้า p = .21 และน้อยกว่าถ้า p = .003


ในช่วงเวลาของตารางหนึ่งถูกบังคับมากหรือน้อยในการแยก ... เนื่องจากตารางถูกใช้ในการสอนสิ่งนี้จะดำเนินต่อไป ...
kjetil b halvorsen

@kjetilbhalvorsen เป็นอย่างดีผู้ผลิตโต๊ะผิดพลาดอย่างชัดเจนในการไม่เลือก. 04284731 สำหรับค่าวิกฤต
generic_user

2

นี่คือพื้นที่ของการทดสอบสมมติฐานที่ทำให้ฉันหลงใหลอยู่เสมอ โดยเฉพาะอย่างยิ่งเพราะวันหนึ่งมีคนตัดสินใจเลือกหมายเลขโดยพลการบางอย่างที่แบ่งเป็นสองส่วนของขั้นตอนการทดสอบและตั้งแต่นั้นมาคนก็ไม่ค่อยตั้งคำถาม

ฉันจำได้ว่ามีอาจารย์คนหนึ่งบอกเราว่าอย่าให้ศรัทธามากเกินไปในการทดสอบ Staiger และ Stock ของตัวแปรเครื่องมือ (ที่ F-stat ควรสูงกว่า 10 ในการถดถอยขั้นตอนแรกเพื่อหลีกเลี่ยงปัญหาอุปกรณ์อ่อน) เพราะหมายเลข 10 เป็น ทางเลือกโดยพลการอย่างสมบูรณ์ ฉันจำได้ว่าพูดว่า "แต่นั่นไม่ใช่สิ่งที่เราทำกับการทดสอบสมมติฐานปกติ ?????"


5
สิ่งนี้ตั้งใจให้เป็นคำตอบ @EconStats หรือไม่ ดูเหมือนความคิดเห็นเพิ่มเติม โปรดจำไว้ว่า CV ไม่ได้มีไว้เพื่อเป็นเวทีสนทนา คุณจะช่วยตอบคำถามโดยที่โพสต์นี้มีความสำคัญมากกว่านี้หรือไม่?
gung

1
ขออภัย @gung ฉันเดาว่าประเด็นของฉันคือแม้ว่าจะมีหลักฐานบางอย่างจากผู้ใช้คนอื่น ๆ ฉันก็ยังคิดว่าคำตอบที่น่าจะเป็นไปได้มากที่สุดคือเรามีระบบเลขฐานสิบแบบทศนิยมและมันยังคงใช้มาจนถึงปัจจุบัน เช่น Staiger และ F-test ที่ฉันพูดถึง
EconStats

1
ในฐานะผู้โพสต์ดั้งเดิมของคำถามนี้ฉันเชื่อว่านี่เป็นคำตอบที่แน่นอน ขอบคุณ!
Contango

0

ทำไม 1 และ 5? เพราะพวกเขารู้สึกถูก

ฉันแน่ใจว่ามีการศึกษาเกี่ยวกับคุณค่าทางอารมณ์และความคิดของตัวเลขเฉพาะ แต่เราสามารถเข้าใจทางเลือกที่ 1 และ 5 โดยไม่ต้องหันไปใช้การวิจัย

ผู้คนที่สร้างสถิติของวันนี้เกิดการเลี้ยงดูและอาศัยอยู่ในโลกที่เป็นทศนิยม แน่นอนว่าไม่มีระบบการนับทศนิยมและการนับถึงสิบสองโดยใช้ phalanges เป็นไปได้และได้ทำไปแล้ว แต่ก็ไม่ชัดเจนในลักษณะเดียวกับการใช้นิ้วมือ (ซึ่งเรียกว่า "หลัก" เช่นตัวเลข ) และในขณะที่คุณ (และฟิชเชอร์) อาจรู้เกี่ยวกับระบบการนับที่ไม่ใช่ทศนิยมระบบทศนิยมนั้นเป็นและเป็นระบบการนับที่โดดเด่นของคุณ (และโลกของฟิชเชอร์) ในรอบร้อยปีที่ผ่านมา

แต่ทำไมตัวเลขห้าและหนึ่งจึงพิเศษ เพราะทั้งสองฝ่ายเป็นฝ่ายที่มีความสำคัญตามธรรมชาติมากที่สุดของพื้นฐานสิบ: หนึ่งนิ้วมือข้างเดียว (หรือ: ครึ่ง)

คุณไม่จำเป็นต้องไปคิดคำนวณเศษส่วนเพื่อให้ได้เศษสิบถึงหนึ่งและห้า นิ้วนั้นอยู่ตรงนั้นเหมือนกับที่นิ้วของคุณอยู่ตรงนั้น และการลดลงครึ่งหนึ่งนั้นเป็นการดำเนินการที่ง่ายกว่าการแบ่งออกเป็นสัดส่วนอื่น ๆ การตัดสิ่งใด ๆ ออกเป็นสองส่วนไม่จำเป็นต้องคิดในขณะที่การหารด้วยสามหรือสี่นั้นค่อนข้างซับซ้อนอยู่แล้ว

ระบบสกุลเงินแบบหมุนเวียนส่วนใหญ่มีเหรียญและธนบัตรที่มีค่าเช่น 1, 2, 5, 10, 20, 50, 100, 200, 500, 1,000 ระบบสกุลเงินบางระบบไม่มี 2, 20 และ 200 แต่เกือบทั้งหมดมีจุดเริ่มต้นเหล่านั้น ใน 1 และ 5 ในเวลาเดียวกันระบบสกุลเงินส่วนใหญ่ไม่มีเหรียญหรือธนบัตรที่เริ่มต้นใน 3, 4, 6, 7, 8 หรือ 9 ที่น่าสนใจใช่ไหม? แต่ทำไมถึงเป็นเช่นนั้น?

เพราะคุณต้องการหนึ่งในสิบของหนึ่งหรือสองในห้าวินาที (หรือห้าในสอง) เพื่อให้ได้อันดับที่ใหญ่กว่าถัดไป การคำนวณด้วยเงินนั้นง่ายมาก: คูณสิบหรือสองเท่า การดำเนินการเพียงสองชนิด เหรียญทุกใบที่คุณมีคือครึ่งหรือหนึ่งในสิบของเหรียญลำดับถัดไป ตัวเลขเหล่านั้นคูณและรวมเข้าด้วยกันอย่างง่ายดายและดี

ดังนั้น 1 และ 5 จึงฝังลึกในวัยเด็กตั้งแต่แรกจนถึงเป็นฟิชเชอร์และใครก็ตามที่เลือกระดับความสำคัญเป็นดิวิชั่นที่ง่ายที่สุดและง่ายที่สุดและพื้นฐานที่สุดของ 10 ตัวเลขอื่น ๆ ต้องการการโต้เถียงในขณะที่สิ่งเหล่านี้ ตัวเลขมีเพียง

ในกรณีที่ไม่มีวิธีที่มีวัตถุประสงค์เพื่อคำนวณระดับความสำคัญที่เหมาะสมสำหรับชุดข้อมูลแต่ละชุดหนึ่งและห้าเพียงแค่รู้สึกว่าถูกต้อง


"โดยไม่ต้องหันไปค้นคว้า" ในขณะที่ฉันคิดว่าคำตอบนั้นดี แต่มันทำให้มันกลายเป็นความคิดเห็นที่มั่นคง มันจะให้ความน่าเชื่อถือมากและจะทำให้คำตอบมีอำนาจมากขึ้นถ้ามีแหล่งที่มาเพื่อสำรองข้อมูลนี้
Momo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.