เกี่ยวกับp-value s ผมสงสัยว่าทำไม % และ % ดูเหมือนจะเป็นมาตรฐานทองคำสำหรับ ทำไมค่าอื่น ๆ เช่น % หรือ %"statistical significance"
มีเหตุผลทางคณิตศาสตร์พื้นฐานสำหรับเรื่องนี้หรือนี่เป็นเพียงการประชุมที่จัดขึ้นอย่างกว้างขวาง?
เกี่ยวกับp-value s ผมสงสัยว่าทำไม % และ % ดูเหมือนจะเป็นมาตรฐานทองคำสำหรับ ทำไมค่าอื่น ๆ เช่น % หรือ %"statistical significance"
มีเหตุผลทางคณิตศาสตร์พื้นฐานสำหรับเรื่องนี้หรือนี่เป็นเพียงการประชุมที่จัดขึ้นอย่างกว้างขวาง?
คำตอบ:
หากคุณตรวจสอบข้อมูลอ้างอิงด้านล่างคุณจะพบว่ามีการเปลี่ยนแปลงเล็กน้อยในพื้นหลังแม้ว่าจะมีองค์ประกอบทั่วไปอยู่บ้าง
ตัวเลขเหล่านั้นอย่างน้อยก็ส่วนหนึ่งขึ้นอยู่กับความคิดเห็นบางส่วนจากฟิชเชอร์ซึ่งเขากล่าวว่า
(ในขณะที่คุยกันในระดับ 1/20)
มันสะดวกที่จะนำประเด็นนี้มาเป็นข้อ จำกัด ในการตัดสินว่าการเบี่ยงเบนนั้นสำคัญหรือไม่ การเบี่ยงเบนเกินกว่าสองเท่าของค่าเบี่ยงเบนมาตรฐานจึงถือว่าเป็นทางการอย่างมีนัยสำคัญ
ฟิชเชอร์, RA (1925) วิธีการทางสถิติสำหรับการวิจัยแรงงาน , P 47
ในทางกลับกันบางครั้งเขาก็กว้างขึ้น:
หากหนึ่งในยี่สิบดูเหมือนจะไม่ได้ราคาสูงพอเราอาจจะวาดเส้นที่หนึ่งในห้าสิบ (จุดร้อยละ 2) หรือหนึ่งในร้อย (จุดร้อยละ 1) โดยส่วนตัวแล้วผู้เขียนชอบที่จะกำหนดมาตรฐานความสำคัญต่ำที่ 5 เปอร์เซ็นต์และไม่สนใจผลลัพธ์ทั้งหมดที่ล้มเหลวในการเข้าถึงระดับนี้ ความจริงทางวิทยาศาสตร์ควรจะถือว่าเป็นที่ยอมรับเฉพาะในกรณีที่การทดลองการทดลองออกแบบอย่างถูกต้องไม่ค่อยล้มเหลวที่จะให้ระดับนัยสำคัญนี้
ฟิชเชอร์, RA (1926)
การจัดเรียงของการทดลองภาคสนาม
วารสารของกระทรวงเกษตรพี 504
ฟิชเชอร์ยังใช้ 5% สำหรับตารางหนังสือของเขา - แต่ตารางอื่น ๆ ของเขาส่วนใหญ่มีระดับนัยสำคัญที่หลากหลายกว่า
ความคิดเห็นบางส่วนของเขาได้แนะนำแนวทางที่เข้มงวดมากขึ้น (เช่นระดับอัลฟาที่ต่ำกว่าหรือสูงกว่า) ในสถานการณ์ที่แตกต่างกัน
การเรียงลำดับดังกล่าวนำไปสู่แนวโน้มที่จะสร้างตารางที่เน้นระดับนัยสำคัญ 5% และ 1% (และบางครั้งกับผู้อื่นเช่น 10%, 2% และ 0.5%) สำหรับความต้องการของค่ามาตรฐานอื่น ๆ ที่จะใช้
อย่างไรก็ตามในบทความนี้ Cowles และ Davis แนะนำว่าการใช้ 5% หรืออย่างน้อยก็ใกล้เคียงกว่าความคิดเห็นของ Fisher
ในระยะสั้นการใช้ 5% ของเรา (และระดับที่น้อยกว่า 1%) เป็นแบบแผนโดยพลการค่อนข้างมาก แต่ผู้คนจำนวนมากดูเหมือนจะรู้สึกว่าสำหรับปัญหามากมายที่พวกเขากำลังอยู่ในประเภทที่เหมาะสม
ไม่มีเหตุผลใดที่ควรใช้ค่าเฉพาะโดยทั่วไป
การอ้างอิงเพิ่มเติม:
Dallal, Gerard E. (2012) คู่มือเล็ก ๆ น้อย ๆ ของการปฏิบัติทางสถิติ - ทำไมต้องเป็น 0.05
สติกเลอร์สตีเฟ่น (ธันวาคม 2551) "ฟิชเชอร์กับ 5% ระดับ" โอกาส 21 (4): 12. ใช้ได้ที่นี่
(ระหว่างพวกคุณคุณจะได้พื้นหลังพอสมควร - ดูเหมือนว่าระหว่างพวกเขามีกรณีที่ดีสำหรับการคิดระดับนัยสำคัญอย่างน้อยใน ballpark ทั่วไป 5% - พูดระหว่าง 2% และ 10% - มีมากหรือน้อย อากาศสักพัก)
ฉันต้องให้คำตอบที่ไม่ใช่ (เหมือนที่นี่ ):
"... แน่นอนว่าพระเจ้าทรงรัก. 06 เกือบเท่ากับ. 05 มีข้อสงสัยใด ๆ หรือไม่ว่าพระเจ้าทรงมองเห็นความแข็งแกร่งของหลักฐานสำหรับหรือต่อต้านโมฆะในฐานะหน้าที่ต่อเนื่องที่ค่อนข้างใหญ่ของ p" (p.1277)
Rosnow, RL, & Rosenthal, R. (1989) วิธีการทางสถิติและการให้เหตุผลของความรู้ทางจิตวิทยา นักจิตวิทยาอเมริกัน , 44 (10), 1276-1284 รูปแบบไฟล์ PDF
บทความนี้มีการอภิปรายเพิ่มเติมเกี่ยวกับปัญหานี้
ฉันเชื่อว่ามีจิตวิทยาพื้นฐานบางอย่างสำหรับ 5% ฉันต้องบอกว่าฉันจำไม่ได้ว่าที่ไหนที่ฉันหยิบมันขึ้นมา แต่นี่คือแบบฝึกหัดที่ฉันเคยทำกับทุก ๆ
ลองนึกภาพคนแปลกหน้าเข้ามาใกล้คุณในผับและบอกคุณว่า: "ฉันมีเหรียญเอนเอียงที่ผลิตหัวบ่อยกว่าก้อยคุณต้องการซื้อจากฉันเพื่อที่คุณจะพนันกับเพื่อนของคุณและทำเงินกับสิ่งนั้น" คุณเห็นด้วยอย่างลังเลที่จะยอมรับและโยนเหรียญพูด 10 ครั้ง คำถาม : มีกี่ครั้งที่ต้องมีหัว / ก้อยเพื่อโน้มน้าวให้คุณรู้ว่ามันลำเอียง?
จากนั้นฉันจะแสดงมือ: ใครจะมั่นใจได้ว่าเหรียญจะลำเอียงถ้าแยกเป็น 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? สองหรือสามคนแรกไม่เชื่อใครเลยและคนสุดท้ายจะโน้มน้าวให้ทุกคน แม้ว่า 2/8 และ 1/9 จะโน้มน้าวผู้คนส่วนใหญ่ ตอนนี้ถ้าคุณค้นหาตารางทวินาม 2/8 คือ 5.5% และ 1/9 คือ 1% QED
ในอีกคำตอบหนึ่ง Glen_b เสนอราคา Fisherให้อภิปรายว่าควรแก้ไขตัวเลขวิเศษเหล่านี้หรือไม่ขึ้นอยู่กับปัญหาที่ร้ายแรงดังนั้นโปรดอย่าทำ "มีวิธีการรักษาโรคมะเร็งเม็ดเลือดขาวในน้องสาวของคุณ แต่มันจะรักษาเธอใน 3 เดือนหรือฆ่าเธอใน 3 วันดังนั้นลองพลิกเหรียญสักหน่อย "- นี่มันดูโง่เหมือนการ์ตูน xkcd ที่น่าอับอายที่แม้แต่แอนดรูเจลแมนไม่ชอบมาก
5% ดูเหมือนจะถูกปัดเศษจาก 4.56% โดยฟิชเชอร์ซึ่งสอดคล้องกับ "ส่วนท้ายของส่วนโค้งที่อยู่นอกเหนือค่าเฉลี่ยบวกสามหรือลบสามข้อผิดพลาดที่น่าจะเป็นไปได้" (Hurlbert & Lombardi, 2009)
อีกองค์ประกอบหนึ่งของเรื่องนี้คือการสร้างตารางด้วย vlaues ที่สำคัญ (Pearson et al., 1990; Lehmann, 1993) ฟิชเชอร์ไม่ได้รับอนุญาตจากเพียร์สันให้ใช้ตารางของเขา (อาจเป็นเพราะการตลาดของเพียร์สันในการตีพิมพ์ของเขาเอง (Hurlbert & Lombardi, 2009) และลักษณะปัญหาของความสัมพันธ์ของพวกเขา
Hurlbert, SH, & Lombardi, CM (2009, ตุลาคม) การล่มสลายครั้งสุดท้ายของกรอบการตัดสินใจเชิงทฤษฎีของ Neyman-Pearson และการเพิ่มขึ้นของ neoFisherian ใน Annales Zoologici Fennici (ตอนที่ 46, ฉบับที่ 5, หน้า 311-349) การประกาศทางสัตววิทยาและพฤกษศาสตร์ของฟินแลนด์
Lehmann, EL (1993) ทฤษฎีการทดสอบสมมติฐานของฟิชเชอร์เนย์แมน - เพียร์สัน: หนึ่งทฤษฎี วารสารสมาคมสถิติอเมริกัน, 88 (424), 1242-1249
เพียร์สัน, ES, Gosset, WS, Plackett, RL, & Barnard, GA (1990) นักเรียน: ชีวประวัติทางสถิติของ William Sealy Gosset สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ดสหรัฐอเมริกา
ดูเพิ่มเติมที่: Gigerenzer, G. (2004) สถิติไม่สนใจ วารสารเศรษฐศาสตร์สังคม, 33 (5), 587-606
Hubbard, R. , & Lindsay, RM (2008) เหตุใดค่า P จึงไม่ใช่ตัวชี้วัดที่มีประโยชน์ในการทดสอบนัยสำคัญทางสถิติ ทฤษฎีและจิตวิทยา, 18 (1), 69-88
ดูเหมือนว่าฉันคำตอบคือมากขึ้นในทฤษฎีเกมการวิจัยกว่าในสถิติ การมีการเผา 1% และ 5% ในจิตสำนึกทั่วไปหมายความว่านักวิจัยไม่มีอิสระที่จะเลือกระดับนัยสำคัญที่เหมาะสมกับความบกพร่องได้ สมมติว่าเราเห็นกระดาษที่มีค่า p-.055 และระดับความสำคัญตั้งไว้ที่ 6% - คำถามจะถูกถาม 1% และ 5% ให้รูปแบบของความมุ่งมั่นที่น่าเชื่อถือ
สมมติฐานส่วนบุคคลของฉันคือ 0.05 (หรือ 1 ใน 20) เกี่ยวข้องกับค่า at / z ที่ (ใกล้มาก) 2. การใช้ 2 เป็นสิ่งที่ดีเพราะมันง่ายมากที่จะสังเกตเห็นว่าผลลัพธ์ของคุณมีนัยสำคัญทางสถิติ ไม่มีการรวมกันของตัวเลขกลมอื่น ๆ
หมายเลขที่ถูกต้องเท่านั้นคือ. 04284731
... ซึ่งเป็นการตอบสนองแบบไม่ลงรอยกันซึ่งตั้งใจจะหมายความว่าการเลือก. 05 นั้นโดยพลการ ฉันมักจะรายงานค่า p มากกว่าสิ่งที่ค่า p มากกว่าหรือน้อยกว่า
"ความสำคัญ" เป็นตัวแปรต่อเนื่องและในความคิดของฉันการแยกแยะว่ามันมักจะทำอันตรายมากกว่าดี ฉันหมายความว่าถ้า p = .13 คุณจะมีความมั่นใจมากกว่าถ้า p = .21 และน้อยกว่าถ้า p = .003
นี่คือพื้นที่ของการทดสอบสมมติฐานที่ทำให้ฉันหลงใหลอยู่เสมอ โดยเฉพาะอย่างยิ่งเพราะวันหนึ่งมีคนตัดสินใจเลือกหมายเลขโดยพลการบางอย่างที่แบ่งเป็นสองส่วนของขั้นตอนการทดสอบและตั้งแต่นั้นมาคนก็ไม่ค่อยตั้งคำถาม
ฉันจำได้ว่ามีอาจารย์คนหนึ่งบอกเราว่าอย่าให้ศรัทธามากเกินไปในการทดสอบ Staiger และ Stock ของตัวแปรเครื่องมือ (ที่ F-stat ควรสูงกว่า 10 ในการถดถอยขั้นตอนแรกเพื่อหลีกเลี่ยงปัญหาอุปกรณ์อ่อน) เพราะหมายเลข 10 เป็น ทางเลือกโดยพลการอย่างสมบูรณ์ ฉันจำได้ว่าพูดว่า "แต่นั่นไม่ใช่สิ่งที่เราทำกับการทดสอบสมมติฐานปกติ ?????"
ทำไม 1 และ 5? เพราะพวกเขารู้สึกถูก
ฉันแน่ใจว่ามีการศึกษาเกี่ยวกับคุณค่าทางอารมณ์และความคิดของตัวเลขเฉพาะ แต่เราสามารถเข้าใจทางเลือกที่ 1 และ 5 โดยไม่ต้องหันไปใช้การวิจัย
ผู้คนที่สร้างสถิติของวันนี้เกิดการเลี้ยงดูและอาศัยอยู่ในโลกที่เป็นทศนิยม แน่นอนว่าไม่มีระบบการนับทศนิยมและการนับถึงสิบสองโดยใช้ phalanges เป็นไปได้และได้ทำไปแล้ว แต่ก็ไม่ชัดเจนในลักษณะเดียวกับการใช้นิ้วมือ (ซึ่งเรียกว่า "หลัก" เช่นตัวเลข ) และในขณะที่คุณ (และฟิชเชอร์) อาจรู้เกี่ยวกับระบบการนับที่ไม่ใช่ทศนิยมระบบทศนิยมนั้นเป็นและเป็นระบบการนับที่โดดเด่นของคุณ (และโลกของฟิชเชอร์) ในรอบร้อยปีที่ผ่านมา
แต่ทำไมตัวเลขห้าและหนึ่งจึงพิเศษ เพราะทั้งสองฝ่ายเป็นฝ่ายที่มีความสำคัญตามธรรมชาติมากที่สุดของพื้นฐานสิบ: หนึ่งนิ้วมือข้างเดียว (หรือ: ครึ่ง)
คุณไม่จำเป็นต้องไปคิดคำนวณเศษส่วนเพื่อให้ได้เศษสิบถึงหนึ่งและห้า นิ้วนั้นอยู่ตรงนั้นเหมือนกับที่นิ้วของคุณอยู่ตรงนั้น และการลดลงครึ่งหนึ่งนั้นเป็นการดำเนินการที่ง่ายกว่าการแบ่งออกเป็นสัดส่วนอื่น ๆ การตัดสิ่งใด ๆ ออกเป็นสองส่วนไม่จำเป็นต้องคิดในขณะที่การหารด้วยสามหรือสี่นั้นค่อนข้างซับซ้อนอยู่แล้ว
ระบบสกุลเงินแบบหมุนเวียนส่วนใหญ่มีเหรียญและธนบัตรที่มีค่าเช่น 1, 2, 5, 10, 20, 50, 100, 200, 500, 1,000 ระบบสกุลเงินบางระบบไม่มี 2, 20 และ 200 แต่เกือบทั้งหมดมีจุดเริ่มต้นเหล่านั้น ใน 1 และ 5 ในเวลาเดียวกันระบบสกุลเงินส่วนใหญ่ไม่มีเหรียญหรือธนบัตรที่เริ่มต้นใน 3, 4, 6, 7, 8 หรือ 9 ที่น่าสนใจใช่ไหม? แต่ทำไมถึงเป็นเช่นนั้น?
เพราะคุณต้องการหนึ่งในสิบของหนึ่งหรือสองในห้าวินาที (หรือห้าในสอง) เพื่อให้ได้อันดับที่ใหญ่กว่าถัดไป การคำนวณด้วยเงินนั้นง่ายมาก: คูณสิบหรือสองเท่า การดำเนินการเพียงสองชนิด เหรียญทุกใบที่คุณมีคือครึ่งหรือหนึ่งในสิบของเหรียญลำดับถัดไป ตัวเลขเหล่านั้นคูณและรวมเข้าด้วยกันอย่างง่ายดายและดี
ดังนั้น 1 และ 5 จึงฝังลึกในวัยเด็กตั้งแต่แรกจนถึงเป็นฟิชเชอร์และใครก็ตามที่เลือกระดับความสำคัญเป็นดิวิชั่นที่ง่ายที่สุดและง่ายที่สุดและพื้นฐานที่สุดของ 10 ตัวเลขอื่น ๆ ต้องการการโต้เถียงในขณะที่สิ่งเหล่านี้ ตัวเลขมีเพียง
ในกรณีที่ไม่มีวิธีที่มีวัตถุประสงค์เพื่อคำนวณระดับความสำคัญที่เหมาะสมสำหรับชุดข้อมูลแต่ละชุดหนึ่งและห้าเพียงแค่รู้สึกว่าถูกต้อง