คำถามติดแท็ก statistical-significance

นัยสำคัญทางสถิติหมายถึงความน่าจะเป็นที่ถ้าในประชากรที่ตัวอย่างนี้ถูกดึงออกมาผลที่แท้จริงคือ 0 (หรือค่าที่ตั้งสมมติฐานไว้บางส่วน) สถิติทดสอบที่มากหรือสุดขั้วเกินกว่าที่จะเกิดขึ้นในกลุ่มตัวอย่าง

4
มีการทดสอบเพื่อตรวจสอบว่าการทับซ้อน GLM มีความสำคัญหรือไม่?
ฉันกำลังสร้าง Poisson GLMs ในอาร์ในการตรวจสอบ overdispersion summary(model.name)ฉันกำลังมองหาที่อัตราส่วนของการเบี่ยงเบนที่เหลือเพื่อองศาอิสระให้บริการโดย มีค่า cutoff หรือการทดสอบสำหรับอัตราส่วนนี้ที่จะพิจารณาว่า "สำคัญหรือไม่" ฉันรู้ว่าถ้ามัน> 1 ข้อมูลจะถูกใช้งานเกินขนาด แต่ถ้าฉันมีอัตราส่วนค่อนข้างใกล้กับ 1 [เช่นอัตราส่วนหนึ่งเท่ากับ 1.7 (ส่วนเบี่ยงเบนเหลือ = 25.48, df = 15) และอีก 1.3 (rd = 324, df = 253)] ฉันยังควรเปลี่ยนไปใช้ quasipoisson / binomial เชิงลบหรือไม่ ฉันพบที่นี่การทดสอบนี้เพื่อความสำคัญ: 1-pchisq (ส่วนเบี่ยงเบนเบี่ยงเบน, df) แต่ฉันเห็นเพียงครั้งเดียวซึ่งทำให้ฉันกังวล ฉันอ่านด้วย (ฉันไม่สามารถหาแหล่งที่มาได้) ว่าอัตราส่วน <1.5 มีความปลอดภัยโดยทั่วไป ความเห็น?

10
ทำไม 600 จาก 1,000 จึงน่าเชื่อถือมากกว่า 6 จาก 10?
ดูข้อความที่ตัดตอนมาจาก "คู่มือทักษะการศึกษา", Palgrave, 2012, โดย Stella Cottrell, หน้า 155: เปอร์เซ็นต์แจ้งให้ทราบเมื่อได้รับร้อยละ สมมติว่าคำสั่งด้านบนอ่านแทน: 60% ของคนชอบส้ม 40% กล่าวว่าพวกเขาชอบแอปเปิ้ล สิ่งนี้ดูน่าเชื่อถือ: มีการระบุปริมาณที่เป็นตัวเลข แต่ความแตกต่างระหว่าง 60% และ 40% อย่างมีนัยสำคัญคืออะไร? ที่นี่เราจะต้องรู้ว่ามีคนถามกี่คน หากมีคน 1,000 คนถูกถามถึงส้มที่ต้องการ 600 ตัวจำนวนนั้นจะน่าเชื่อถือ อย่างไรก็ตามหากมีผู้ถูกถามเพียง 10 คน 60% หมายถึงส้มที่ต้องการ 6 คน "60%" ฟังดูน่าเชื่อถือในแบบที่ "6 จาก 10" ไม่ ในฐานะผู้อ่านที่สำคัญคุณต้องระวังเปอร์เซ็นต์ที่ใช้ในการทำให้ข้อมูลไม่เพียงพอดูน่าประทับใจ ลักษณะนี้เรียกว่าอะไรในสถิติ ฉันต้องการอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้

4
โควาเรียตที่ไม่มีนัยสำคัญทางสถิติควร 'เก็บไว้ใน' เมื่อสร้างแบบจำลองหรือไม่?
ฉันมีโควาเรียร์หลายตัวในการคำนวณแบบจำลองและไม่ใช่ทั้งหมดที่มีนัยสำคัญทางสถิติ ฉันควรลบสิ่งที่ไม่ใช่หรือไม่ คำถามนี้อธิบายถึงปรากฏการณ์ แต่ไม่ตอบคำถามของฉัน: จะตีความผลกระทบที่ไม่สำคัญของ covariate ใน ANCOVA อย่างไร ไม่มีอะไรในคำตอบสำหรับคำถามนั้นที่ชี้ให้เห็นว่ามีการแปรผันที่ไม่สำคัญออกไปแม้ว่าตอนนี้ฉันมีแนวโน้มที่จะเชื่อว่าพวกเขาควรจะอยู่ต่อไปก่อนที่จะอ่านคำตอบนั้น ยังสามารถอธิบายความแปรปรวนบางอย่าง (และช่วยให้แบบจำลอง) โดยไม่จำเป็นต้องอธิบายจำนวนเกินกว่าขีด จำกัด บางอย่าง (ค่าขีด จำกัด นัยสำคัญซึ่งฉันเห็นว่าไม่สามารถใช้ได้กับ covariates) มีอีกคำถามหนึ่งในประวัติย่อที่คำตอบดูเหมือนจะบ่งบอกว่า covariates ควรเก็บไว้โดยไม่คำนึงถึงความสำคัญ แต่ก็ไม่ชัดเจนในเรื่องนั้น (ฉันต้องการเชื่อมโยงกับคำถามนั้น แต่ฉันไม่สามารถติดตามได้อีกในตอนนี้) ดังนั้น ... โควาเรียต์ที่ไม่แสดงว่ามีนัยสำคัญทางสถิติควรถูกเก็บไว้ในการคำนวณสำหรับโมเดลหรือไม่? (ฉันได้แก้ไขคำถามนี้เพื่อชี้แจงว่า covariates ไม่เคยอยู่ในรูปแบบผลลัพธ์โดยการคำนวณอยู่ดี) หากต้องการเพิ่มความซับซ้อนจะเกิดอะไรขึ้นถ้าค่าความแปรปรวนร่วมมีความสำคัญทางสถิติสำหรับชุดย่อยบางส่วนของข้อมูล (ชุดย่อยที่ต้องดำเนินการแยกต่างหาก) ฉันจะเริ่มต้นที่จะรักษา covariate มิฉะนั้นจะต้องใช้โมเดลที่แตกต่างกันหรือคุณจะมี covariate ที่มีนัยสำคัญทางสถิติหายไปในกรณีใดกรณีหนึ่ง หากคุณมีคำตอบสำหรับคดีแยกนี้เช่นกันโปรดพูดถึงมัน

1
วิธีการตีความและรายงานกทพ. กำลังสอง / กทพ. บางส่วนในการวิเคราะห์ที่มีนัยสำคัญทางสถิติและไม่มีนัยสำคัญ?
ฉันมีข้อมูลที่มีค่ากทพ. และค่ากทพ. ส่วนที่คำนวณได้เป็นการคำนวณขนาดของเอฟเฟกต์สำหรับความแตกต่างของค่าเฉลี่ยกลุ่ม อะไรคือความแตกต่างระหว่างกทพ. กับสแควร์และกทพ. บางส่วน พวกเขาสามารถตีความโดยใช้แนวทางของโคเฮนเดียวกันได้หรือไม่ (1988 ฉันคิดว่า: 0.01 = เล็ก, 0.06 = ปานกลาง, 0.13 = ใหญ่)? นอกจากนี้ยังมีการใช้ขนาดรายงานผลกระทบหรือไม่หากการทดสอบเปรียบเทียบ (เช่น t-test หรือ one-way ANOVA) ไม่มีความหมาย? ในหัวของฉันนี่ก็เหมือนกับการพูดว่า "ความแตกต่างเฉลี่ยไม่ถึงนัยสำคัญทางสถิติ แต่ยังคงเป็นข้อความที่เจาะจงเพราะขนาดของเอฟเฟกต์ที่ระบุจากกทพ. กำลังปานกลาง" หรือขนาดของเอฟเฟกต์เป็นค่าทดแทนสำหรับการทดสอบอย่างมีนัยสำคัญแทนที่จะเป็นส่วนประกอบเสริมหรือไม่

2
การทดสอบ A / B: z-test กับ t-test เทียบกับไคสแควร์เทียบกับการทดสอบที่แม่นยำของฟิชเชอร์
ฉันพยายามที่จะเข้าใจเหตุผลโดยเลือกวิธีการทดสอบที่เฉพาะเจาะจงเมื่อจัดการกับการทดสอบ A / B แบบง่าย - (เช่นสองรูปแบบ / กลุ่มที่มีการตอบกลับแบบไบนารี (แปลงหรือไม่) ตัวอย่างเช่นฉันจะใช้ข้อมูลด้านล่าง Version Visits Conversions A 2069 188 B 1826 220 คำตอบยอดนิยมที่นี่ดีมากและพูดคุยเกี่ยวกับข้อสมมติฐานพื้นฐานสำหรับการทดสอบ z, t และ chi square แต่สิ่งที่ฉันสับสนคือแหล่งข้อมูลออนไลน์ที่แตกต่างกันจะอ้างอิงแนวทางที่แตกต่างกันและคุณจะคิดว่าสมมติฐานสำหรับการทดสอบ A / B พื้นฐานควรเหมือนกันหรือไม่ ตัวอย่างเช่นบทความนี้ใช้คะแนน z : บทความนี้ใช้สูตรต่อไปนี้ (ซึ่งฉันไม่แน่ใจว่าแตกต่างจากการคำนวณ zscore หรือไม่): บทความนี้อ้างอิงการทดสอบ t (p 152): ดังนั้น arguemnts อะไรที่สามารถทำให้เป็นที่นิยมในแนวทางที่แตกต่างกันเหล่านี้? ทำไมหนึ่งจะมีการตั้งค่า? หากต้องการโยนผู้สมัครอีกหนึ่งคนตารางด้านบนสามารถเขียนใหม่เป็นตารางฉุกเฉิน 2x2 ซึ่งสามารถใช้การทดสอบฟิชเชอร์ (p5) …

8
เมื่อใดที่ควรรวมตัวแปรในการถดถอยแม้ว่าจะไม่มีนัยสำคัญทางสถิติ?
ฉันเป็นนักศึกษาเศรษฐศาสตร์ที่มีประสบการณ์เกี่ยวกับเศรษฐมิติและอาร์ฉันอยากจะรู้ว่ามีสถานการณ์ที่เราควรรวมตัวแปรในการถดถอยทั้งๆที่มันไม่ได้มีนัยสำคัญทางสถิติหรือไม่?

6
ทดสอบว่าการแจกแจงทวินามสองรายการนั้นแตกต่างกันหรือไม่
ฉันมีข้อมูลสามกลุ่มแต่ละกลุ่มมีการแจกแจงทวินาม (เช่นแต่ละกลุ่มมีองค์ประกอบที่ประสบความสำเร็จหรือล้มเหลว) ฉันไม่มีความน่าจะเป็นที่คาดการณ์ไว้ของความสำเร็จ แต่สามารถพึ่งพาอัตราความสำเร็จของแต่ละคนเป็นเพียงการประมาณอัตราความสำเร็จที่แท้จริง ฉันเพิ่งพบคำถามนี้ซึ่งใกล้ แต่ดูเหมือนจะไม่จัดการกับสถานการณ์นี้ เพื่อให้การทดสอบง่ายขึ้นสมมติว่าฉันมี 2 กลุ่ม (3 สามารถขยายได้จากกรณีพื้นฐานนี้) การทดลองกลุ่ม 1: = 2455n1n1n_1 การทดลองกลุ่ม 2: = 2730n2n2n_2 ความสำเร็จของกลุ่ม 1: = 1556k1k1k_1 ความสำเร็จของกลุ่ม 2: = 1671k2k2k_2 ฉันไม่ได้มีโอกาสประสบความสำเร็จที่คาดหวังเพียงสิ่งที่ฉันรู้จากตัวอย่าง ดังนั้นอัตราความสำเร็จโดยนัยของฉันสำหรับทั้งสองกลุ่มคือ: อัตราความสำเร็จของกลุ่ม 1: = 1556/2455 = 63.4%พี1พี1p_1 อัตราความสำเร็จของกลุ่ม 2: = 1671/2730 = 61.2%พี2พี2p_2 อัตราความสำเร็จของตัวอย่างแต่ละตัวอย่างค่อนข้างใกล้เคียง อย่างไรก็ตามขนาดตัวอย่างของฉันก็ค่อนข้างใหญ่เช่นกัน ถ้าฉันตรวจสอบ CDF ของการแจกแจงทวินามเพื่อดูว่ามันแตกต่างจากครั้งแรก (โดยที่ฉันสมมติว่าอันแรกคือการทดสอบว่าง) ฉันได้รับความน่าจะเป็นที่น้อยมากที่สามารถทำได้ครั้งที่สอง ใน Excel: …

5
ค่า p ไม่มีประโยชน์และอันตรายต่อการใช้งานหรือไม่?
บทความ " The Odds, อัพเดทอย่างต่อเนื่อง" จาก NY Timesเกิดขึ้นเพื่อดึงดูดความสนใจของฉัน จะสั้นก็กล่าวว่า [สถิติแบบเบย์] พิสูจน์ให้เห็นแล้วว่ามีประโยชน์อย่างยิ่งในการเข้าถึงปัญหาที่ซับซ้อนรวมถึงการค้นหาเช่น Coast Guard ที่ใช้ในปี 2013 เพื่อค้นหาชาวประมงที่ขาดหายไป John Aldridge (แม้ว่าจะยังไม่ถึงตอนนี้ก็ตาม ...... สถิติแบบเบย์กำลังกระเพื่อมผ่านทุกสิ่งตั้งแต่ฟิสิกส์จนถึงการวิจัยมะเร็งนิเวศวิทยาจนถึงจิตวิทยา ... ในบทความนี้ยังมีการวิพากษ์วิจารณ์เกี่ยวกับค่า p ของผู้ถี่ประจำเช่น: ผลลัพธ์มักจะถูกพิจารณาว่า“ มีนัยสำคัญทางสถิติ” ถ้าค่า p น้อยกว่า 5 เปอร์เซ็นต์ แต่มีอันตรายในประเพณีนี้ Andrew Gelman ศาสตราจารย์ด้านสถิติของโคลัมเบียกล่าว แม้ว่านักวิทยาศาสตร์จะทำการคำนวณอย่างถูกต้องเสมอ - และพวกเขาไม่ทำเขาให้เหตุผล - ยอมรับทุกสิ่งด้วยค่า p-value 5 เปอร์เซ็นต์ซึ่งหมายความว่าหนึ่งใน 20 ของผลลัพธ์“ นัยสำคัญทางสถิติ” ไม่มีอะไรเลยนอกจากเสียงรบกวนแบบสุ่ม นอกจากนี้ข้างต้นบางทีกระดาษที่มีชื่อเสียงที่สุดที่วิจารณ์ p-value …

1
การถดถอยโลจิสติก: การทดสอบ anova ไคสแควร์กับความสำคัญของค่าสัมประสิทธิ์ (anova () เทียบกับสรุป () ใน R)
ฉันมีโมเดล GLM โลจิสติกส์พร้อมตัวแปร 8 ตัว ฉันรันการทดสอบไคสแควร์ใน R anova(glm.model,test='Chisq')และตัวแปร 2 ตัวกลายเป็นการคาดการณ์เมื่อสั่งที่ด้านบนของการทดสอบและไม่มากเมื่อสั่งที่ด้านล่าง summary(glm.model)แสดงให้เห็นว่าค่าสัมประสิทธิ์ของพวกเขาจะไม่มีนัยสำคัญสูง (p-value) ในกรณีนี้ดูเหมือนว่าตัวแปรจะไม่สำคัญ ฉันอยากถามว่าการทดสอบความสำคัญของตัวแปรใดดีขึ้น - ค่าสัมประสิทธิ์นัยสำคัญในการสรุปแบบจำลองหรือการทดสอบไคสแควanova()ร์ นอกจากนี้ - เมื่อใดอย่างใดอย่างหนึ่งดีกว่าอีก ฉันเดาว่ามันเป็นคำถามที่กว้างขวาง แต่พอยน์เตอร์ใด ๆ เกี่ยวกับสิ่งที่ต้องพิจารณาจะได้รับการชื่นชม

4
ค่า p ที่เล็กลงมีความน่าเชื่อถือมากกว่าหรือไม่
ฉันอ่านค่า value, อัตราข้อผิดพลาดประเภท 1, ระดับนัยสำคัญ, การคำนวณพลังงาน, ขนาดผลกระทบและการอภิปราย Fisher vs Neyman-Pearson นี่ทำให้ฉันรู้สึกท่วมท้นไปเล็กน้อย ฉันขอโทษสำหรับกำแพงข้อความ แต่ฉันรู้สึกว่าจำเป็นต้องให้ภาพรวมของความเข้าใจปัจจุบันของฉันเกี่ยวกับแนวคิดเหล่านี้ก่อนที่ฉันจะย้ายไปยังคำถามจริงของฉันppp จากสิ่งที่ฉันรวบรวมมาค่าเป็นเพียงการวัดความประหลาดใจความน่าจะเป็นที่จะได้ผลลัพธ์อย่างน้อยที่สุดเท่าที่เป็นไปได้เนื่องจากสมมติฐานว่างเป็นจริง ฟิชเชอร์มีจุดประสงค์เพื่อให้มันเป็นมาตรการต่อเนื่องppp ในกรอบงานของ Neyman-Pearson คุณเลือกระดับนัยสำคัญล่วงหน้าและใช้สิ่งนี้เป็นจุดตัด (โดยพลการ) ระดับนัยสำคัญเท่ากับอัตราข้อผิดพลาดประเภท 1 มันถูกกำหนดโดยความถี่ในระยะยาวเช่นถ้าคุณต้องทำการทดสอบซ้ำ 1,000 ครั้งและสมมติฐานว่างเป็นจริงการประมาณ 50 ของการทดลองเหล่านั้นจะส่งผลอย่างมีนัยสำคัญเนื่องจากความแปรปรวนของการสุ่มตัวอย่าง โดยการเลือกระดับความสำคัญเราจะป้องกันตนเองจากความผิดพลาดเชิงบวกเหล่านี้ด้วยความน่าจะเป็น แบบดั้งเดิมจะไม่ปรากฏในกรอบนี้PPP หากเราพบค่า 0.01 นี่ไม่ได้หมายความว่าอัตราความผิดพลาดประเภท 1 คือ 0.01 ข้อผิดพลาดประเภท 1 จะถูกระบุเป็นค่าเริ่มต้น ฉันเชื่อว่านี่เป็นหนึ่งในข้อโต้แย้งที่สำคัญในการอภิปราย Fisher vs NP เนื่องจากค่า value มักถูกรายงานเป็น 0.05 *, 0.01 **, 0.001 *** …

2
ค่าที่แน่นอนของ 'p-value' ไม่มีความหมายหรือไม่?
ฉันได้พูดคุยกับนักสถิติย้อนกลับไปเมื่อปี 2552 ซึ่งเขากล่าวว่าค่าที่แน่นอนของ p-value นั้นไม่เกี่ยวข้อง: สิ่งเดียวที่สำคัญคือไม่ว่ามันจะสำคัญหรือไม่ก็ตาม เช่นผลลัพธ์หนึ่งจะไม่สำคัญกว่าอีก ตัวอย่างของคุณอาจมาจากประชากรเดียวกันหรือไม่ก็ได้ ฉันมีคุณสมบัติบางอย่างกับสิ่งนี้ แต่บางทีฉันสามารถเข้าใจอุดมการณ์: ขีด จำกัด 5% นั้นเป็นกฎเกณฑ์นั่นคือ p = 0.051 นั้นไม่มีนัยสำคัญและ p = 0.049 คือไม่ควรเปลี่ยนข้อสรุปของการสังเกตหรือการทดสอบของคุณจริงๆแม้ว่าผลลัพธ์หนึ่งรายการจะสำคัญ เหตุผลที่ทำให้ตอนนี้ขึ้นมาก็คือตอนนี้ฉันกำลังศึกษาปริญญาโทด้านชีวสารสนเทศศาสตร์และหลังจากพูดคุยกับผู้คนในภาคสนามดูเหมือนว่าจะมีความมุ่งมั่นที่จะได้รับค่า p ที่แน่นอนสำหรับสถิติทุกชุดที่พวกเขาทำ ตัวอย่างเช่นหากพวกเขา 'บรรลุ' ค่า p ของ p <1.9 × 10 -12พวกเขาต้องการแสดงให้เห็นว่าผลลัพธ์ของพวกเขามีนัยสำคัญอย่างไรและผลลัพธ์นี้เป็นข้อมูลที่ยอดเยี่ยม ปัญหานี้เป็นตัวอย่างที่มีคำถามเช่น: เหตุใดฉันจึงไม่สามารถรับค่า p น้อยกว่า 2.2e-16 ได้ โดยที่พวกเขาต้องการบันทึกค่าที่บ่งชี้ว่าโดยบังเอิญเพียงอย่างเดียวนี่จะน้อยกว่า 1 ในล้านล้าน แต่ฉันเห็นความแตกต่างเล็กน้อยในการแสดงให้เห็นว่าผลลัพธ์นี้จะเกิดขึ้นน้อยกว่า 1 ในล้านล้านเมื่อเทียบกับ 1 ในพันล้าน ฉันรู้สึกซาบซึ้งที่ …

4
เหตุใดค่า p ต่ำกว่าจึงไม่มีหลักฐานมากขึ้นต่อโมฆะ? ข้อโต้แย้งจาก Johansson 2011
Johansson (2011) ใน " ทักทายสิ่งที่เป็นไปไม่ได้: ค่า p, หลักฐานและโอกาส " (ที่นี่ยังเชื่อมโยงไปยังวารสาร ) ระบุว่าค่าต่ำกว่ามักจะถือว่าเป็นหลักฐานที่แข็งแกร่งต่อโมฆะ Johansson หมายความว่าคนจะพิจารณาหลักฐานโมฆะจะแข็งแกร่งถ้าทดสอบทางสถิติของพวกเขาออกมาพี -value ของ0.01 , กว่าถ้าทดสอบทางสถิติของพวกเขาออกมาพี -value ของ0.45 Johansson แสดงเหตุผลสี่ประการที่ทำให้ไม่สามารถใช้ค่าpเป็นหลักฐานต่อโมฆะ:พีppพีpp0.010.010.01พีpp0.450.450.45พีpp ถูกกระจายอย่างสม่ำเสมอภายใต้สมมติฐานว่างดังนั้นจึงไม่สามารถระบุหลักฐานสำหรับโมฆะได้พีpp เป็นเงื่อนไขเพียงอย่างเดียวในสมมติฐานว่างและดังนั้นจึงไม่เหมาะสมที่จะหาหลักฐานเชิงปริมาณเพราะหลักฐานมักจะสัมพันธ์กันในความรู้สึกของการเป็นหลักฐานสำหรับหรือต่อต้านสมมติฐานที่เกี่ยวข้องกับสมมติฐานอื่นพีpp กำหนดความน่าจะเป็นในการได้มาซึ่งหลักฐาน (ให้เป็นโมฆะ) แทนที่จะเป็นความแข็งแกร่งของหลักฐานพีpp ขึ้นอยู่กับข้อมูลที่ไม่ได้ตรวจสอบและความตั้งใจส่วนตัวและดังนั้นจึงมีนัยถึงการตีความที่เป็นหลักฐานว่ากำลังของหลักฐานที่สังเกตได้นั้นขึ้นอยู่กับสิ่งที่ไม่ได้เกิดขึ้นและความตั้งใจส่วนตัวppp น่าเสียดายที่ฉันไม่สามารถเข้าใจได้อย่างง่ายจากบทความของ Johansson ให้ฉัน -value ของ0.01แสดงว่ามีโอกาสน้อย null เป็นจริงกว่าP -value ของ0.45 เหตุใดค่าpต่ำกว่าจึงไม่มีหลักฐานที่ดีกว่าต่อโมฆะ? ppp0.010.010.01ppp0.450.450.45ppp

2
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov?
อะไรคือความแตกต่างระหว่างการทดสอบตามปกติของชาปิโร - วิลค์กับการทดสอบภาวะปกติของ Kolmogorov-Smirnov? ผลลัพธ์จากทั้งสองวิธีนี้จะแตกต่างกันเมื่อใด

3
การทดสอบทางสถิติเพื่อบอกว่าสองตัวอย่างถูกดึงจากประชากรเดียวกันหรือไม่
สมมุติว่าฉันมีสองตัวอย่าง ถ้าฉันต้องการที่จะบอกว่าพวกเขาถูกดึงมาจากประชากรที่แตกต่างกันฉันสามารถเรียกใช้การทดสอบ แต่สมมุติว่าฉันต้องการทดสอบว่ากลุ่มตัวอย่างมาจากประชากรเดียวกันหรือไม่ คนเราจะทำสิ่งนี้ได้อย่างไร นั่นคือฉันจะคำนวณความน่าจะเป็นทางสถิติที่ทั้งสองตัวอย่างถูกดึงจากประชากรเดียวกันได้อย่างไร

5
นักวิจัยแต่ละคนควรคิดอย่างไรเกี่ยวกับอัตราการค้นพบที่ผิด?
ฉันได้พยายามสรุปว่า False Discovery Rate (FDR) ควรแจ้งข้อสรุปของนักวิจัยแต่ละคนอย่างไร ตัวอย่างเช่นถ้าการศึกษาของคุณจะ underpowered คุณควรลดผลลัพธ์ของคุณแม้ว่าพวกเขาจะมีนัยสำคัญที่ ? หมายเหตุ: ฉันกำลังพูดถึง FDR ในบริบทของการตรวจสอบผลลัพธ์ของการศึกษาหลาย ๆ ครั้งในภาพรวมไม่ใช่วิธีการแก้ไขการทดสอบหลายรายการα=.05α=.05\alpha = .05 การสร้างสมมุติฐาน (อาจเผื่อแผ่) ที่ของการทดสอบสมมติฐานเป็นจริงจริง FDR เป็นหน้าที่ของทั้งอัตราการผิดพลาดประเภทที่ 1 และประเภท II ดังต่อไปนี้:∼.5∼.5\sim.5 FDR=αα+1−β.FDR=αα+1−β.\text{FDR} = \frac{\alpha}{\alpha+1-\beta}. มีเหตุผลที่ว่าหากการศึกษามีความไม่เพียงพอเราไม่ควรเชื่อถือผลลัพธ์แม้ว่าจะมีความสำคัญเท่าที่เราจะได้รับการศึกษาอย่างเพียงพอ ดังนั้นตามที่นักสถิติบางคนอาจกล่าวว่ามีสถานการณ์ที่ "ในระยะยาว" เราอาจเผยแพร่ผลลัพธ์ที่สำคัญหลายอย่างที่เป็นเท็จหากเราปฏิบัติตามแนวทางดั้งเดิม หากร่างกายของการวิจัยมีเอกลักษณ์เฉพาะด้วยการศึกษาที่ไม่ได้รับการยอมรับอย่างต่อเนื่อง (เช่นยีนของผู้สมัครวรรณกรรมเกี่ยวกับสภาพแวดล้อมของทศวรรษก่อนหน้า ) แม้กระทั่งการค้นพบที่มีนัยสำคัญที่ทำซ้ำ××\times การใช้แพคเกจการ R extrafont, ggplot2และxkcdผมคิดว่านี่อาจจะมีแนวความคิดที่เป็นประโยชน์ในฐานะที่เป็นปัญหาของมุมมอง: รับข้อมูลนี้สิ่งที่นักวิจัยแต่ละคนควรจะทำอย่างไรต่อไป ? ถ้าฉันเดาได้ว่าขนาดของเอฟเฟกต์ที่ฉันกำลังศึกษาควรจะเป็นขนาดใด (และด้วยการประมาณ1−β1−β1 - \betaตามขนาดตัวอย่างของฉัน) ฉันควรปรับระดับของฉันαα\alphaจนกว่า FDR …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.