สถิติและข้อมูลขนาดใหญ่ replicability

คัมมิง (2008) อ้างว่าการกระจายของค่า p ที่ได้รับในการจำลองขึ้นอยู่กับค่า p เดิมเท่านั้น มันจะเป็นจริงได้อย่างไร?

ผมได้อ่านเจฟฟ์คัมมิงกระดาษ 2008 การจำลองแบบและช่วงเวลา:ค่าทำนายอนาคตเพียงราง ๆ แต่ช่วงความเชื่อมั่นทำได้ดีกว่าpppppp พีพี[~ 200 อ้างอิงใน Google Scholar] - และกำลังสับสนโดยหนึ่งของการเรียกร้องที่อยู่ใจกลางเมือง นี่คือหนึ่งในชุดเอกสารที่คัมมิงโต้แย้งกับ value และสนับสนุนช่วงความมั่นใจ คำถามของฉัน แต่เป็นไม่ได้เกี่ยวกับการอภิปรายครั้งนี้และมีเพียงการเรียกร้องความกังวลหนึ่งที่เฉพาะเจาะจงเกี่ยวกับ -valuespppppp ให้ฉันอ้างอิงจากนามธรรม: บทความนี้แสดงให้เห็นว่าถ้าผลการทดสอบครั้งแรกในสองด้าน , มี โอกาสที่นกหนึ่ง -value จากการจำลองแบบจะตกอยู่ในช่วงเวลาเป็นโอกาสที่และอย่างเต็มที่โอกาสที่0.44 ช่วงเวลาที่เรียกว่าช่วงเวลามีความกว้างนี้ แต่ขนาดตัวอย่างใหญ่p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p<.00008p<.00008p < .0000810%10%10\%p>.44p>.44p > .44ppp คัมมิงอ้างว่า "ช่วง" และในความเป็นจริงการกระจายทั้ง -values ที่หนึ่งจะได้รับเมื่อจำลองการทดลองเดิม (แบบเดียวกับขนาดตัวอย่างคงที่) ขึ้นอยู่เฉพาะในต้นฉบับ -valueและไม่ขึ้นอยู่กับขนาดผลกระทบที่แท้จริงกำลังไฟขนาดตัวอย่างหรือสิ่งอื่นใด:pppp p o b tpppppppobtpobtp_\mathrm{obt} [... ] การกระจายความน่าจะเป็นของสามารถได้มาโดยไม่ทราบหรือสมมติว่ามีค่าสำหรับ (หรือพลังงาน) [... …

52 hypothesis-testing p-value power replicability

การทดลองซ้ำส่วนใดที่จะมีขนาดผลภายในช่วงความมั่นใจ 95% ของการทดสอบครั้งแรก

มายึดติดกับสถานการณ์ในอุดมคติด้วยการสุ่มตัวอย่างประชากรเกาส์เซียนความแปรปรวนที่เท่าเทียมกันไม่มีการแฮ็ค P เป็นต้น ขั้นตอนที่ 1 คุณเรียกใช้การทดลองพูดเปรียบเทียบค่าเฉลี่ยตัวอย่างสองค่าและคำนวณช่วงความมั่นใจ 95% สำหรับความแตกต่างระหว่างค่าเฉลี่ยประชากรสองค่า ขั้นตอนที่ 2 คุณเรียกใช้การทดลองอื่น ๆ อีกมากมาย (หลักพัน) ความแตกต่างระหว่างค่าเฉลี่ยจะแตกต่างจากการทดสอบไปจนถึงการทดสอบเนื่องจากการสุ่มตัวอย่าง คำถาม: ส่วนต่างของค่าเฉลี่ยจากการรวบรวมการทดลองในขั้นตอนที่ 2 จะอยู่ในช่วงความมั่นใจของขั้นตอนที่ 1 ไม่สามารถตอบได้ ทุกอย่างขึ้นอยู่กับสิ่งที่เกิดขึ้นในขั้นตอนที่ 1 หากการทดสอบขั้นตอนที่ 1 นั้นผิดปกติมากคำตอบของคำถามอาจต่ำมาก ลองจินตนาการว่าทั้งสองขั้นตอนซ้ำหลายครั้ง (ด้วยขั้นตอนที่ 2 ซ้ำหลายครั้ง) ตอนนี้มันน่าจะเป็นไปได้แล้วฉันคิดว่าจะเกิดความคาดหวังว่าการทดลองซ้ำ ๆ โดยเฉลี่ยจะมีขนาดผลภายในช่วงความมั่นใจ 95% ของการทดลองครั้งแรก ดูเหมือนว่าคำตอบสำหรับคำถามเหล่านี้จำเป็นต้องเข้าใจเพื่อประเมินความสามารถในการทำซ้ำของการศึกษาซึ่งเป็นพื้นที่ร้อนแรงในขณะนี้

12 confidence-interval replicability

คำถามติดแท็ก replicability