คัมมิง (2008) อ้างว่าการกระจายของค่า p ที่ได้รับในการจำลองขึ้นอยู่กับค่า p เดิมเท่านั้น มันจะเป็นจริงได้อย่างไร?


52

ผมได้อ่านเจฟฟ์คัมมิงกระดาษ 2008 การจำลองแบบและช่วงเวลา:ค่าทำนายอนาคตเพียงราง ๆ แต่ช่วงความเชื่อมั่นทำได้ดีกว่าpp พีพี[~ 200 อ้างอิงใน Google Scholar] - และกำลังสับสนโดยหนึ่งของการเรียกร้องที่อยู่ใจกลางเมือง นี่คือหนึ่งในชุดเอกสารที่คัมมิงโต้แย้งกับ value และสนับสนุนช่วงความมั่นใจ คำถามของฉัน แต่เป็นไม่ได้เกี่ยวกับการอภิปรายครั้งนี้และมีเพียงการเรียกร้องความกังวลหนึ่งที่เฉพาะเจาะจงเกี่ยวกับ -valuespp

ให้ฉันอ้างอิงจากนามธรรม:

บทความนี้แสดงให้เห็นว่าถ้าผลการทดสอบครั้งแรกในสองด้าน , มี โอกาสที่นกหนึ่ง -value จากการจำลองแบบจะตกอยู่ในช่วงเวลาเป็นโอกาสที่และอย่างเต็มที่โอกาสที่0.44 ช่วงเวลาที่เรียกว่าช่วงเวลามีความกว้างนี้ แต่ขนาดตัวอย่างใหญ่p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

คัมมิงอ้างว่า "ช่วง" และในความเป็นจริงการกระจายทั้ง -values ที่หนึ่งจะได้รับเมื่อจำลองการทดลองเดิม (แบบเดียวกับขนาดตัวอย่างคงที่) ขึ้นอยู่เฉพาะในต้นฉบับ -valueและไม่ขึ้นอยู่กับขนาดผลกระทบที่แท้จริงกำลังไฟขนาดตัวอย่างหรือสิ่งอื่นใด:pp p o b tpppobt

[... ] การกระจายความน่าจะเป็นของสามารถได้มาโดยไม่ทราบหรือสมมติว่ามีค่าสำหรับ (หรือพลังงาน) [... ] เราไม่คิดว่าความรู้ก่อนหน้าเกี่ยวกับและเราใช้เฉพาะข้อมูล [ข้อสังเกตระหว่างความแตกต่างระหว่างกลุ่ม] ให้เกี่ยวกับเป็นพื้นฐานสำหรับการคำนวณสำหรับกำหนดของการกระจายตัวของ และช่วงเวลาpδδMdiffδpobtpp

คัมมิง 2551

ฉันสับสนเพราะสิ่งนี้สำหรับฉันดูเหมือนว่าการกระจายของค่าขึ้นอยู่กับอำนาจอย่างมากในขณะที่ต้นฉบับของตัวเองไม่ได้ให้ข้อมูลใด ๆ เกี่ยวกับมัน อาจเป็นไปได้ว่าขนาดเอฟเฟกต์จริงคือจากนั้นการกระจายจะเป็นแบบเดียวกัน หรืออาจจะมีขนาดผลจริงเป็นอย่างมากและแล้วเราควรคาดหวังว่าส่วนใหญ่มีขนาดเล็กมาก -values แน่นอนว่าเราสามารถเริ่มต้นด้วยการสมมติขนาดของเอฟเฟกต์ที่เป็นไปได้ก่อนหน้านี้และรวมเข้าด้วยกัน แต่คัมมิงดูเหมือนจะอ้างว่านี่ไม่ใช่สิ่งที่เขาทำp o b t δ = 0 pppobtδ=0p

คำถาม:เกิดอะไรขึ้นที่นี่?


โปรดทราบว่าหัวข้อนี้เกี่ยวข้องกับคำถามนี้: ส่วนใดของการทดลองซ้ำจะมีขนาดผลภายในช่วงความมั่นใจ 95% ของการทดสอบครั้งแรก ด้วยคำตอบที่ยอดเยี่ยมโดย @whuber คัมมิงมีกระดาษในหัวข้อนี้ที่: คัมมิง & Maillardet, 2549, ช่วงความเชื่อมั่นและการจำลอง: ที่ไหนจะหมายถึงการล่มสลายต่อไป? - แต่สิ่งนั้นชัดเจนและไร้ประโยชน์

ฉันยังทราบด้วยว่าการเรียกร้องของคัมมิงซ้ำแล้วซ้ำอีกหลายครั้งในกระดาษวิธีธรรมชาติปี 2015 ค่าความไม่แน่นอนสร้างผลลัพธ์Pที่ไม่อาจพิสูจน์ได้ซึ่งคุณบางคนอาจเจอ

[... ] จะมีการเปลี่ยนแปลงที่สำคัญในค่าของการทดสอบซ้ำ ในความเป็นจริงการทดลองซ้ำแล้วซ้ำอีก; เราไม่ทราบว่าต่อไปอาจแตกต่างกันอย่างไร แต่มีโอกาสที่มันจะแตกต่างกันมาก ตัวอย่างเช่นโดยไม่คำนึงถึงพลังทางสถิติของการทดสอบหากการทำซ้ำเดียวส่งคืนค่าจะมีโอกาสที่การทดสอบซ้ำจะส่งคืนค่าระหว่างถึง (และการเปลี่ยนแปลง [sic] ที่จะยิ่งใหญ่กว่า)P P 0.05 80 % P 0 0.44 20 % PPPP0.0580%P00.4420%P

(หมายเหตุโดยวิธีอย่างไรโดยไม่คำนึงถึงว่าคำสั่งของคัมมิงถูกต้องหรือไม่กระดาษวิธีธรรมชาติราคามันไม่ถูกต้อง: ตามคัมมิงเป็นเพียงน่าจะเป็นสูงกว่าและใช่กระดาษพูดว่า "20% จังg e ". Pfff.)0.4410%0.44


8
การเรียกร้องใด ๆ แบบนี้จะไม่เป็นไปตามเงื่อนไขในสภาพของธรรมชาติที่สันนิษฐานเอาไว้ - และโดยปกติแล้วมันจะเป็นสมมติฐานว่างเปล่าหรือไม่? สำหรับสมมติฐานว่างอย่างง่ายและสถิติการกระจายอย่างต่อเนื่อง p-value จะมีการแจกแจงแบบเดียวกัน ทุกอย่างไหลจากข้อเท็จจริงนั้น
whuber

4
@whuber การกระจายที่แสดงในรูปที่ 5 ที่ฉันทำซ้ำที่นี่ไม่ชัดเจนเหมือนกัน ฉันเห็นด้วยแม้ว่าการแจกจ่ายใด ๆ เช่นนั้นจะต้องเป็นไปตามเงื่อนไขเกี่ยวกับสภาพธรรมชาติ แต่คัมมิงดูเหมือนจะอ้างสิทธิ์ตรงกันข้าม ดังนั้นคำถามของฉัน: สิ่งที่เกิดขึ้นจริงในบทความนี้? ฉันเข้าใจผิดการเรียกร้องหรือไม่ กระดาษผิดหรือเปล่า? เราสามารถหาข้อสมมติฐานที่ซ่อนอยู่ได้ไหม? อื่น ๆ
อะมีบากล่าวว่า Reinstate Monica

หมายเหตุสำหรับตัวเอง: arxiv.org/abs/1609.01664นี้มีความเกี่ยวข้อง แต่เห็นได้อย่างรวดเร็วไม่ได้แก้ปริศนาของฉัน
อะมีบากล่าวว่า Reinstate Monica

1
ฉันหวังว่าฉันจะไม่ให้การแข่งขันในสัปดาห์นี้หรือฉันจะใช้เวลากับมัน ไม่สมเหตุสมผลที่ค่า p ต่อมาควรขึ้นอยู่กับกำลังไฟหากขนาดตัวอย่างทั้งสองเท่ากัน ค่า p ที่สังเกตควรขึ้นอยู่กับค่าที่แท้จริงของพารามิเตอร์และการเลือกค่าว่าง ประโยชน์ของการประมาณขึ้นอยู่กับกำลังไฟ แต่นั่นไม่ใช่คำถามที่นี่
Dave Harris

3
ฉันออกไปจากลีกของฉันที่นี่ ... แต่อ่านหนังสือพิมพ์ดูเหมือนว่าทุกอย่างอยู่ในบริบทของการทดสอบเพื่อหาความแตกต่างที่สำคัญในวิธีการของประชากร Gaussian สองที่มีความแปรปรวนและขนาดตัวอย่างที่รู้จักกันโดยมีค่า 0 ถูกต้องไหม (เช่นโดยที่ภายใต้ค่าว่าง) หรือกระดาษมีขอบเขตที่กว้างขึ้นเช่น คำถาม / ความคิดเห็นที่นี่ดูเหมือนจะบ่งบอก? z=Δx¯σN2Nz,1z=ΔμσN2=0
GeoMatt22

คำตอบ:


21

สรุป:เคล็ดลับที่ดูเหมือนจะเป็นวิธีเบย์ซึ่งถือว่าเป็นเครื่องแบบ ( Jeffreys ) ก่อนหน้าสำหรับพารามิเตอร์ที่ซ่อนอยู่ (ในภาคผนวก B ของกระดาษ,ที่นี่)zμθ

ฉันเชื่อว่าอาจมีแนวทางแบบเบย์เพื่อรับสมการที่ระบุในภาคผนวก B ของเอกสาร

ตามที่ผมเข้าใจมันทดลองเดือดลงไปเป็นสถิติ1} ค่าเฉลี่ยของการกระจายการสุ่มตัวอย่างไม่เป็นที่รู้จัก แต่หายไปภายใต้สมมติฐาน, 0zNθ,1θθH0=0

โทรสังเกตทดลองสถิติ1} แล้วถ้าเราคิดว่า "เหมือนกัน" ( ที่ไม่เหมาะสม ) ก่อนในที่หลังคชกรรมเป็น1} ถ้าเรานั้นปรับปรุงการกระจายการสุ่มตัวอย่างต้นฉบับโดย marginalizing มากกว่า , หลังกลายเป็น2} (ความแปรปรวนสองเท่าเกิดจากการโน้มน้าวใจของ Gaussians)z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2

อย่างน้อยในทางคณิตศาสตร์ดูเหมือนว่าจะใช้งานได้ และมันอธิบายวิธีที่ตัวประกอบ "น่าอัศจรรย์" ปรากฏขึ้นจากสมการ B2 ไปจนถึงสมการ B312


อภิปรายผล

ผลลัพธ์นี้จะกระทบกับกรอบการทดสอบสมมติฐานว่างได้อย่างไร การตีความหนึ่งที่เป็นไปได้มีดังนี้

ในกรอบมาตรฐานสมมติฐานว่างในบางแง่มุม "เริ่มต้น" (เช่นเราพูดถึง "ปฏิเสธโมฆะ") ในบริบทคชกรรมข้างต้นนี้จะเป็นไม่สม่ำเสมอก่อนว่าชอบ 0 หากเราทำสิ่งนี้ให้เป็นความแปรปรวนหมายถึงความไม่แน่นอนก่อนหน้านี้θ=0θN0,λ2λ2

ก่อนดำเนินการผ่านการวิเคราะห์ข้างต้นเราจะพบ จากนี้เราจะเห็นว่าในขีด จำกัดเรากู้คืนการวิเคราะห์ข้างต้น แต่ในขอบเขต "posteriors" ของเรากลายเป็นโมฆะและดังนั้นเรากู้คืนผลมาตรฐาน{0,1}

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1

(สำหรับการศึกษาซ้ำ ๆ ข้างต้นแสดงให้เห็นคำถามที่น่าสนใจที่นี่เกี่ยวกับผลกระทบของการปรับปรุงแบบเบย์เทียบกับวิธีการ"ดั้งเดิม"สำหรับการวิเคราะห์เมตาดาต้าฉันไม่รู้เรื่องของการวิเคราะห์เมตาอย่างสมบูรณ์!)


ภาคผนวก

ตามที่ร้องขอในความคิดเห็นนี่คือโครงร่างสำหรับการเปรียบเทียบ นี่เป็นการประยุกต์ใช้สูตรที่ค่อนข้างตรงไปตรงมาในกระดาษ อย่างไรก็ตามฉันจะเขียนออกมาเพื่อให้แน่ใจว่าไม่มีความคลุมเครือ

ให้แทนค่า p ด้านเดียวสำหรับสถิติและแสดง (หลัง) CDF โดยใหญ่] ดังนั้นสมการ B3 จากภาคผนวกจึงเท่ากับ โดยที่เป็น CDF ปกติมาตรฐาน ความหนาแน่นที่สอดคล้องกันนั้นคือ ที่เป็นมาตรฐานรูปแบบไฟล์ PDF ปกติและในขณะที่ สูตร CDF ในที่สุดถ้าเราแสดงโดยข้อสังเกตpz F[p]=1-Φ [ 1F[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^ค่า p สองด้านที่สอดคล้องกับจากนั้นเรามี z^
z^=Φ1[1p^2]

การใช้สมการเหล่านี้ให้ตัวเลขด้านล่างซึ่งควรเทียบได้กับรูปที่ 5 ของกระดาษในคำถาม "การสืบพันธุ์" ของคัมมิง (2008) รูปที่ 5 ผ่านสูตรโพสต์

(สิ่งนี้ผลิตโดยรหัส Matlab ต่อไปนี้ทำงานที่นี่ )

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

1
ความหวังของฉันคือโดยการเปิดเผยสมมติฐานพื้นฐาน(เช่นชุดก่อนพารามิเตอร์ซ่อน) ตอนนี้การสนทนาสามารถมุ่งเน้นไปที่คำถามทางวิทยาศาสตร์ / สถิติที่ฉันเชื่อว่าเป็นเป้าหมายของคุณ! (แทนที่จะเป็นคำถามทางคณิตศาสตร์ / ความน่าจะเป็นที่ฉันตอบไปแล้ว)
GeoMatt22

ฉันพบการสนทนาที่เก่าและไม่แก่มากในหัวข้อนี้: Goodman 1992ความคิดเห็นใน Goodman โดยSenn 2002และLazzeroni et al 2014ล่าสุด คนสุดท้ายดูเหมือนจะไม่ค่อยช่วยเหลือ (แต่ฉันพูดถึงมันเพื่อความสมบูรณ์) แต่สองคนแรกโดยเฉพาะความคิดเห็นของ Senn ปรากฏตรงประเด็นมาก
อะมีบาพูดว่า Reinstate Monica

อะมีบาขอบคุณสำหรับการขุดการอ้างอิงเหล่านี้พวกเขาดูน่าสนใจ! เพื่อความสมบูรณ์ฉันได้เพิ่มส่วน "การสนทนา" ที่พยายามเชื่อมต่อกับผลลัพธ์คัมมิงและเฟรมเวิร์กมาตรฐาน
GeoMatt22

อัปเดต: ฉันอ่านเอกสารของกู๊ดแมนและ Senn ที่ลิงก์ด้านบนและตอนนี้ได้โพสต์คำตอบของฉันเองเพื่อสรุปปรีชาปัจจุบันของฉัน (โดยวิธีการที่ฉันมีความสุขที่จะยอมรับคำตอบของคุณและให้รางวัลมันขอบคุณอีกครั้ง)
อะมีบาพูดว่า Reinstate Monica

27

ขอบคุณสำหรับการอภิปรายที่น่าสนใจ! เมื่อเขียนบทความปี 2008 ฉันต้องใช้เวลาสักครู่ในการโน้มน้าวใจตัวเองว่าการกระจายตัวของการจำลองแบบp ( ค่าp ที่กำหนดโดยการจำลองแบบที่แน่นอนของการศึกษาหมายถึงการศึกษาที่เหมือนกัน แต่ด้วยตัวอย่างใหม่) ขึ้นอยู่กับ เฉพาะในp ที่ได้รับจากการศึกษาดั้งเดิม (ในกระดาษฉันสมมติว่ามีการกระจายตัวของประชากรและการสุ่มตัวอย่างแบบสุ่มและการศึกษาของเราตั้งเป้าหมายที่จะประมาณค่าเฉลี่ยของประชากร) ดังนั้นช่วงเวลาp (ช่วงการทำนาย 80% สำหรับการจำลองแบบp ) เหมือนกันไม่ว่าNใด พลังงานหรือขนาดผลกระทบที่แท้จริงของการศึกษาต้นฉบับ

แน่นอนว่ามันไม่น่าเชื่อในตอนแรก แต่ทราบอย่างรอบคอบว่าคำสั่งเดิมของฉันอยู่บนพื้นฐานของการรู้หน้าจากการศึกษาเดิม คิดแบบนี้ สมมติว่าคุณบอกฉันว่าการศึกษาดั้งเดิมของคุณพบp = .05 คุณบอกอะไรฉันไม่ได้เกี่ยวกับการศึกษา ฉันรู้ว่า 95% CI ในค่าเฉลี่ยตัวอย่างของคุณขยายไปถึงศูนย์อย่างแน่นอน (สมมติว่าpคำนวณมาจากสมมติฐานว่างจากศูนย์) ค่าเฉลี่ยตัวอย่างของคุณคือ MoE (ความยาวของแขนข้างหนึ่งของ 95% CI) เพราะมันคือระยะห่างจากศูนย์ การกระจายตัวตัวอย่างของค่าเฉลี่ยจากการศึกษาเช่นคุณมีค่าเบี่ยงเบนมาตรฐาน MoE / 1.96 นั่นเป็นข้อผิดพลาดมาตรฐาน

พิจารณาค่าเฉลี่ยที่กำหนดโดยการจำลองแบบที่แน่นอน การกระจายตัวของค่าเฉลี่ยของการจำลองแบบนั้นมีค่าเฉลี่ย MoE นั่นคือการกระจายนั้นมีศูนย์กลางที่ค่าเฉลี่ยตัวอย่างดั้งเดิมของคุณ พิจารณาความแตกต่างระหว่างค่าเฉลี่ยตัวอย่างของคุณกับค่าเฉลี่ยการจำลองแบบ มันมีความแปรปรวนเท่ากับผลรวมของความแปรปรวนของค่าเฉลี่ยของการศึกษาเช่นการศึกษาดั้งเดิมของคุณและการจำลองแบบ นั่นคือความแปรปรวนของการศึกษาสองเท่าเช่นการศึกษาดั้งเดิมของคุณนั่นคือ 2 x SE ^ 2 ซึ่งคือ 2 x (MoE / 1.96) ^ 2 ดังนั้น SD ของความแตกต่างนั้นคือ SQRT (2) x MoE / 1.96

เราจึงรู้ว่าการกระจายตัวของการจำลองแบบ: ค่าเฉลี่ยของมันคือ MoE และ SD คือ SQRT (2) x MoE / 1.96 แน่นอนว่าสเกลแนวนอนนั้นเป็นกฎเกณฑ์ แต่เราจำเป็นต้องรู้ว่าการกระจายนี้เกี่ยวข้องกับ CI จากการศึกษาดั้งเดิมของคุณ เมื่อใช้การจำลองแบบค่าเฉลี่ยส่วนใหญ่ (ประมาณ 83%) จะลดลงในต้นฉบับ 95% CI และประมาณ 8% จะลดลงต่ำกว่านั้น (เช่นต่ำกว่าศูนย์ถ้าค่าเฉลี่ยดั้งเดิมของคุณคือ> 0) และ 8% สูงกว่านั้น CI หากเราทราบว่าการจำลองแบบหมายถึงตรงกับ CI ดั้งเดิมของคุณหรือไม่เราสามารถคำนวณค่าpได้ เรารู้ว่าการกระจายของวิธีการทำแบบจำลองดังกล่าว (ในความสัมพันธ์กับ CI ของคุณ) เพื่อให้เราสามารถคิดออกกระจายของการจำลองแบบพีราคา. ข้อสันนิษฐานเดียวที่เราทำเกี่ยวกับการจำลองแบบคือแน่นอนเช่นมาจากประชากรเดียวกันที่มีขนาดผลเท่ากันกับการศึกษาดั้งเดิมของคุณและN (และการออกแบบการทดลอง) เหมือนกันในการศึกษาของคุณ .

ทั้งหมดข้างต้นเป็นเพียงการถกเถียงในบทความโดยไม่มีรูปภาพ

อาจเป็นประโยชน์ในการคิดว่าp = .05 ในการศึกษาดั้งเดิมมีความหมายอย่างไร อาจหมายความว่าคุณมีการศึกษาขนาดใหญ่ที่มีเอฟเฟกต์ขนาดเล็กหรือการศึกษาขนาดจิ๋วที่มีเอฟเฟกต์ขนาดยักษ์ ไม่ว่าด้วยวิธีใดถ้าคุณทำซ้ำการศึกษานั้น (เช่นเดียวกับN , ประชากรเดียวกัน) คุณจะไม่ต้องสงสัยเลยว่าค่าเฉลี่ยตัวอย่างแตกต่างกันบ้าง ปรากฎว่าในแง่ของค่าp 'ค่อนข้างแตกต่าง' เหมือนกันไม่ว่าคุณจะมีการศึกษาขนาดใหญ่หรือเล็ก บอกค่าpของคุณให้ฉันหน่อยแล้วฉันจะบอกpช่วงเวลาของคุณ

เจฟฟ์


8
ขอบคุณมากที่ลงทะเบียนในเว็บไซต์นี้เพื่อตอบคำถามของฉัน! ฉันซาบซึ้งมาก ฉันยังไม่มั่นใจ แต่ฉันจะใช้เวลาสักครู่เพื่อไตร่ตรองคำตอบของคุณ ความรู้สึกปัจจุบันของฉันคือการที่คุณสร้างจุดที่ถูกต้อง แต่ฉันไม่เห็นด้วยกับวิธีการที่คุณกำหนด การคัดค้านอย่างง่าย ๆ อย่างหนึ่ง: p = 0.05 นั้นสอดคล้องกับ H0 ที่เป็นจริง ถ้า H0 เป็นจริง p จะอยู่ในช่วง 0.04-0.05 1% ของเวลา หากเป็นกรณีนี้การกระจายของการจำลองแบบ P-ค่าจะเป็นเครื่องแบบจาก 0 ถึง 1 แต่คุณคาดการณ์การกระจายแตกต่างกันสำหรับหน้าเริ่มต้นเท่ากับ 0.05 ในทุกสถานการณ์ เราควรคิดเกี่ยวกับมันอย่างไร?
อะมีบากล่าวว่า Reinstate Monica

7
ข้อสันนิษฐานโดยนัยในการโต้แย้งนี้ดูไม่สามารถป้องกันได้: มันเป็น "การจำลองแบบที่แน่นอน" มีค่าเฉลี่ยเท่ากับ MoE หากโดย "การจำลองแบบที่แน่นอน" เราหมายถึงการทำซ้ำการทดสอบด้วยสภาวะของธรรมชาติเดียวกันดังนั้นการกระจายของสถิติการทดสอบไม่เป็นที่รู้จัก: ขึ้นอยู่กับสถานะของธรรมชาติ นอกเหนือจากการใช้มุมมองแบบเบย์ - ซึ่งหมายความว่าคุณจำเป็นต้องระบุอย่างชัดเจนก่อน - เกี่ยวกับวิธีเดียวที่จะทำให้ความคืบหน้าคือการคำนวณความน่าจะเป็นก่อนที่จะดำเนินการดั้งเดิมหรือการทำซ้ำ
whuber

2
@ user43849 ฉันขอแสดงความนับถือว่าบุคคลดังกล่าวไม่เข้าใจว่าค่า p คืออะไร ค่า p จะบอกว่ามีน้อยหรือไม่มีเลยเกี่ยวกับการทดลองในอนาคต มีแนวคิดเกี่ยวกับช่วงเวลาการทำนายที่ใช้บ่อยที่นี่: คำถามของการจำลองแบบเพียงแค่เกี่ยวข้องกับช่วงการทำนายสำหรับค่า p ของการทดลองในอนาคตเดียว คำตอบนั้นมีพื้นฐานมาจากทฤษฎีทางสถิติแบบคลาสสิกโดยไม่ต้องมีแนวคิดที่เป็นนวัตกรรมและเป็นสิ่งที่ไม่ใช่เบย์ในใจ
whuber

2
@ เมื่อมีการขุดลงในกระดาษฉันเชื่อว่าอาจมีข้อสรุปแบบเบย์โดยนัยเกี่ยวกับการออกกำลังกาย (ดูคำตอบของฉัน)
GeoMatt22

1
@GeoMatt ใช่นั่นเป็นวิธีเดียวที่จะปรับการคำนวณ
whuber

10

ปัญหานี้ได้รับการชี้แจงโดย @ GeoMatt22 และฉันยินดีที่ได้เห็น @GeoffCumming มาที่นี่เพื่อมีส่วนร่วมในการอภิปราย ฉันโพสต์คำตอบนี้เป็นคำอธิบายเพิ่มเติม


มันจะเปิดออก, การสนทนานี้กลับไปอย่างน้อยถึงกู๊ดแมน (1992) ความคิดเห็นเกี่ยวกับการจำลองแบบ P-ค่าและหลักฐานและการตอบกลับในภายหลังSenn (2002)จดหมายถึงบรรณาธิการ ฉันขอแนะนำให้อ่านบทความสั้น ๆ ทั้งสองนี้โดยเฉพาะบทความของ Stephen Senn ฉันพบว่าตัวเองเห็นด้วยกับ Senn

ถ้าฉันได้อ่านเอกสารเหล่านี้ก่อนถามคำถามนี้ฉันน่าจะไม่โพสต์เลย สามี (ต่างจากคัมมิง) ระบุอย่างชัดเจนว่าเขาคิดว่าการตั้งค่าแบบเบย์กับแบนก่อน เขาไม่ได้แสดงการแจกแจงแบบตามที่คัมมิงทำและแทนที่จะรายงานความน่าจะเป็นในการสังเกต "นัยสำคัญ"ส่งผลให้เกิดการทดลองจำลองแบบ:p < 0.05pp<0.05

กู๊ดแมน 1992

ประเด็นหลักของเขาคือความน่าจะเป็นที่ต่ำอย่างน่าประหลาดใจ (แม้กระทั่งสำหรับมันก็แค่ ) โดยเฉพาะอย่างยิ่งสำหรับมันก็เป็นเพียง0.5( ความน่าจะเป็นหลังยังคงเหมือนเดิมสำหรับและ .)0.78 P = 0.05 0.5 1 / 2 α P = αp=0.0010.78p=0.050.51/2αp=α

ประเด็นของการตอบของ Senn คือนี่เป็นข้อสังเกตที่มีประโยชน์ซึ่งไม่ได้บ่อนทำลายค่าในทางใดทางหนึ่งและไม่ตรงกันข้ามกับ Goodman หมายความว่าค่า value "เกินจริงหลักฐานที่มีค่าเป็นโมฆะ" เขาเขียน:พีpp

ฉันยังพิจารณาด้วยว่าการสาธิต [Goodman's] มีประโยชน์สำหรับสองเหตุผล ประการแรกมันทำหน้าที่เป็นคำเตือนสำหรับใครก็ตามที่วางแผนการศึกษาที่คล้ายกันเพิ่มเติมกับการศึกษาที่เพิ่งเสร็จสิ้น (ซึ่งมีผลอย่างมีนัยสำคัญเล็กน้อย) ซึ่งอาจไม่ตรงกับการศึกษาครั้งที่สอง ประการที่สองมันทำหน้าที่เป็นคำเตือนว่าอาจมีความไม่สอดคล้องกันอย่างชัดเจนในผลการศึกษาของแต่ละบุคคลและคาดว่าจะไม่เกิดปฏิกิริยานี้

Senn เตือนเราว่าค่าด้านเดียวสามารถเข้าใจได้เนื่องจากความน่าจะเป็นด้านหลังของ Bayesian ของใต้แฟลตก่อนหน้าสำหรับ (ไม่ถูกต้องมาก่อนในบรรทัดจริงทั้งหมด) [ดูMarsman & Wagenmakers 2016สำหรับการสนทนาสั้น ๆ ความจริงข้อนี้และการอ้างอิงบางส่วน]H 0 : μ < 0 μpH0:μ<0μ

ถ้าเป็นเช่นนั้นที่ได้รับใด ๆ โดยเฉพาะ -value หนึ่งในการทดสอบความน่าจะเป็นว่าการทดลองต่อไปจะให้ผลผลิตต่ำกว่า -value มีจะเป็น ; มิฉะนั้นการจำลองแบบในอนาคตอาจให้หลักฐานเพิ่มเติมก่อนดำเนินการ จึงทำให้รู้สึกทั้งหมดที่กู๊ดแมนได้รับความน่าจะเป็น0.5และแน่นอนการกระจายการจำลองแบบทั้งหมดคำนวณโดยการคัมมิงและ @ GeoMatt22 มีมีเดียที่เกี่ยวข้อง{}พี1 / 2 P = 0.05 0.5 P o sp p1/2p=0.050.5pobs

อย่างไรก็ตามเราไม่ต้องการความน่าจะเป็นแบบจำลองนี้สูงกว่าถึงเชื่อว่าประสิทธิภาพของการรักษาน่าจะเป็นไปได้ การทดลองที่ยาวนานซึ่งร้อยละซึ่งมีนัยสำคัญในระดับร้อยละจะเป็นหลักฐานที่น่าเชื่อถือว่าการรักษามีประสิทธิภาพ50 50.5505

อนึ่งใครก็ตามที่ดูการทำนายแบบกระจายของ value สำหรับพูดการทดสอบขนาดและพลังที่กำหนด ( ดูตัวอย่างที่นี่ ) จะไม่แปลกใจที่การใช้ค่ามัธยฐานที่จะทำให้การกระจายนี้ค่อนข้างกว้าง มีหางที่เป็นไขมันไปต่อ1ในแง่นี้การรายงานในช่วงกว้างโดยคัมมิงยุติความประหลาดใจp = 0.05 1pp=0.051

สิ่งที่พวกเขาค่อนข้างจะแนะนำให้เป็นที่หนึ่งควรใช้ขนาดตัวอย่างที่มีขนาดใหญ่เมื่อพยายามที่จะทำซ้ำการทดลอง; และนี่คือคำแนะนำมาตรฐานสำหรับการศึกษาการจำลองแบบ (เช่น Uri Simonsohn แนะนำให้ใช้กฎของหัวแม่มือเพื่อเพิ่มขนาดตัวอย่างเท่า)2.5


5
(+1) โชคดีที่คุณไม่ได้เกิดขึ้นกับ Goodman หรือ Senn จนกว่าคุณจะทำ :-)
พระคาร์ดินัล

6

ขอบคุณทุกคนสำหรับการสนทนาที่น่าสนใจเพิ่มเติม แทนที่จะแสดงความคิดเห็นของฉันทีละจุดฉันจะให้ภาพสะท้อนบางอย่าง

เบส์ ฉันไม่มีอะไรเลยเทียบกับแนวทางแบบเบย์ จากจุดเริ่มต้นฉันคาดว่าการวิเคราะห์แบบเบย์โดยสมมติว่าเป็นแบบแบนหรือแบบกระจายก่อนหน้านี้จะให้ช่วงการทำนายที่เหมือนกันหรือคล้ายกันมาก มี para บนหน้า 291 ในบทความปี 2008 เกี่ยวกับเรื่องนั้นส่วนหนึ่งได้รับแจ้งจากผู้ตรวจสอบ ดังนั้นฉันดีใจที่ได้เห็นการทำงานผ่านแนวทางนั้น เยี่ยมมาก แต่มันเป็นวิธีการที่แตกต่างจากที่ฉันใช้

นอกเหนือจากนี้ฉันได้เลือกทำงานเพื่อสนับสนุนช่วงเวลาความเชื่อมั่น (สถิติใหม่: ขนาดผล, CIs, การวิเคราะห์อภิมาน) แทนที่จะใช้วิธีการแบบเบย์ในการประมาณค่า (ขึ้นอยู่กับช่วงเวลาที่น่าเชื่อถือ) เพราะฉันไม่รู้วิธีอธิบาย วิธีการแบบเบย์สำหรับผู้เริ่มต้นดีพอ ฉันไม่เห็นตำราเรียนแบบเบย์เบื้องต้นที่ฉันรู้สึกว่าฉันสามารถใช้กับผู้เริ่มต้นหรือมีแนวโน้มว่าจะสามารถเข้าถึงได้และเชื่อได้โดยนักวิจัยจำนวนมาก ดังนั้นเราต้องมองหาที่อื่นถ้าเราต้องการโอกาสที่ดีในการปรับปรุงวิธีที่นักวิจัยอนุมานทางสถิติของพวกเขา ใช่เราต้องเดินหน้าต่อไปค่านิยมและการเปลี่ยนจากการตัดสินใจแบบแบ่งขั้วเป็นการประมาณและ Bayesians สามารถทำเช่นนั้นได้ แต่มีแนวโน้มมากขึ้นที่จะบรรลุการเปลี่ยนแปลงในทางปฏิบัติ imho เป็นแนวทาง CI แบบดั้งเดิม นั่นเป็นเหตุผลว่าทำไมหนังสือแนะนำสถิติของเราที่เพิ่งเปิดตัวใช้แนวทางใหม่ทางสถิติ ดูwww.thenewstatistics.com

กลับไปที่การสะท้อนกลับ ศูนย์กลางในการวิเคราะห์ของฉันคือสิ่งที่ฉันหมายถึงโดยรู้เพียงค่าpจากการศึกษาครั้งแรก สมมติฐานที่ฉันทำมีการระบุไว้ (ประชากรปกติการสุ่มแบบสุ่มประชากร SD ที่รู้จักกันเพื่อให้เราสามารถใช้zแทนการคำนวณทีในขณะที่เราทำการอนุมานเกี่ยวกับค่าเฉลี่ยประชากรการจำลองแบบที่แน่นอน) แต่นั่นคือทั้งหมดที่ฉันคิด คำถามของฉันคือ 'ให้เฉพาะpจากการทดสอบครั้งแรกเราจะไปได้ไกลแค่ไหน' ข้อสรุปของฉันคือเราสามารถค้นหาการกระจายตัวของp ที่คาดหวังจากการทดลองทำซ้ำ จากการแจกแจงนั้นเราสามารถหาช่วงpหรือความน่าจะเป็นที่สนใจเช่นความน่าจะเป็นที่การจำลองแบบจะให้p<.05 หรือมูลค่าที่น่าสนใจอื่น ๆ

แก่นของการโต้เถียงและบางทีขั้นตอนที่ควรคำนึงถึงมากที่สุดแสดงอยู่ในรูปที่ A2 ในบทความ ครึ่งล่างอาจไม่เป็นอันตราย ถ้าเรารู้ mu (โดยปกติแล้วจะสำเร็จโดยสมมติว่ามันเท่ากับค่าเฉลี่ยจากการศึกษาครั้งแรก) ดังนั้นข้อผิดพลาดในการประมาณค่าซึ่งแสดงโดยกลุ่มเส้นหนามีการแจกแจงที่รู้จัก (ปกติหมายถึง mu, SD ตามที่อธิบายไว้ในคำบรรยาย)

จากนั้นก้าวใหญ่: พิจารณาครึ่งบนของรูปที่ 2A เราไม่มีข้อมูลเกี่ยวกับ mu ไม่มีข้อมูล - ไม่ใช่ข้อสันนิษฐานที่ซ่อนเร้นเกี่ยวกับเรื่องก่อนหน้า แต่เราสามารถระบุการกระจายของเซกเมนต์เส้นหนาเหล่านั้น: ปกติ, หมายถึงศูนย์, SD = SQRT (2) คูณ SD ในครึ่งล่าง ที่ช่วยให้เราสิ่งที่เราต้องพบการกระจายตัวของการจำลองแบบพี

ช่วงp ที่เกิดขึ้นนั้นมีความยาวอย่างน่าประหลาดใจอย่างน้อยฉันก็รู้สึกประหลาดใจเมื่อเปรียบเทียบกับค่าp ที่นักวิจัยใช้กันอย่างแพร่หลาย นักวิจัยมักจะหมกมุ่นเกี่ยวกับค่าทศนิยมที่สองหรือสามของค่าpโดยไม่เห็นคุณค่าว่าค่าที่พวกเขาเห็นอาจแตกต่างกันมาก ดังนั้นความคิดเห็นของฉันบน PP 293-4 เกี่ยวกับการรายงานหน้าช่วงเวลาที่จะยอมรับความไม่ชัดเจนของหน้า

ยาวใช่ แต่นั่นไม่ได้หมายความว่าpจากการทดสอบเริ่มต้นไม่มีความหมายอะไรเลย หลังจากpเริ่มต้นที่ต่ำมากการจำลองจะมีแนวโน้มโดยเฉลี่ยเพื่อให้ค่าpมีขนาดเล็ก เริ่มต้นที่สูงขึ้นPและซ้ำจะมีแนวโน้มที่จะมีค่อนข้างใหญ่หน้าค่า ดูตารางที่ 1 ในหน้า ตัวอย่างเช่น 292 และเปรียบเทียบเช่นช่วงเวลาpในคอลัมน์ด้านขวาสำหรับเริ่มต้นp = .001 และ. 1 - สองผลลัพธ์ที่ได้รับการพิจารณาตามอัตภาพจะแยกออกจากกัน ช่วงเวลาpสองนั้นแตกต่างกันอย่างแน่นอน แต่มีการทับซ้อนกันอย่างมากของทั้งสอง การจำลองการทดลอง. 001 สามารถให้pได้อย่างง่ายดายใหญ่กว่าการจำลองการทดสอบ. 1 แม้ว่าส่วนใหญ่แล้วมันจะไม่

ในฐานะที่เป็นส่วนหนึ่งของงานวิจัยของเขา PhD, เจอร์รี่ Lai รายงาน ( Lai, et al., 2011 ) การศึกษาที่ดีหลายอย่างที่พบว่าการตีพิมพ์นักวิจัยจากจำนวนสาขามีอัตนัยPช่วงเวลาที่อยู่ห่างไกลสั้นเกินไป กล่าวอีกนัยหนึ่งนักวิจัยมักจะประเมินต่ำกว่าค่าpของการจำลองแบบที่ต่างกันอย่างมาก

ข้อสรุปของฉันคือเราไม่ควรใช้ค่าpเลย รายงานและหารือเกี่ยวกับ 95% CI ซึ่งบ่งบอกถึงข้อมูลทั้งหมดในข้อมูลที่บอกเราเกี่ยวกับค่าเฉลี่ยประชากรที่เรากำลังตรวจสอบอยู่ ให้ค่า CI ค่าpเพิ่มอะไรและมีแนวโน้มที่จะแนะนำผิดระดับความมั่นใจบางอย่าง (สำคัญ! ไม่สำคัญ! ผลกระทบที่มีอยู่! มันไม่ได้!) แน่นอนว่าค่าCIs และpขึ้นอยู่กับทฤษฎีเดียวกันและเราสามารถแปลงจากที่หนึ่งไปยังอีกที่หนึ่ง (มีจำนวนมากในนั้นในบทที่ 6 ของหนังสือแนะนำของเรา) แต่ CI ให้ข้อมูลวิธีที่มากกว่าพี สิ่งสำคัญที่สุดคือมันทำให้ขอบเขตความไม่แน่นอนที่สำคัญ เมื่อพิจารณาถึงแนวโน้มของมนุษย์ที่จะเข้าใจอย่างแน่นอนขอบเขตของ CI นั้นมีความสำคัญอย่างยิ่งที่จะต้องพิจารณา

ฉันได้พยายามเน้นความแปรปรวนของค่าpในวิดีโอ 'การเต้นรำของค่าp ' ด้วย Google 'การเต้นรำของค่าp ' มีอย่างน้อยสองรุ่น

ขอให้ทุกช่วงความมั่นใจของคุณสั้นไปหน่อย!

เจฟฟ์


3
ขอบคุณสำหรับความคิดเห็นเพิ่มเติมเหล่านี้ Geoff ฉันเห็นด้วยกับบางจุดที่นี่ (เช่นใน "ระดับของความแน่นอน") และไม่เห็นด้วยกับคนอื่น ๆ (เช่น "ให้ CI ค่า p เพิ่มอะไร") แต่สิ่งหนึ่งที่ฉันรู้สึกว่าจำเป็นต้องทำซ้ำโดยเฉพาะ: ฉันไม่ คิดว่ามีใด ๆวิธีการทำวิเคราะห์ของคุณโดยไม่ต้อง Bayes ก่อน อาร์กิวเมนต์ที่แสดงในรูปที่ A2 ของคุณจำเป็นต้องมีการแฟลตก่อนเป็นสมมติฐานที่ซ่อนอยู่ เราสามารถสันนิษฐานได้ว่านักบวชคนอื่น ๆ และได้ผลลัพธ์ที่แตกต่างกันมาก ฉันไม่คิดว่าจะมีข้อโต้แย้งบ่อยนักล้วนที่สามารถสนับสนุนข้อสรุปของคุณ ดูความคิดเห็น @ Whuber ของด้านบน
อะมีบาพูดว่า Reinstate Monica

@Geoff Cumming - ความคิดเห็นของคุณเกี่ยวกับการศึกษาสถิติและการตีความผลลัพธ์เป็นที่นิยมอย่างมาก
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.