คัมมิง (2008) อ้างว่าการกระจายของค่า p ที่ได้รับในการจำลองขึ้นอยู่กับค่า p เดิมเท่านั้น มันจะเป็นจริงได้อย่างไร?

52

ผมได้อ่านเจฟฟ์คัมมิงกระดาษ 2008 การจำลองแบบและช่วงเวลา:ค่าทำนายอนาคตเพียงราง ๆ แต่ช่วงความเชื่อมั่นทำได้ดีกว่า $p$ $p$ [~ 200 อ้างอิงใน Google Scholar] - และกำลังสับสนโดยหนึ่งของการเรียกร้องที่อยู่ใจกลางเมือง นี่คือหนึ่งในชุดเอกสารที่คัมมิงโต้แย้งกับ value และสนับสนุนช่วงความมั่นใจ คำถามของฉัน แต่เป็นไม่ได้เกี่ยวกับการอภิปรายครั้งนี้และมีเพียงการเรียกร้องความกังวลหนึ่งที่เฉพาะเจาะจงเกี่ยวกับ -values $p$ $p$

ให้ฉันอ้างอิงจากนามธรรม:

บทความนี้แสดงให้เห็นว่าถ้าผลการทดสอบครั้งแรกในสองด้าน , มี โอกาสที่นกหนึ่ง -value จากการจำลองแบบจะตกอยู่ในช่วงเวลาเป็นโอกาสที่และอย่างเต็มที่โอกาสที่0.44 ช่วงเวลาที่เรียกว่าช่วงเวลามีความกว้างนี้ แต่ขนาดตัวอย่างใหญ่ $p= .05$ $80\%$ $p$ $(.00008, .44)$ $10\%$ $p < .00008$ $10\%$ $p > .44$ $p$

คัมมิงอ้างว่า "ช่วง" และในความเป็นจริงการกระจายทั้ง -values ที่หนึ่งจะได้รับเมื่อจำลองการทดลองเดิม (แบบเดียวกับขนาดตัวอย่างคงที่) ขึ้นอยู่เฉพาะในต้นฉบับ -valueและไม่ขึ้นอยู่กับขนาดผลกระทบที่แท้จริงกำลังไฟขนาดตัวอย่างหรือสิ่งอื่นใด: $p$ $p$ $p$ $p_\mathrm{obt}$

[... ] การกระจายความน่าจะเป็นของสามารถได้มาโดยไม่ทราบหรือสมมติว่ามีค่าสำหรับ (หรือพลังงาน) [... ] เราไม่คิดว่าความรู้ก่อนหน้าเกี่ยวกับและเราใช้เฉพาะข้อมูล [ข้อสังเกตระหว่างความแตกต่างระหว่างกลุ่ม] ให้เกี่ยวกับเป็นพื้นฐานสำหรับการคำนวณสำหรับกำหนดของการกระจายตัวของ และช่วงเวลา $p$ $\delta$ $\delta$ $M_\mathrm{diff}$ $\delta$ $p_\mathrm{obt}$ $p$ $p$

$\quad\quad\quad$

ฉันสับสนเพราะสิ่งนี้สำหรับฉันดูเหมือนว่าการกระจายของค่าขึ้นอยู่กับอำนาจอย่างมากในขณะที่ต้นฉบับของตัวเองไม่ได้ให้ข้อมูลใด ๆ เกี่ยวกับมัน อาจเป็นไปได้ว่าขนาดเอฟเฟกต์จริงคือจากนั้นการกระจายจะเป็นแบบเดียวกัน หรืออาจจะมีขนาดผลจริงเป็นอย่างมากและแล้วเราควรคาดหวังว่าส่วนใหญ่มีขนาดเล็กมาก -values แน่นอนว่าเราสามารถเริ่มต้นด้วยการสมมติขนาดของเอฟเฟกต์ที่เป็นไปได้ก่อนหน้านี้และรวมเข้าด้วยกัน แต่คัมมิงดูเหมือนจะอ้างว่านี่ไม่ใช่สิ่งที่เขาทำ $p$ $p_\mathrm{obt}$ $\delta=0$ $p$

คำถาม:เกิดอะไรขึ้นที่นี่?

โปรดทราบว่าหัวข้อนี้เกี่ยวข้องกับคำถามนี้: ส่วนใดของการทดลองซ้ำจะมีขนาดผลภายในช่วงความมั่นใจ 95% ของการทดสอบครั้งแรก ด้วยคำตอบที่ยอดเยี่ยมโดย @whuber คัมมิงมีกระดาษในหัวข้อนี้ที่: คัมมิง & Maillardet, 2549, ช่วงความเชื่อมั่นและการจำลอง: ที่ไหนจะหมายถึงการล่มสลายต่อไป? - แต่สิ่งนั้นชัดเจนและไร้ประโยชน์

ฉันยังทราบด้วยว่าการเรียกร้องของคัมมิงซ้ำแล้วซ้ำอีกหลายครั้งในกระดาษวิธีธรรมชาติปี 2015 ค่าความไม่แน่นอนสร้างผลลัพธ์ $P$ ที่ไม่อาจพิสูจน์ได้ซึ่งคุณบางคนอาจเจอ

[... ] จะมีการเปลี่ยนแปลงที่สำคัญในค่าของการทดสอบซ้ำ ในความเป็นจริงการทดลองซ้ำแล้วซ้ำอีก; เราไม่ทราบว่าต่อไปอาจแตกต่างกันอย่างไร แต่มีโอกาสที่มันจะแตกต่างกันมาก ตัวอย่างเช่นโดยไม่คำนึงถึงพลังทางสถิติของการทดสอบหากการทำซ้ำเดียวส่งคืนค่าจะมีโอกาสที่การทดสอบซ้ำจะส่งคืนค่าระหว่างถึง (และการเปลี่ยนแปลง [sic] ที่จะยิ่งใหญ่กว่า) $P$ $P$ $P$ $0.05$ $80\%$ $P$ $0$ $0.44$ $20\%$ $P$

(หมายเหตุโดยวิธีอย่างไรโดยไม่คำนึงถึงว่าคำสั่งของคัมมิงถูกต้องหรือไม่กระดาษวิธีธรรมชาติราคามันไม่ถูกต้อง: ตามคัมมิงเป็นเพียงน่าจะเป็นสูงกว่าและใช่กระดาษพูดว่า "20% จังg e ". Pfff.) $10\%$ $0.44$

— อะมีบาพูดว่า Reinstate Monica
แหล่งที่มา

8

การเรียกร้องใด ๆ แบบนี้จะไม่เป็นไปตามเงื่อนไขในสภาพของธรรมชาติที่สันนิษฐานเอาไว้ - และโดยปกติแล้วมันจะเป็นสมมติฐานว่างเปล่าหรือไม่? สำหรับสมมติฐานว่างอย่างง่ายและสถิติการกระจายอย่างต่อเนื่อง p-value จะมีการแจกแจงแบบเดียวกัน ทุกอย่างไหลจากข้อเท็จจริงนั้น

— whuber

4

@whuber การกระจายที่แสดงในรูปที่ 5 ที่ฉันทำซ้ำที่นี่ไม่ชัดเจนเหมือนกัน ฉันเห็นด้วยแม้ว่าการแจกจ่ายใด ๆ เช่นนั้นจะต้องเป็นไปตามเงื่อนไขเกี่ยวกับสภาพธรรมชาติ แต่คัมมิงดูเหมือนจะอ้างสิทธิ์ตรงกันข้าม ดังนั้นคำถามของฉัน: สิ่งที่เกิดขึ้นจริงในบทความนี้? ฉันเข้าใจผิดการเรียกร้องหรือไม่ กระดาษผิดหรือเปล่า? เราสามารถหาข้อสมมติฐานที่ซ่อนอยู่ได้ไหม? อื่น ๆ

— อะมีบากล่าวว่า Reinstate Monica

หมายเหตุสำหรับตัวเอง: arxiv.org/abs/1609.01664นี้มีความเกี่ยวข้อง แต่เห็นได้อย่างรวดเร็วไม่ได้แก้ปริศนาของฉัน

— อะมีบากล่าวว่า Reinstate Monica

1

ฉันหวังว่าฉันจะไม่ให้การแข่งขันในสัปดาห์นี้หรือฉันจะใช้เวลากับมัน ไม่สมเหตุสมผลที่ค่า p ต่อมาควรขึ้นอยู่กับกำลังไฟหากขนาดตัวอย่างทั้งสองเท่ากัน ค่า p ที่สังเกตควรขึ้นอยู่กับค่าที่แท้จริงของพารามิเตอร์และการเลือกค่าว่าง ประโยชน์ของการประมาณขึ้นอยู่กับกำลังไฟ แต่นั่นไม่ใช่คำถามที่นี่

— Dave Harris

3

ฉันออกไปจากลีกของฉันที่นี่ ... แต่อ่านหนังสือพิมพ์ดูเหมือนว่าทุกอย่างอยู่ในบริบทของการทดสอบเพื่อหาความแตกต่างที่สำคัญในวิธีการของประชากร Gaussian สองที่มีความแปรปรวนและขนาดตัวอย่างที่รู้จักกันโดยมีค่า 0 ถูกต้องไหม (เช่นโดยที่ภายใต้ค่าว่าง) หรือกระดาษมีขอบเขตที่กว้างขึ้นเช่น คำถาม / ความคิดเห็นที่นี่ดูเหมือนจะบ่งบอก?

z = \frac{Δ \bar{x}}{σ} \sqrt{\frac{N}{2}} \sim N_{⟨ z ⟩, 1}

$z=\frac{\Delta\bar{x}}{\sigma}\sqrt{\frac{N}{2}}\sim\mathrm{N}_{\langle{z}\rangle,1}$

⟨ z ⟩ = \frac{Δ μ}{σ} \sqrt{\frac{N}{2}} = 0

$\langle{z}\rangle=\frac{\Delta\mu}{\sigma}\sqrt{\frac{N}{2}}=0$

— GeoMatt22

21

สรุป:เคล็ดลับที่ดูเหมือนจะเป็นวิธีเบย์ซึ่งถือว่าเป็นเครื่องแบบ ( Jeffreys ) ก่อนหน้าสำหรับพารามิเตอร์ที่ซ่อนอยู่ (ในภาคผนวก B ของกระดาษ,ที่นี่) $z_\mu$ $\theta$

ฉันเชื่อว่าอาจมีแนวทางแบบเบย์เพื่อรับสมการที่ระบุในภาคผนวก B ของเอกสาร

ตามที่ผมเข้าใจมันทดลองเดือดลงไปเป็นสถิติ1} ค่าเฉลี่ยของการกระจายการสุ่มตัวอย่างไม่เป็นที่รู้จัก แต่หายไปภายใต้สมมติฐาน, 0 $z\sim\mathrm{N}_{\theta,1}$ $\theta$ $\theta\mid{}H_0=0$

โทรสังเกตทดลองสถิติ1} แล้วถ้าเราคิดว่า "เหมือนกัน" ( ที่ไม่เหมาะสม ) ก่อนในที่หลังคชกรรมเป็น1} ถ้าเรานั้นปรับปรุงการกระจายการสุ่มตัวอย่างต้นฉบับโดย marginalizing มากกว่า , หลังกลายเป็น2} (ความแปรปรวนสองเท่าเกิดจากการโน้มน้าวใจของ Gaussians) $\hat{z}\mid\theta\sim\mathrm{N}_{\theta,1}$ $\theta\sim1$ $\theta\mid\hat{z}\sim\mathrm{N}_{\hat{z},1}$ $\theta\mid\hat{z}$ $z\mid\hat{z}\sim\mathrm{N}_{\hat{z},2}$

อย่างน้อยในทางคณิตศาสตร์ดูเหมือนว่าจะใช้งานได้ และมันอธิบายวิธีที่ตัวประกอบ "น่าอัศจรรย์" ปรากฏขึ้นจากสมการ B2 ไปจนถึงสมการ B3 $\frac{1}{\sqrt{2}}$

อภิปรายผล

ผลลัพธ์นี้จะกระทบกับกรอบการทดสอบสมมติฐานว่างได้อย่างไร การตีความหนึ่งที่เป็นไปได้มีดังนี้

ในกรอบมาตรฐานสมมติฐานว่างในบางแง่มุม "เริ่มต้น" (เช่นเราพูดถึง "ปฏิเสธโมฆะ") ในบริบทคชกรรมข้างต้นนี้จะเป็นไม่สม่ำเสมอก่อนว่าชอบ 0 หากเราทำสิ่งนี้ให้เป็นความแปรปรวนหมายถึงความไม่แน่นอนก่อนหน้านี้ $\theta=0$ $\theta\sim\mathrm{N}_{0,\lambda^2}$ $\lambda^2$

ก่อนดำเนินการผ่านการวิเคราะห์ข้างต้นเราจะพบ จากนี้เราจะเห็นว่าในขีด จำกัดเรากู้คืนการวิเคราะห์ข้างต้น แต่ในขอบเขต "posteriors" ของเรากลายเป็นโมฆะและดังนั้นเรากู้คืนผลมาตรฐาน{0,1}

θ \sim N_{0, λ^{2}} ⟹ θ ∣ \hat{z} \sim N_{δ^{2} \hat{z}, δ^{2}}, z ∣ \hat{z} \sim N_{δ^{2} \hat{z}, 1 + δ^{2}}, δ^{2} \equiv \frac{1}{1 + λ^{- 2}} \in [0, 1]

$\theta\sim\mathrm{N}_{0,\lambda^2} \implies \theta\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},\delta^2} \,,\, z\mid\hat{z}\sim\mathrm{N}_{\delta^2\hat{z},1+\delta^2} \,,\, \delta^2\equiv\tfrac{1}{1+\lambda^{-2}}\in[0,1]$

λ \to \infty

$\lambda\to\infty$

λ \to 0

$\lambda\to{0}$

θ ∣ \hat{z} \sim N_{0, 0}

$\theta\mid\hat{z}\sim\mathrm{N}_{0,0}$

z ∣ \hat{z} \sim N_{0, 1}

$z\mid\hat{z}\sim\mathrm{N}_{0,1}$

p ∣ \hat{z} \sim U_{0, 1}

${p}\mid{\hat{z}}\sim\mathrm{U}_{0,1}$

(สำหรับการศึกษาซ้ำ ๆ ข้างต้นแสดงให้เห็นคำถามที่น่าสนใจที่นี่เกี่ยวกับผลกระทบของการปรับปรุงแบบเบย์เทียบกับวิธีการ"ดั้งเดิม"สำหรับการวิเคราะห์เมตาดาต้าฉันไม่รู้เรื่องของการวิเคราะห์เมตาอย่างสมบูรณ์!)

ภาคผนวก

ตามที่ร้องขอในความคิดเห็นนี่คือโครงร่างสำหรับการเปรียบเทียบ นี่เป็นการประยุกต์ใช้สูตรที่ค่อนข้างตรงไปตรงมาในกระดาษ อย่างไรก็ตามฉันจะเขียนออกมาเพื่อให้แน่ใจว่าไม่มีความคลุมเครือ

ให้แทนค่า p ด้านเดียวสำหรับสถิติและแสดง (หลัง) CDF โดยใหญ่] ดังนั้นสมการ B3 จากภาคผนวกจึงเท่ากับ โดยที่เป็น CDF ปกติมาตรฐาน ความหนาแน่นที่สอดคล้องกันนั้นคือ ที่เป็นมาตรฐานรูปแบบไฟล์ PDF ปกติและในขณะที่ สูตร CDF ในที่สุดถ้าเราแสดงโดยข้อสังเกต $p$ $z$ $F[u]\equiv\Pr\big[\,p\leq{u}\mid{\hat{z}}\,\big]$

F [p] = 1 - Φ [\frac{1}{\sqrt{2}} (z [p] - \hat{z})], z [p] = Φ^{- 1} [1 - p]

$F[p]=1-\Phi\left[\tfrac{1}{\sqrt{2}}\left(z[p]-\hat{z}\right)\right] \,,\, z[p]=\Phi^{-1}[1-p]$

Φ []

$\Phi[\,\,]$

f [p] \equiv F^{'} [p] = \frac{ϕ [(z - \hat{z}) / \sqrt{2}]}{\sqrt{2} ϕ [z]}

$f\big[p\big]\equiv{F^\prime}\big[p\big]=\frac{\phi\Big[(z-\hat{z})/\sqrt{2}\,\Big]}{\sqrt{2}\,\phi\big[z\big]}$

ϕ []

$\phi[\,\,]$

z = z [p]

$z=z[p]$

\hat{p}

$\hat{p}$ ค่า p สองด้านที่สอดคล้องกับจากนั้นเรามี

\hat{z}

$\hat{z}$

\hat{z} = Φ^{- 1} [1 - \frac{\hat{p}}{2}]

$\hat{z}=\Phi^{-1}\Big[1-\tfrac{\hat{p}}{2}\Big]$

การใช้สมการเหล่านี้ให้ตัวเลขด้านล่างซึ่งควรเทียบได้กับรูปที่ 5 ของกระดาษในคำถาม

(สิ่งนี้ผลิตโดยรหัส Matlab ต่อไปนี้ทำงานที่นี่ )

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

— GeoMatt22
แหล่งที่มา

1

ความหวังของฉันคือโดยการเปิดเผยสมมติฐานพื้นฐาน(เช่นชุดก่อนพารามิเตอร์ซ่อน) ตอนนี้การสนทนาสามารถมุ่งเน้นไปที่คำถามทางวิทยาศาสตร์ / สถิติที่ฉันเชื่อว่าเป็นเป้าหมายของคุณ! (แทนที่จะเป็นคำถามทางคณิตศาสตร์ / ความน่าจะเป็นที่ฉันตอบไปแล้ว)

— GeoMatt22

ฉันพบการสนทนาที่เก่าและไม่แก่มากในหัวข้อนี้: Goodman 1992ความคิดเห็นใน Goodman โดยSenn 2002และLazzeroni et al 2014ล่าสุด คนสุดท้ายดูเหมือนจะไม่ค่อยช่วยเหลือ (แต่ฉันพูดถึงมันเพื่อความสมบูรณ์) แต่สองคนแรกโดยเฉพาะความคิดเห็นของ Senn ปรากฏตรงประเด็นมาก

— อะมีบาพูดว่า Reinstate Monica

อะมีบาขอบคุณสำหรับการขุดการอ้างอิงเหล่านี้พวกเขาดูน่าสนใจ! เพื่อความสมบูรณ์ฉันได้เพิ่มส่วน "การสนทนา" ที่พยายามเชื่อมต่อกับผลลัพธ์คัมมิงและเฟรมเวิร์กมาตรฐาน

— GeoMatt22

อัปเดต: ฉันอ่านเอกสารของกู๊ดแมนและ Senn ที่ลิงก์ด้านบนและตอนนี้ได้โพสต์คำตอบของฉันเองเพื่อสรุปปรีชาปัจจุบันของฉัน (โดยวิธีการที่ฉันมีความสุขที่จะยอมรับคำตอบของคุณและให้รางวัลมันขอบคุณอีกครั้ง)

— อะมีบาพูดว่า Reinstate Monica

27

ขอบคุณสำหรับการอภิปรายที่น่าสนใจ! เมื่อเขียนบทความปี 2008 ฉันต้องใช้เวลาสักครู่ในการโน้มน้าวใจตัวเองว่าการกระจายตัวของการจำลองแบบp ( ค่าp ที่กำหนดโดยการจำลองแบบที่แน่นอนของการศึกษาหมายถึงการศึกษาที่เหมือนกัน แต่ด้วยตัวอย่างใหม่) ขึ้นอยู่กับ เฉพาะในp ที่ได้รับจากการศึกษาดั้งเดิม (ในกระดาษฉันสมมติว่ามีการกระจายตัวของประชากรและการสุ่มตัวอย่างแบบสุ่มและการศึกษาของเราตั้งเป้าหมายที่จะประมาณค่าเฉลี่ยของประชากร) ดังนั้นช่วงเวลาp (ช่วงการทำนาย 80% สำหรับการจำลองแบบp ) เหมือนกันไม่ว่าNใด พลังงานหรือขนาดผลกระทบที่แท้จริงของการศึกษาต้นฉบับ

แน่นอนว่ามันไม่น่าเชื่อในตอนแรก แต่ทราบอย่างรอบคอบว่าคำสั่งเดิมของฉันอยู่บนพื้นฐานของการรู้หน้าจากการศึกษาเดิม คิดแบบนี้ สมมติว่าคุณบอกฉันว่าการศึกษาดั้งเดิมของคุณพบp = .05 คุณบอกอะไรฉันไม่ได้เกี่ยวกับการศึกษา ฉันรู้ว่า 95% CI ในค่าเฉลี่ยตัวอย่างของคุณขยายไปถึงศูนย์อย่างแน่นอน (สมมติว่าpคำนวณมาจากสมมติฐานว่างจากศูนย์) ค่าเฉลี่ยตัวอย่างของคุณคือ MoE (ความยาวของแขนข้างหนึ่งของ 95% CI) เพราะมันคือระยะห่างจากศูนย์ การกระจายตัวตัวอย่างของค่าเฉลี่ยจากการศึกษาเช่นคุณมีค่าเบี่ยงเบนมาตรฐาน MoE / 1.96 นั่นเป็นข้อผิดพลาดมาตรฐาน

พิจารณาค่าเฉลี่ยที่กำหนดโดยการจำลองแบบที่แน่นอน การกระจายตัวของค่าเฉลี่ยของการจำลองแบบนั้นมีค่าเฉลี่ย MoE นั่นคือการกระจายนั้นมีศูนย์กลางที่ค่าเฉลี่ยตัวอย่างดั้งเดิมของคุณ พิจารณาความแตกต่างระหว่างค่าเฉลี่ยตัวอย่างของคุณกับค่าเฉลี่ยการจำลองแบบ มันมีความแปรปรวนเท่ากับผลรวมของความแปรปรวนของค่าเฉลี่ยของการศึกษาเช่นการศึกษาดั้งเดิมของคุณและการจำลองแบบ นั่นคือความแปรปรวนของการศึกษาสองเท่าเช่นการศึกษาดั้งเดิมของคุณนั่นคือ 2 x SE ^ 2 ซึ่งคือ 2 x (MoE / 1.96) ^ 2 ดังนั้น SD ของความแตกต่างนั้นคือ SQRT (2) x MoE / 1.96

เราจึงรู้ว่าการกระจายตัวของการจำลองแบบ: ค่าเฉลี่ยของมันคือ MoE และ SD คือ SQRT (2) x MoE / 1.96 แน่นอนว่าสเกลแนวนอนนั้นเป็นกฎเกณฑ์ แต่เราจำเป็นต้องรู้ว่าการกระจายนี้เกี่ยวข้องกับ CI จากการศึกษาดั้งเดิมของคุณ เมื่อใช้การจำลองแบบค่าเฉลี่ยส่วนใหญ่ (ประมาณ 83%) จะลดลงในต้นฉบับ 95% CI และประมาณ 8% จะลดลงต่ำกว่านั้น (เช่นต่ำกว่าศูนย์ถ้าค่าเฉลี่ยดั้งเดิมของคุณคือ> 0) และ 8% สูงกว่านั้น CI หากเราทราบว่าการจำลองแบบหมายถึงตรงกับ CI ดั้งเดิมของคุณหรือไม่เราสามารถคำนวณค่าpได้ เรารู้ว่าการกระจายของวิธีการทำแบบจำลองดังกล่าว (ในความสัมพันธ์กับ CI ของคุณ) เพื่อให้เราสามารถคิดออกกระจายของการจำลองแบบพีราคา. ข้อสันนิษฐานเดียวที่เราทำเกี่ยวกับการจำลองแบบคือแน่นอนเช่นมาจากประชากรเดียวกันที่มีขนาดผลเท่ากันกับการศึกษาดั้งเดิมของคุณและN (และการออกแบบการทดลอง) เหมือนกันในการศึกษาของคุณ .

ทั้งหมดข้างต้นเป็นเพียงการถกเถียงในบทความโดยไม่มีรูปภาพ

อาจเป็นประโยชน์ในการคิดว่าp = .05 ในการศึกษาดั้งเดิมมีความหมายอย่างไร อาจหมายความว่าคุณมีการศึกษาขนาดใหญ่ที่มีเอฟเฟกต์ขนาดเล็กหรือการศึกษาขนาดจิ๋วที่มีเอฟเฟกต์ขนาดยักษ์ ไม่ว่าด้วยวิธีใดถ้าคุณทำซ้ำการศึกษานั้น (เช่นเดียวกับN , ประชากรเดียวกัน) คุณจะไม่ต้องสงสัยเลยว่าค่าเฉลี่ยตัวอย่างแตกต่างกันบ้าง ปรากฎว่าในแง่ของค่าp 'ค่อนข้างแตกต่าง' เหมือนกันไม่ว่าคุณจะมีการศึกษาขนาดใหญ่หรือเล็ก บอกค่าpของคุณให้ฉันหน่อยแล้วฉันจะบอกpช่วงเวลาของคุณ

เจฟฟ์

— เจฟฟ์คัมมิง
แหล่งที่มา

8

ขอบคุณมากที่ลงทะเบียนในเว็บไซต์นี้เพื่อตอบคำถามของฉัน! ฉันซาบซึ้งมาก ฉันยังไม่มั่นใจ แต่ฉันจะใช้เวลาสักครู่เพื่อไตร่ตรองคำตอบของคุณ ความรู้สึกปัจจุบันของฉันคือการที่คุณสร้างจุดที่ถูกต้อง แต่ฉันไม่เห็นด้วยกับวิธีการที่คุณกำหนด การคัดค้านอย่างง่าย ๆ อย่างหนึ่ง: p = 0.05 นั้นสอดคล้องกับ H0 ที่เป็นจริง ถ้า H0 เป็นจริง p จะอยู่ในช่วง 0.04-0.05 1% ของเวลา หากเป็นกรณีนี้การกระจายของการจำลองแบบ P-ค่าจะเป็นเครื่องแบบจาก 0 ถึง 1 แต่คุณคาดการณ์การกระจายแตกต่างกันสำหรับหน้าเริ่มต้นเท่ากับ 0.05 ในทุกสถานการณ์ เราควรคิดเกี่ยวกับมันอย่างไร?

— อะมีบากล่าวว่า Reinstate Monica

7

ข้อสันนิษฐานโดยนัยในการโต้แย้งนี้ดูไม่สามารถป้องกันได้: มันเป็น "การจำลองแบบที่แน่นอน" มีค่าเฉลี่ยเท่ากับ MoE หากโดย "การจำลองแบบที่แน่นอน" เราหมายถึงการทำซ้ำการทดสอบด้วยสภาวะของธรรมชาติเดียวกันดังนั้นการกระจายของสถิติการทดสอบไม่เป็นที่รู้จัก: ขึ้นอยู่กับสถานะของธรรมชาติ นอกเหนือจากการใช้มุมมองแบบเบย์ - ซึ่งหมายความว่าคุณจำเป็นต้องระบุอย่างชัดเจนก่อน - เกี่ยวกับวิธีเดียวที่จะทำให้ความคืบหน้าคือการคำนวณความน่าจะเป็นก่อนที่จะดำเนินการดั้งเดิมหรือการทำซ้ำ

— whuber

2

@ user43849 ฉันขอแสดงความนับถือว่าบุคคลดังกล่าวไม่เข้าใจว่าค่า p คืออะไร ค่า p จะบอกว่ามีน้อยหรือไม่มีเลยเกี่ยวกับการทดลองในอนาคต มีแนวคิดเกี่ยวกับช่วงเวลาการทำนายที่ใช้บ่อยที่นี่: คำถามของการจำลองแบบเพียงแค่เกี่ยวข้องกับช่วงการทำนายสำหรับค่า p ของการทดลองในอนาคตเดียว คำตอบนั้นมีพื้นฐานมาจากทฤษฎีทางสถิติแบบคลาสสิกโดยไม่ต้องมีแนวคิดที่เป็นนวัตกรรมและเป็นสิ่งที่ไม่ใช่เบย์ในใจ

— whuber

2

@ เมื่อมีการขุดลงในกระดาษฉันเชื่อว่าอาจมีข้อสรุปแบบเบย์โดยนัยเกี่ยวกับการออกกำลังกาย (ดูคำตอบของฉัน)

— GeoMatt22

1

@GeoMatt ใช่นั่นเป็นวิธีเดียวที่จะปรับการคำนวณ

— whuber

10

ปัญหานี้ได้รับการชี้แจงโดย @ GeoMatt22 และฉันยินดีที่ได้เห็น @GeoffCumming มาที่นี่เพื่อมีส่วนร่วมในการอภิปราย ฉันโพสต์คำตอบนี้เป็นคำอธิบายเพิ่มเติม

มันจะเปิดออก, การสนทนานี้กลับไปอย่างน้อยถึงกู๊ดแมน (1992) ความคิดเห็นเกี่ยวกับการจำลองแบบ P-ค่าและหลักฐานและการตอบกลับในภายหลังSenn (2002)จดหมายถึงบรรณาธิการ ฉันขอแนะนำให้อ่านบทความสั้น ๆ ทั้งสองนี้โดยเฉพาะบทความของ Stephen Senn ฉันพบว่าตัวเองเห็นด้วยกับ Senn

ถ้าฉันได้อ่านเอกสารเหล่านี้ก่อนถามคำถามนี้ฉันน่าจะไม่โพสต์เลย สามี (ต่างจากคัมมิง) ระบุอย่างชัดเจนว่าเขาคิดว่าการตั้งค่าแบบเบย์กับแบนก่อน เขาไม่ได้แสดงการแจกแจงแบบตามที่คัมมิงทำและแทนที่จะรายงานความน่าจะเป็นในการสังเกต "นัยสำคัญ"ส่งผลให้เกิดการทดลองจำลองแบบ: $p$ $p<0.05$

ประเด็นหลักของเขาคือความน่าจะเป็นที่ต่ำอย่างน่าประหลาดใจ (แม้กระทั่งสำหรับมันก็แค่ ) โดยเฉพาะอย่างยิ่งสำหรับมันก็เป็นเพียง0.5( ความน่าจะเป็นหลังยังคงเหมือนเดิมสำหรับและ .) $p=0.001$ $0.78$ $p=0.05$ $0.5$ $1/2$ $\alpha$ $p=\alpha$

ประเด็นของการตอบของ Senn คือนี่เป็นข้อสังเกตที่มีประโยชน์ซึ่งไม่ได้บ่อนทำลายค่าในทางใดทางหนึ่งและไม่ตรงกันข้ามกับ Goodman หมายความว่าค่า value "เกินจริงหลักฐานที่มีค่าเป็นโมฆะ" เขาเขียน: $p$ $p$

ฉันยังพิจารณาด้วยว่าการสาธิต [Goodman's] มีประโยชน์สำหรับสองเหตุผล ประการแรกมันทำหน้าที่เป็นคำเตือนสำหรับใครก็ตามที่วางแผนการศึกษาที่คล้ายกันเพิ่มเติมกับการศึกษาที่เพิ่งเสร็จสิ้น (ซึ่งมีผลอย่างมีนัยสำคัญเล็กน้อย) ซึ่งอาจไม่ตรงกับการศึกษาครั้งที่สอง ประการที่สองมันทำหน้าที่เป็นคำเตือนว่าอาจมีความไม่สอดคล้องกันอย่างชัดเจนในผลการศึกษาของแต่ละบุคคลและคาดว่าจะไม่เกิดปฏิกิริยานี้

Senn เตือนเราว่าค่าด้านเดียวสามารถเข้าใจได้เนื่องจากความน่าจะเป็นด้านหลังของ Bayesian ของใต้แฟลตก่อนหน้าสำหรับ (ไม่ถูกต้องมาก่อนในบรรทัดจริงทั้งหมด) [ดูMarsman & Wagenmakers 2016สำหรับการสนทนาสั้น ๆ ความจริงข้อนี้และการอ้างอิงบางส่วน] $p$ $H_0:\mu<0$ $\mu$

ถ้าเป็นเช่นนั้นที่ได้รับใด ๆ โดยเฉพาะ -value หนึ่งในการทดสอบความน่าจะเป็นว่าการทดลองต่อไปจะให้ผลผลิตต่ำกว่า -value มีจะเป็น ; มิฉะนั้นการจำลองแบบในอนาคตอาจให้หลักฐานเพิ่มเติมก่อนดำเนินการ จึงทำให้รู้สึกทั้งหมดที่กู๊ดแมนได้รับความน่าจะเป็น0.5และแน่นอนการกระจายการจำลองแบบทั้งหมดคำนวณโดยการคัมมิงและ @ GeoMatt22 มีมีเดียที่เกี่ยวข้อง{} $p$ $p$ $1/2$ $p=0.05$ $0.5$ $p_\mathrm{obs}$

อย่างไรก็ตามเราไม่ต้องการความน่าจะเป็นแบบจำลองนี้สูงกว่าถึงเชื่อว่าประสิทธิภาพของการรักษาน่าจะเป็นไปได้ การทดลองที่ยาวนานซึ่งร้อยละซึ่งมีนัยสำคัญในระดับร้อยละจะเป็นหลักฐานที่น่าเชื่อถือว่าการรักษามีประสิทธิภาพ $0.5$ $50$ $5$

อนึ่งใครก็ตามที่ดูการทำนายแบบกระจายของ value สำหรับพูดการทดสอบขนาดและพลังที่กำหนด ( ดูตัวอย่างที่นี่ ) จะไม่แปลกใจที่การใช้ค่ามัธยฐานที่จะทำให้การกระจายนี้ค่อนข้างกว้าง มีหางที่เป็นไขมันไปต่อ1ในแง่นี้การรายงานในช่วงกว้างโดยคัมมิงยุติความประหลาดใจ $p$ $p=0.05$ $1$

สิ่งที่พวกเขาค่อนข้างจะแนะนำให้เป็นที่หนึ่งควรใช้ขนาดตัวอย่างที่มีขนาดใหญ่เมื่อพยายามที่จะทำซ้ำการทดลอง; และนี่คือคำแนะนำมาตรฐานสำหรับการศึกษาการจำลองแบบ (เช่น Uri Simonsohn แนะนำให้ใช้กฎของหัวแม่มือเพื่อเพิ่มขนาดตัวอย่างเท่า) $2.5$

— อะมีบาพูดว่า Reinstate Monica
แหล่งที่มา

5

(+1) โชคดีที่คุณไม่ได้เกิดขึ้นกับ Goodman หรือ Senn จนกว่าคุณจะทำ :-)

— พระคาร์ดินัล

6

ขอบคุณทุกคนสำหรับการสนทนาที่น่าสนใจเพิ่มเติม แทนที่จะแสดงความคิดเห็นของฉันทีละจุดฉันจะให้ภาพสะท้อนบางอย่าง

เบส์ ฉันไม่มีอะไรเลยเทียบกับแนวทางแบบเบย์ จากจุดเริ่มต้นฉันคาดว่าการวิเคราะห์แบบเบย์โดยสมมติว่าเป็นแบบแบนหรือแบบกระจายก่อนหน้านี้จะให้ช่วงการทำนายที่เหมือนกันหรือคล้ายกันมาก มี para บนหน้า 291 ในบทความปี 2008 เกี่ยวกับเรื่องนั้นส่วนหนึ่งได้รับแจ้งจากผู้ตรวจสอบ ดังนั้นฉันดีใจที่ได้เห็นการทำงานผ่านแนวทางนั้น เยี่ยมมาก แต่มันเป็นวิธีการที่แตกต่างจากที่ฉันใช้

นอกเหนือจากนี้ฉันได้เลือกทำงานเพื่อสนับสนุนช่วงเวลาความเชื่อมั่น (สถิติใหม่: ขนาดผล, CIs, การวิเคราะห์อภิมาน) แทนที่จะใช้วิธีการแบบเบย์ในการประมาณค่า (ขึ้นอยู่กับช่วงเวลาที่น่าเชื่อถือ) เพราะฉันไม่รู้วิธีอธิบาย วิธีการแบบเบย์สำหรับผู้เริ่มต้นดีพอ ฉันไม่เห็นตำราเรียนแบบเบย์เบื้องต้นที่ฉันรู้สึกว่าฉันสามารถใช้กับผู้เริ่มต้นหรือมีแนวโน้มว่าจะสามารถเข้าถึงได้และเชื่อได้โดยนักวิจัยจำนวนมาก ดังนั้นเราต้องมองหาที่อื่นถ้าเราต้องการโอกาสที่ดีในการปรับปรุงวิธีที่นักวิจัยอนุมานทางสถิติของพวกเขา ใช่เราต้องเดินหน้าต่อไปค่านิยมและการเปลี่ยนจากการตัดสินใจแบบแบ่งขั้วเป็นการประมาณและ Bayesians สามารถทำเช่นนั้นได้ แต่มีแนวโน้มมากขึ้นที่จะบรรลุการเปลี่ยนแปลงในทางปฏิบัติ imho เป็นแนวทาง CI แบบดั้งเดิม นั่นเป็นเหตุผลว่าทำไมหนังสือแนะนำสถิติของเราที่เพิ่งเปิดตัวใช้แนวทางใหม่ทางสถิติ ดูwww.thenewstatistics.com

กลับไปที่การสะท้อนกลับ ศูนย์กลางในการวิเคราะห์ของฉันคือสิ่งที่ฉันหมายถึงโดยรู้เพียงค่าpจากการศึกษาครั้งแรก สมมติฐานที่ฉันทำมีการระบุไว้ (ประชากรปกติการสุ่มแบบสุ่มประชากร SD ที่รู้จักกันเพื่อให้เราสามารถใช้zแทนการคำนวณทีในขณะที่เราทำการอนุมานเกี่ยวกับค่าเฉลี่ยประชากรการจำลองแบบที่แน่นอน) แต่นั่นคือทั้งหมดที่ฉันคิด คำถามของฉันคือ 'ให้เฉพาะpจากการทดสอบครั้งแรกเราจะไปได้ไกลแค่ไหน' ข้อสรุปของฉันคือเราสามารถค้นหาการกระจายตัวของp ที่คาดหวังจากการทดลองทำซ้ำ จากการแจกแจงนั้นเราสามารถหาช่วงpหรือความน่าจะเป็นที่สนใจเช่นความน่าจะเป็นที่การจำลองแบบจะให้p<.05 หรือมูลค่าที่น่าสนใจอื่น ๆ

แก่นของการโต้เถียงและบางทีขั้นตอนที่ควรคำนึงถึงมากที่สุดแสดงอยู่ในรูปที่ A2 ในบทความ ครึ่งล่างอาจไม่เป็นอันตราย ถ้าเรารู้ mu (โดยปกติแล้วจะสำเร็จโดยสมมติว่ามันเท่ากับค่าเฉลี่ยจากการศึกษาครั้งแรก) ดังนั้นข้อผิดพลาดในการประมาณค่าซึ่งแสดงโดยกลุ่มเส้นหนามีการแจกแจงที่รู้จัก (ปกติหมายถึง mu, SD ตามที่อธิบายไว้ในคำบรรยาย)

จากนั้นก้าวใหญ่: พิจารณาครึ่งบนของรูปที่ 2A เราไม่มีข้อมูลเกี่ยวกับ mu ไม่มีข้อมูล - ไม่ใช่ข้อสันนิษฐานที่ซ่อนเร้นเกี่ยวกับเรื่องก่อนหน้า แต่เราสามารถระบุการกระจายของเซกเมนต์เส้นหนาเหล่านั้น: ปกติ, หมายถึงศูนย์, SD = SQRT (2) คูณ SD ในครึ่งล่าง ที่ช่วยให้เราสิ่งที่เราต้องพบการกระจายตัวของการจำลองแบบพี

ช่วงp ที่เกิดขึ้นนั้นมีความยาวอย่างน่าประหลาดใจอย่างน้อยฉันก็รู้สึกประหลาดใจเมื่อเปรียบเทียบกับค่าp ที่นักวิจัยใช้กันอย่างแพร่หลาย นักวิจัยมักจะหมกมุ่นเกี่ยวกับค่าทศนิยมที่สองหรือสามของค่าpโดยไม่เห็นคุณค่าว่าค่าที่พวกเขาเห็นอาจแตกต่างกันมาก ดังนั้นความคิดเห็นของฉันบน PP 293-4 เกี่ยวกับการรายงานหน้าช่วงเวลาที่จะยอมรับความไม่ชัดเจนของหน้า

ยาวใช่ แต่นั่นไม่ได้หมายความว่าpจากการทดสอบเริ่มต้นไม่มีความหมายอะไรเลย หลังจากpเริ่มต้นที่ต่ำมากการจำลองจะมีแนวโน้มโดยเฉลี่ยเพื่อให้ค่าpมีขนาดเล็ก เริ่มต้นที่สูงขึ้นPและซ้ำจะมีแนวโน้มที่จะมีค่อนข้างใหญ่หน้าค่า ดูตารางที่ 1 ในหน้า ตัวอย่างเช่น 292 และเปรียบเทียบเช่นช่วงเวลาpในคอลัมน์ด้านขวาสำหรับเริ่มต้นp = .001 และ. 1 - สองผลลัพธ์ที่ได้รับการพิจารณาตามอัตภาพจะแยกออกจากกัน ช่วงเวลาpสองนั้นแตกต่างกันอย่างแน่นอน แต่มีการทับซ้อนกันอย่างมากของทั้งสอง การจำลองการทดลอง. 001 สามารถให้pได้อย่างง่ายดายใหญ่กว่าการจำลองการทดสอบ. 1 แม้ว่าส่วนใหญ่แล้วมันจะไม่

ในฐานะที่เป็นส่วนหนึ่งของงานวิจัยของเขา PhD, เจอร์รี่ Lai รายงาน ( Lai, et al., 2011 ) การศึกษาที่ดีหลายอย่างที่พบว่าการตีพิมพ์นักวิจัยจากจำนวนสาขามีอัตนัยPช่วงเวลาที่อยู่ห่างไกลสั้นเกินไป กล่าวอีกนัยหนึ่งนักวิจัยมักจะประเมินต่ำกว่าค่าpของการจำลองแบบที่ต่างกันอย่างมาก

ข้อสรุปของฉันคือเราไม่ควรใช้ค่าpเลย รายงานและหารือเกี่ยวกับ 95% CI ซึ่งบ่งบอกถึงข้อมูลทั้งหมดในข้อมูลที่บอกเราเกี่ยวกับค่าเฉลี่ยประชากรที่เรากำลังตรวจสอบอยู่ ให้ค่า CI ค่าpเพิ่มอะไรและมีแนวโน้มที่จะแนะนำผิดระดับความมั่นใจบางอย่าง (สำคัญ! ไม่สำคัญ! ผลกระทบที่มีอยู่! มันไม่ได้!) แน่นอนว่าค่าCIs และpขึ้นอยู่กับทฤษฎีเดียวกันและเราสามารถแปลงจากที่หนึ่งไปยังอีกที่หนึ่ง (มีจำนวนมากในนั้นในบทที่ 6 ของหนังสือแนะนำของเรา) แต่ CI ให้ข้อมูลวิธีที่มากกว่าพี สิ่งสำคัญที่สุดคือมันทำให้ขอบเขตความไม่แน่นอนที่สำคัญ เมื่อพิจารณาถึงแนวโน้มของมนุษย์ที่จะเข้าใจอย่างแน่นอนขอบเขตของ CI นั้นมีความสำคัญอย่างยิ่งที่จะต้องพิจารณา

ฉันได้พยายามเน้นความแปรปรวนของค่าpในวิดีโอ 'การเต้นรำของค่าp ' ด้วย Google 'การเต้นรำของค่าp ' มีอย่างน้อยสองรุ่น

ขอให้ทุกช่วงความมั่นใจของคุณสั้นไปหน่อย!

เจฟฟ์

— เจฟฟ์คัมมิง
แหล่งที่มา

3

ขอบคุณสำหรับความคิดเห็นเพิ่มเติมเหล่านี้ Geoff ฉันเห็นด้วยกับบางจุดที่นี่ (เช่นใน "ระดับของความแน่นอน") และไม่เห็นด้วยกับคนอื่น ๆ (เช่น "ให้ CI ค่า p เพิ่มอะไร") แต่สิ่งหนึ่งที่ฉันรู้สึกว่าจำเป็นต้องทำซ้ำโดยเฉพาะ: ฉันไม่ คิดว่ามีใด ๆวิธีการทำวิเคราะห์ของคุณโดยไม่ต้อง Bayes ก่อน อาร์กิวเมนต์ที่แสดงในรูปที่ A2 ของคุณจำเป็นต้องมีการแฟลตก่อนเป็นสมมติฐานที่ซ่อนอยู่ เราสามารถสันนิษฐานได้ว่านักบวชคนอื่น ๆ และได้ผลลัพธ์ที่แตกต่างกันมาก ฉันไม่คิดว่าจะมีข้อโต้แย้งบ่อยนักล้วนที่สามารถสนับสนุนข้อสรุปของคุณ ดูความคิดเห็น @ Whuber ของด้านบน

— อะมีบาพูดว่า Reinstate Monica

@Geoff Cumming - ความคิดเห็นของคุณเกี่ยวกับการศึกษาสถิติและการตีความผลลัพธ์เป็นที่นิยมอย่างมาก

— rolando2