“ ความตั้งใจของผู้ตรวจสอบ” และเกณฑ์ / p-values

ฉันกำลังอ่านสไลด์"Doing Bayesian Data Analysis"ของ John Kruschke แต่จริงๆแล้วมีคำถามเกี่ยวกับการตีความของเขาเกี่ยวกับการทดสอบ t-test และ / หรือกรอบการทดสอบนัยสำคัญเชิงสมมติฐานว่างทั้งหมด เขาระบุว่าค่า p ถูกกำหนดอย่างไม่ดีเพราะขึ้นอยู่กับความตั้งใจของผู้ตรวจสอบ

โดยเฉพาะอย่างยิ่งเขาให้ตัวอย่าง (หน้า 3-6) ของห้องปฏิบัติการสองแห่งที่รวบรวมชุดข้อมูลที่เหมือนกันเปรียบเทียบการรักษาสองแบบ หนึ่งห้องปฏิบัติการมุ่งมั่นที่จะรวบรวมข้อมูลจาก 12 วิชา (6 ต่อเงื่อนไข) ในขณะที่คนอื่น ๆ รวบรวมข้อมูลสำหรับระยะเวลาคงที่ซึ่งยังเกิดขึ้นกับผลตอบแทน 12 วิชา ตามสไลด์สำคัญสำหรับแตกต่างกันระหว่างแผนการเก็บรวบรวมข้อมูลทั้งสองนี้:สำหรับอดีต แต่สำหรับหลัง ! $t$ $p<0.05$ $t_{\textrm{crit}}=2.33$ $t_{\textrm{crit}}=2.45$

บล็อกโพสต์ - ซึ่งตอนนี้ฉันไม่พบ - แนะนำว่าสถานการณ์ระยะเวลาคงที่มีองศาอิสระมากขึ้นเนื่องจากพวกเขาสามารถรวบรวมข้อมูลจาก 11, 13 หรือวิชาอื่น ๆ จำนวนมากขณะที่สถานการณ์คงที่โดย ความหมายมีN $N=12$

มีคนช่วยอธิบายให้ฉันหน่อยได้ไหม:

เหตุใดค่าวิกฤตจึงแตกต่างกันระหว่างเงื่อนไขเหล่านี้
(สมมติว่าเป็นปัญหา) เราจะแก้ไขและเปรียบเทียบผลของเกณฑ์การหยุดที่แตกต่างกันอย่างไร

ฉันรู้ว่าการตั้งค่าเกณฑ์การหยุดตามความสำคัญ (เช่นตัวอย่างจนถึง ) สามารถขยายโอกาสของข้อผิดพลาด Type I แต่ดูเหมือนจะไม่เกิดขึ้นที่นี่เนื่องจากกฎการหยุดไม่ขึ้นอยู่กับผลลัพธ์ของ การวิเคราะห์. $p<0.05$

hypothesis-testing

— แมตต์กรอส
แหล่งที่มา

คำตอบ:

นี่คือข้อมูลเพิ่มเติม: http://doingbayesiandataanalysis.blogspot.com/2012/07/sampling-distribution-of-t-when.html

การอภิปรายที่สมบูรณ์ยิ่งขึ้นมีให้ที่นี่: http://www.indiana.edu/~kruschke/BEST/ บทความนั้นพิจารณาค่า p สำหรับการหยุดที่ธรณีประตู N หยุดที่ช่วงเวลาที่กำหนดและหยุดที่ค่า threshold t

— John K. Kruschke
แหล่งที่มา

ว้าว! ตรงจากปากม้าเหมือนเดิม ... มันเป็นความคิดที่น่าสนใจที่ไม่เคยเกิดขึ้นกับข้า ขอบคุณสำหรับข้อมูลเพิ่มเติม

— Matt Krause

ฉันต้องการเพิ่มว่าเรื่องนี้จะถูกกล่าวถึงในหนังสือของดร. Kruschke (บทที่ 11)

— Matt Krause

ในที่สุดฉันก็ติดตามกระดาษที่เกี่ยวข้องกับสไลด์: Kruschke (2010) , นอกจากนี้ยังมีโดยตรงจากผู้เขียน (ผ่าน CiteSeerX) ที่นี่เนื่องจากวารสารไม่ได้ดำเนินการอย่างกว้างขวาง คำอธิบายนั้นค่อนข้างจืดชืด แต่ฉันก็ยังไม่แน่ใจว่าฉันจะซื้อมัน

ในกรณีตายตัว -N ค่าวิกฤต -value คำนวณดังนี้: ตัวอย่างถูกสุ่มจากประชากร (เดียวกัน) และคำนวณค่า -value กระบวนการนี้ซ้ำหลายครั้งเพื่อสร้างการแจกแจงแบบ null ในที่สุดตั้งค่าเป็นเปอร์เซ็นต์ไทล์ 95 ของการแจกแจงนั้น $t$ $2N$ $t$ $t_{crit}$

สำหรับกรณีที่ระยะเวลาคงที่เขาสันนิษฐานว่าอาสาสมัครมาถึงในอัตราเฉลี่ยλการแจกแจงแบบ null จะถูกสร้างโดยการทำซ้ำสองขั้นตอน ในขั้นตอนแรก, จำนวนวิชาสำหรับแต่ละสภาพและถูกดึงมาจากการกระจาย possion กับพารามิเตอร์λถัดไปจะใช้การสุ่มดึงและจากประชากรเพื่อคำนวณค่า -value นี้ซ้ำแล้วซ้ำอีกหลายครั้งและกำหนดให้ 95 เปอร์เซ็นต์ของการกระจายที่ $\lambda$ $N_1$ $N_2$ $\lambda$ $N_1$ $N_2$ $t$ $t_{crit}$

ดูเหมือนว่า ... หน้าด้าน ... กับฉัน ตามที่ผมเข้าใจมันมีไม่ได้เป็นคนเดียว -distribution; แต่เป็นตระกูลของการแจกแจงโดยมีรูปร่างที่กำหนดบางส่วนโดยพารามิเตอร์ degrees-of-freedom สำหรับคงสภาพที่มีวิชาต่อกลุ่มและเหมาะสม -value สำหรับ unpaired t-test เป็นหนึ่งที่มีองศาอิสระซึ่งสันนิษฐานว่าเป็นสิ่งที่ผลิตซ้ำจำลองของเขา $t$ $N$ $N$ $t$ $2N-2$

ในเงื่อนไขอื่น ๆ ดูเหมือนว่าการแจกแจงแบบ" " นั้นจริง ๆ แล้วเป็นการรวมกันของกลุ่มตัวอย่างจากการแจกแจงแบบต่าง ๆ มากมายขึ้นอยู่กับการดึงที่เฉพาะเจาะจง ด้วยการตั้งค่าเราสามารถได้รับองศาอิสระโดยเฉลี่ยเท่ากับแต่นั่นยังไม่เพียงพอ ตัวอย่างเช่นค่าเฉลี่ยของ -distribution สำหรับและดูเหมือนจะไม่ใช่ -distribution ที่มี 3 องศาอิสระ $t$ $t$ $\lambda=N$ $2N-N$ $t$ $\nu=1$ $\nu=5$ $t$

สรุป:

ผู้เขียนได้รับการสร้างโดยการจำลองแทนเพียงแค่พวกเขาจากการคำนวณ CDF $t_{crit}$
วิธีที่ผู้เขียนจำลองสถานการณ์จำลองระยะเวลาคงที่ดูเหมือนว่ามันอาจทำให้หางของการแจกแจงสอดคล้องกันตรงกัน $t$
ฉันยังคงไม่มั่นใจว่านี่เป็นปัญหาจริง แต่ยินดีที่จะอ่าน / โหวต / ยอมรับคำตอบถ้าใครคิดอย่างอื่น

— แมตต์กรอส
แหล่งที่มา

ทำไมคุณสามารถตอบคำถามของคุณเองและให้เครื่องหมายถูก? ดูเหมือนคุณจะไม่สามารถให้ตัวเองตัวแทน Pointe!

— Michael R. Chernick

ไม่มีอะไรผิดที่จะตอบคำถามของเขาเองไมเคิล

— chl

@MichaelChernick ฉันเชื่อว่าคุณไม่ได้รับตัวแทนใด ๆ ถ้าคุณยอมรับคำตอบของคุณเอง ในเวลานั้นดูเหมือนว่าสิ่งที่ถูกต้องที่จะทำเพราะฉันได้ติดตามคำตอบมากหรือน้อยในช่วงสองสัปดาห์ที่ผ่านมา แต่ฉันเปลี่ยนการยอมรับคำตอบของ John K. Kruschke เนื่องจากเขาเห็นได้ชัดว่าอำนาจของเขาเอง สไลด์ :-)

— แมตต์ Krause

ขอบคุณที่น่าสนใจ แต่ฉันไม่เห็นว่าทำไมคนเราควรตรวจสอบคำตอบของตัวเองได้ตลอดเวลาแม้ว่าจะดูเหมือนว่าถูกต้องและดีที่สุดก็ตาม เราได้กำหนดไว้ว่าการตรวจสอบคำตอบของคุณไม่ได้ให้คะแนนตัวแทน

— Michael R. Chernick

เนื่องจากการทำเครื่องหมายคำตอบตามที่ยอมรับจึงไม่มีวัตถุประสงค์อื่นนอกเหนือจากการระบุวิธีแก้ไขปัญหาที่ถูกต้อง (สำหรับผู้เยี่ยมชมในอนาคต) โดยเฉพาะอย่างยิ่งเมื่อไม่มีการเสนออื่น ๆ ฉันจึงเห็นว่าไม่มีปัญหา โดยส่วนตัวแล้วฉันได้ตอบคำถามนี้มานานแล้วเพราะฉันชื่นชมว่า OP ช่วยให้เราได้รับประโยชน์จากการวิจัยของตัวเอง และฉันขอโทษจริง ๆ ที่ไม่สามารถให้คะแนนเพิ่มเติมสำหรับข้อเท็จจริงง่ายๆของการติดตามกระทู้นี้และปรับปรุงการตัดสินใจของเขา ป.ล. "เราได้จัดตั้ง ... " หมายถึงทำไมจึงเป็นไปได้ที่จะให้คะแนนชื่อเสียงตัวเอง? .

— chl