“ ความตั้งใจของผู้ตรวจสอบ” และเกณฑ์ / p-values


21

ฉันกำลังอ่านสไลด์"Doing Bayesian Data Analysis"ของ John Kruschke แต่จริงๆแล้วมีคำถามเกี่ยวกับการตีความของเขาเกี่ยวกับการทดสอบ t-test และ / หรือกรอบการทดสอบนัยสำคัญเชิงสมมติฐานว่างทั้งหมด เขาระบุว่าค่า p ถูกกำหนดอย่างไม่ดีเพราะขึ้นอยู่กับความตั้งใจของผู้ตรวจสอบ

โดยเฉพาะอย่างยิ่งเขาให้ตัวอย่าง (หน้า 3-6) ของห้องปฏิบัติการสองแห่งที่รวบรวมชุดข้อมูลที่เหมือนกันเปรียบเทียบการรักษาสองแบบ หนึ่งห้องปฏิบัติการมุ่งมั่นที่จะรวบรวมข้อมูลจาก 12 วิชา (6 ต่อเงื่อนไข) ในขณะที่คนอื่น ๆ รวบรวมข้อมูลสำหรับระยะเวลาคงที่ซึ่งยังเกิดขึ้นกับผลตอบแทน 12 วิชา ตามสไลด์สำคัญสำหรับแตกต่างกันระหว่างแผนการเก็บรวบรวมข้อมูลทั้งสองนี้:สำหรับอดีต แต่สำหรับหลัง !p < 0.05 t crit = 2.33 t crit = 2.45tp<0.05tcrit=2.33tcrit=2.45

บล็อกโพสต์ - ซึ่งตอนนี้ฉันไม่พบ - แนะนำว่าสถานการณ์ระยะเวลาคงที่มีองศาอิสระมากขึ้นเนื่องจากพวกเขาสามารถรวบรวมข้อมูลจาก 11, 13 หรือวิชาอื่น ๆ จำนวนมากขณะที่สถานการณ์คงที่โดย ความหมายมีNN=12

มีคนช่วยอธิบายให้ฉันหน่อยได้ไหม:

  • เหตุใดค่าวิกฤตจึงแตกต่างกันระหว่างเงื่อนไขเหล่านี้

  • (สมมติว่าเป็นปัญหา) เราจะแก้ไขและเปรียบเทียบผลของเกณฑ์การหยุดที่แตกต่างกันอย่างไร

ฉันรู้ว่าการตั้งค่าเกณฑ์การหยุดตามความสำคัญ (เช่นตัวอย่างจนถึง ) สามารถขยายโอกาสของข้อผิดพลาด Type I แต่ดูเหมือนจะไม่เกิดขึ้นที่นี่เนื่องจากกฎการหยุดไม่ขึ้นอยู่กับผลลัพธ์ของ การวิเคราะห์.p<0.05

คำตอบ:


11

นี่คือข้อมูลเพิ่มเติม: http://doingbayesiandataanalysis.blogspot.com/2012/07/sampling-distribution-of-t-when.html

การอภิปรายที่สมบูรณ์ยิ่งขึ้นมีให้ที่นี่: http://www.indiana.edu/~kruschke/BEST/ บทความนั้นพิจารณาค่า p สำหรับการหยุดที่ธรณีประตู N หยุดที่ช่วงเวลาที่กำหนดและหยุดที่ค่า threshold t


ว้าว! ตรงจากปากม้าเหมือนเดิม ... มันเป็นความคิดที่น่าสนใจที่ไม่เคยเกิดขึ้นกับข้า ขอบคุณสำหรับข้อมูลเพิ่มเติม
Matt Krause

ฉันต้องการเพิ่มว่าเรื่องนี้จะถูกกล่าวถึงในหนังสือของดร. Kruschke (บทที่ 11)
Matt Krause

13

ในที่สุดฉันก็ติดตามกระดาษที่เกี่ยวข้องกับสไลด์: Kruschke (2010) , นอกจากนี้ยังมีโดยตรงจากผู้เขียน (ผ่าน CiteSeerX) ที่นี่เนื่องจากวารสารไม่ได้ดำเนินการอย่างกว้างขวาง คำอธิบายนั้นค่อนข้างจืดชืด แต่ฉันก็ยังไม่แน่ใจว่าฉันจะซื้อมัน

ในกรณีตายตัว -N ค่าวิกฤต -value คำนวณดังนี้: 2ตัวอย่างNถูกสุ่มจากประชากร (เดียวกัน) และคำนวณค่าt -value กระบวนการนี้ซ้ำหลายครั้งเพื่อสร้างการแจกแจงแบบ null ในที่สุดt c r i tตั้งค่าเป็นเปอร์เซ็นต์ไทล์ 95 ของการแจกแจงนั้นt2Nttcrit

สำหรับกรณีที่ระยะเวลาคงที่เขาสันนิษฐานว่าอาสาสมัครมาถึงในอัตราเฉลี่ยλการแจกแจงแบบ null จะถูกสร้างโดยการทำซ้ำสองขั้นตอน ในขั้นตอนแรก, จำนวนวิชาสำหรับแต่ละสภาพN 1และN 2ถูกดึงมาจากการกระจาย possion กับพารามิเตอร์λ ถัดไปจะใช้การสุ่มดึงN 1และN 2จากประชากรเพื่อคำนวณค่าt -value นี้ซ้ำแล้วซ้ำอีกหลายครั้งและเสื้อr ฉันทีกำหนดให้ 95 เปอร์เซ็นต์ของการกระจายที่λN1N2λN1N2ttcrit

ดูเหมือนว่า ... หน้าด้าน ... กับฉัน ตามที่ผมเข้าใจมันมีไม่ได้เป็นคนเดียว -distribution; แต่เป็นตระกูลของการแจกแจงโดยมีรูปร่างที่กำหนดบางส่วนโดยพารามิเตอร์ degrees-of-freedom สำหรับคงไม่มีสภาพที่มีNวิชาต่อกลุ่มและเหมาะสมที -value สำหรับ unpaired t-test เป็นหนึ่งที่มี2 N - 2องศาอิสระซึ่งสันนิษฐานว่าเป็นสิ่งที่ผลิตซ้ำจำลองของเขา tNNt2N2

ในเงื่อนไขอื่น ๆ ดูเหมือนว่าการแจกแจงแบบ" " นั้นจริง ๆ แล้วเป็นการรวมกันของกลุ่มตัวอย่างจากการแจกแจงแบบt-ดิสเพอเรชั่นต่าง ๆ มากมายขึ้นอยู่กับการดึงที่เฉพาะเจาะจง ด้วยการตั้งค่าλ = Nเราสามารถได้รับองศาอิสระโดยเฉลี่ยเท่ากับ2 N - Nแต่นั่นยังไม่เพียงพอ ตัวอย่างเช่นค่าเฉลี่ยของt -distribution สำหรับν = 1และν = 5ดูเหมือนจะไม่ใช่t -distribution ที่มี 3 องศาอิสระttλ=N2NNtν=1ν=5t

สรุป:

  • ผู้เขียนได้รับการสร้างโดยการจำลองแทนเพียงแค่พวกเขาจากการคำนวณ CDFtcrit
  • วิธีที่ผู้เขียนจำลองสถานการณ์จำลองระยะเวลาคงที่ดูเหมือนว่ามันอาจทำให้หางของการแจกแจงสอดคล้องกันตรงกันt
  • ฉันยังคงไม่มั่นใจว่านี่เป็นปัญหาจริง แต่ยินดีที่จะอ่าน / โหวต / ยอมรับคำตอบถ้าใครคิดอย่างอื่น

ทำไมคุณสามารถตอบคำถามของคุณเองและให้เครื่องหมายถูก? ดูเหมือนคุณจะไม่สามารถให้ตัวเองตัวแทน Pointe!
Michael R. Chernick

5
ไม่มีอะไรผิดที่จะตอบคำถามของเขาเองไมเคิล
chl

@MichaelChernick ฉันเชื่อว่าคุณไม่ได้รับตัวแทนใด ๆ ถ้าคุณยอมรับคำตอบของคุณเอง ในเวลานั้นดูเหมือนว่าสิ่งที่ถูกต้องที่จะทำเพราะฉันได้ติดตามคำตอบมากหรือน้อยในช่วงสองสัปดาห์ที่ผ่านมา แต่ฉันเปลี่ยนการยอมรับคำตอบของ John K. Kruschke เนื่องจากเขาเห็นได้ชัดว่าอำนาจของเขาเอง สไลด์ :-)
แมตต์ Krause

ขอบคุณที่น่าสนใจ แต่ฉันไม่เห็นว่าทำไมคนเราควรตรวจสอบคำตอบของตัวเองได้ตลอดเวลาแม้ว่าจะดูเหมือนว่าถูกต้องและดีที่สุดก็ตาม เราได้กำหนดไว้ว่าการตรวจสอบคำตอบของคุณไม่ได้ให้คะแนนตัวแทน
Michael R. Chernick

3
เนื่องจากการทำเครื่องหมายคำตอบตามที่ยอมรับจึงไม่มีวัตถุประสงค์อื่นนอกเหนือจากการระบุวิธีแก้ไขปัญหาที่ถูกต้อง (สำหรับผู้เยี่ยมชมในอนาคต) โดยเฉพาะอย่างยิ่งเมื่อไม่มีการเสนออื่น ๆ ฉันจึงเห็นว่าไม่มีปัญหา โดยส่วนตัวแล้วฉันได้ตอบคำถามนี้มานานแล้วเพราะฉันชื่นชมว่า OP ช่วยให้เราได้รับประโยชน์จากการวิจัยของตัวเอง และฉันขอโทษจริง ๆ ที่ไม่สามารถให้คะแนนเพิ่มเติมสำหรับข้อเท็จจริงง่ายๆของการติดตามกระทู้นี้และปรับปรุงการตัดสินใจของเขา ป.ล. "เราได้จัดตั้ง ... " หมายถึงทำไมจึงเป็นไปได้ที่จะให้คะแนนชื่อเสียงตัวเอง? .
chl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.