อธิบายการทดสอบสองด้าน


16

ฉันกำลังมองหาวิธีต่างๆในการอธิบายให้นักเรียนของฉัน (ในหลักสูตรสถิติเบื้องต้น) การทดสอบสองแบบคืออะไรและการคำนวณค่า P ของมันอย่างไร

คุณอธิบายให้นักเรียนของคุณทราบถึงการทดสอบแบบสองทางแบบหนึ่งได้อย่างไร

คำตอบ:


17

นี่เป็นคำถามที่ดีมากและฉันตั้งตารอคอยที่จะอธิบายรุ่น p ทุก ๆ ค่าและการทดสอบสองด้านเทียบกับหนึ่งด้าน ฉันสอนสถิติเกี่ยวกับศัลยแพทย์กระดูกและข้อดังนั้นฉันจึงพยายามทำให้มันเป็นพื้นฐานที่สุดเท่าที่จะเป็นไปได้เนื่องจากพวกเขาส่วนใหญ่ไม่ได้เรียนคณิตศาสตร์ขั้นสูงมานาน 10-30 ปี

วิธีอธิบายการคำนวณค่า p และส่วนท้ายของฉัน

ฉันเริ่มต้นด้วยการอธิบายว่าถ้าเราเชื่อว่าเรามีเหรียญที่ยุติธรรมเรารู้ว่ามันควรจะได้ 50% ของการโยนโดยเฉลี่ย ( ) ทีนี้ถ้าคุณสงสัยว่าความน่าจะเป็นที่จะได้แค่ 2 ก้อยจาก 10 ฟลิปด้วยเหรียญยุติธรรมนี้คุณสามารถคำนวณความน่าจะเป็นดังที่ฉันได้ทำในกราฟแท่งแล้ว จากกราฟจะเห็นได้ว่าน่าจะเป็นของการได้รับ 8 ใน 10 พลิกเหรียญยุติธรรมเป็นเรื่องเกี่ยวกับเกี่ยวกับ4.4 %=H04.4%

เนื่องจากเราจะถามถึงความยุติธรรมของเหรียญถ้าเราได้ 9 หรือ 10 ก้อยเราต้องรวมความเป็นไปได้เหล่านี้ไว้ด้วย, ส่วนท้ายของการทดสอบ ด้วยการเพิ่มค่าที่เราได้รับความน่าจะเป็นตอนนี้น้อยกว่าของ 2 ก้อยหรือน้อยกว่า5.5%

ทีนี้ถ้าเราได้แค่ 2 หัวคือ 8 หัว (หางอีกข้าง) เราอาจจะยินดีที่จะถามความเป็นธรรมของเหรียญ ซึ่งหมายความว่าคุณท้ายด้วยความน่าจะเป็นสำหรับการทดสอบแบบสองด้าน5.4...%+5.4...%10.9%

เนื่องจากเราในวงการแพทย์มักสนใจศึกษาความล้มเหลวเราจึงจำเป็นต้องรวมด้านตรงกันข้ามของความน่าจะเป็นแม้ว่าความตั้งใจของเราคือการทำสิ่งที่ดี

กราฟเหรียญพลิกของฉัน

ภาพสะท้อนจากหัวข้อเล็กน้อย

ตัวอย่างง่ายๆนี้แสดงให้เห็นว่าเราขึ้นอยู่กับสมมติฐานว่างในการคำนวณค่า p ฉันชอบที่จะชี้ให้เห็นความคล้ายคลึงกันระหว่างเส้นโค้งทวินามกับเส้นโค้งระฆัง เมื่อเปลี่ยนเป็น 200 flips คุณจะได้รับวิธีการอธิบายอย่างเป็นธรรมชาติว่าทำไมความน่าจะเป็นที่ได้รับ 100 flips จึงเริ่มขาดความเกี่ยวข้อง การกำหนดช่วงเวลาที่สนใจคือการเปลี่ยนฟังก์ชันความหนาแน่นของความน่าจะเป็น / ฟังก์ชันมวลและความน่าจะเป็นแบบสะสม

ในชั้นเรียนของฉันฉันแนะนำให้พวกเขาดูวิดีโอสถิติของ Khan Academyและฉันยังใช้คำอธิบายของเขาสำหรับแนวคิดบางอย่าง พวกเขายังได้รับการพลิกเหรียญที่เรามองเข้าไปในแบบแผนของการพลิกเหรียญ - สิ่งที่ฉันพยายามที่จะแสดงเป็นแบบแผนว่าเป็นแบบสุ่มมากกว่าสิ่งที่เรามักจะเชื่อว่าแรงบันดาลใจจากเหตุการณ์ Radiolab นี้

รหัส

ฉันมักจะมีหนึ่งกราฟ / สไลด์รหัส R ที่ฉันใช้ในการสร้างกราฟ:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

คำตอบที่ดีแม็กซ์ - และขอขอบคุณสำหรับการรับรู้ไม่ใช่เรื่องขี้ปะติ๋วของคำถามของฉัน :)
Tal Galili

+1 คำตอบที่ดีอย่างละเอียดมาก ยกโทษให้ฉัน แต่ฉันจะทำสองสิ่ง 1) ค่า p ถูกเข้าใจว่าเป็นความน่าจะเป็นของข้อมูลที่รุนแรงหรือมากเกินกว่าที่คุณมีภายใต้ค่า null ดังนั้นคำตอบของคุณจึงถูกต้อง อย่างไรก็ตามเมื่อใช้ข้อมูลที่ไม่ต่อเนื่องเช่นการโยนเหรียญของคุณสิ่งนี้จะถูกสงวนไว้อย่างไม่เหมาะสม เป็นการดีที่สุดที่จะใช้สิ่งที่เรียกว่า "ค่ากลาง p" นั่นคือ 1/2 ความน่าจะเป็นของข้อมูลที่รุนแรงที่สุดเท่าที่คุณ + ความน่าจะเป็นของข้อมูลที่มากขึ้น การสนทนาอย่างง่ายของปัญหาเหล่านี้สามารถพบได้ใน Agresti (2007) 2.6.3 (ต่อ)
gung - Reinstate Monica

2) คุณระบุว่าการสุ่มนั้นสุ่มกว่าที่เราเชื่อ ฉันสามารถเดาได้ว่าคุณหมายถึงอะไร (ฉันไม่ได้มีโอกาสฟังตอนที่คุณเชื่อมโยง Radiolab แต่ฉันจะ) อยากรู้อยากเห็นพอฉันมักจะบอกนักเรียนว่าการสุ่มน้อยกว่าที่คุณเชื่อ ฉันหมายถึงที่นี่เพื่อรับรู้ของลายเส้น (เช่นในการเล่นการพนัน) ผู้คนเชื่อว่าเหตุการณ์แบบสุ่มควรสลับมากกว่าเหตุการณ์แบบสุ่มจริง ๆ และทำให้เชื่อว่าพวกเขาเห็นริ้วรอย ดู Falk (1997) ทำความเข้าใจกับการสุ่มPsych Rev 104,2 อีกครั้งคุณไม่ผิด - เพียงแค่อาหารสำหรับความคิด
gung - Reinstate Monica

ขอบคุณ @gung สำหรับข้อมูลของคุณ จริง ๆ แล้วฉันไม่เคยได้ยินเกี่ยวกับค่ากลาง - มันสมเหตุสมผลแล้ว ฉันไม่แน่ใจว่ามันเป็นสิ่งที่ฉันจะพูดถึงเมื่อสอนสถิติขั้นพื้นฐานหรือไม่เพราะมันอาจให้ความรู้สึกของการสูญเสียความรู้สึกภาคปฏิบัติที่ฉันพยายามจะให้ เกี่ยวกับการสุ่มเรามีความหมายเหมือนกัน - เมื่อเห็นตัวเลขสุ่มอย่างแท้จริงเราก็ถูกหลอกว่าคิดว่ามีรูปแบบ ฉันคิดว่าฉันได้ยินใน Freakonomics podcast ความโง่เขลาของการทำนายว่า ...
แม็กซ์กอร์ดอน

... ความคิดของมนุษย์ในช่วงหลายปีที่ผ่านมาได้เรียนรู้ว่าการที่ไม่สามารถตรวจจับนักล่าได้นั้นมีค่าใช้จ่ายมากกว่าที่คิด ฉันชอบการเปรียบเทียบนั้นและพยายามบอกเพื่อนร่วมงานของฉันว่าหนึ่งในสาเหตุหลักของการใช้สถิติคือการช่วยเราด้วยข้อบกพร่องนี้ที่เราทุกคนเกิดมา
Max Gordon

9

สมมติว่าคุณต้องการทดสอบสมมติฐานที่ว่าความสูงเฉลี่ยของผู้ชายคือ "5 ฟุต 7 นิ้ว" คุณเลือกตัวอย่างแบบสุ่มของผู้ชายวัดความสูงและคำนวณค่าเฉลี่ยตัวอย่าง สมมติฐานของคุณคือ:

H0:μ=5 ft 7 inches

HA:μ5 ft 7 inches

ในสถานการณ์ข้างต้นคุณทำการทดสอบสองแบบเนื่องจากคุณจะปฏิเสธค่าว่างถ้าค่าเฉลี่ยตัวอย่างต่ำเกินไปหรือสูงเกินไป

ในกรณีนี้ค่า p แสดงถึงความน่าจะเป็นที่จะทราบค่าเฉลี่ยตัวอย่างอย่างน้อยที่สุดเท่าที่เราได้รับจริงโดยสมมติว่าค่าว่างนั้นเป็นจริง ดังนั้นหากสังเกตค่าเฉลี่ยตัวอย่างว่าเป็น "5 ฟุต 8 นิ้ว" ค่า p จะแสดงถึงความน่าจะเป็นที่เราจะสังเกตความสูงมากกว่า "5 ฟุต 8 นิ้ว" หรือความสูงน้อยกว่า "5 ฟุต 6 นิ้ว" หากค่าเป็นโมฆะ เป็นความจริง.

หากในอีกทางหนึ่งทางเลือกของคุณมีกรอบเช่นนั้น

HA:μ>5 ฟุต 7 นิ้ว

ในสถานการณ์ข้างต้นคุณจะทำการทดสอบแบบด้านเดียวทางด้านขวา เหตุผลก็คือคุณต้องการปฏิเสธค่าว่างแทนตัวเลือกหากค่าเฉลี่ยตัวอย่างสูงมาก

การตีความค่า p-value ยังคงเหมือนเดิมด้วยความแตกต่างเล็กน้อยที่ตอนนี้เรากำลังพูดถึงความน่าจะเป็นที่จะทราบค่าเฉลี่ยตัวอย่างที่มากกว่าค่าที่เราได้รับจริง ดังนั้นหากสังเกตค่าเฉลี่ยตัวอย่างว่าเป็น "5 ฟุต 8 นิ้ว" ค่า p จะแสดงถึงความน่าจะเป็นที่เราจะสังเกตความสูงมากกว่า "5 ฟุต 8 นิ้ว" หากค่าว่างเป็นจริง


2
เมื่อก่อนสำหรับที่สองของคุณHA null ควรอ่าน H0:μ5 ฟุต 7 นิ้วไม่ใช่ H0:μ=5 ฟุต 7 นิ้ว. เห็นหนึ่งในความเห็นของ @ whuber ต่อคำถามนี้ข้อสมมติฐานที่เป็นโมฆะและทางเลือกจำเป็นต้องหมดแรงหรือไม่? .
chl

2
@chl ฉันเห็นด้วย อย่างไรก็ตามสำหรับคนที่เพิ่งได้รับการแนะนำให้รู้จักกับความคิดทางสถิติการเขียนโมฆะอีกครั้งสำหรับการทดสอบแบบด้านเดียวอาจเป็นการเบี่ยงเบนความสนใจเมื่อการมุ่งเน้นไปที่วิธีและสาเหตุที่สิ่งต่าง ๆ เปลี่ยนไปตามการตีความค่า p
varty

1
ยุติธรรมพอสมควร แม้ว่าจะมีจุดประสงค์ในการสอนก็ตาม
chl
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.