ตัวอย่างอิสระ t-test มีความแข็งแกร่งเพียงใดเมื่อการแจกแจงตัวอย่างไม่ปกติ?


24

ฉันได้อ่านแล้วว่าการทดสอบเสื้อยืดนั้น "แข็งแกร่งพอสมควร" เมื่อการแจกแจงของตัวอย่างนั้นออกจากภาวะปกติ แน่นอนว่ามันคือการกระจายตัวตัวอย่างของความแตกต่างที่สำคัญ ฉันมีข้อมูลสำหรับสองกลุ่ม กลุ่มใดกลุ่มหนึ่งมีความเบ้สูงของตัวแปรตาม ขนาดตัวอย่างค่อนข้างเล็กสำหรับทั้งสองกลุ่ม (n = 33 ในหนึ่งและ 45 ในอีกกลุ่ม) ฉันควรสมมติว่าภายใต้เงื่อนไขเหล่านี้การทดสอบเสื้อยืดของฉันจะทนทานต่อการละเมิดข้อสันนิษฐานทั่วไปหรือไม่


3
"แน่นอนมันเป็นการกระจายตัวตัวอย่างของความแตกต่างที่สำคัญ" - ความแตกต่างในสิ่งที่? ฉันถูกล่อลวงให้แก้ไขคำถามนี้เนื่องจากฉันกลัวว่าจะทำให้ผู้อ่านในอนาคตเข้าใจผิด (และสัมผัสกับประเด็นหลัก) ความคิดแรกของฉันคือมันเป็นความเข้าใจผิดว่าการอ้างอิงไปยังคู่ T -test ที่เราคิดแตกต่างระหว่างคู่เป็นปกติ แต่ไม่ได้นำไปใช้ในการทดสอบกลุ่มที่เป็นอิสระ เราไม่มีคู่ที่จะแตกต่าง! บางที "ความแตกต่างในวิธีการ" มีจุดมุ่งหมายหรือไม่ ส่วนที่เหลือของ Q พิจารณาความเป็นปกติของทั้งสองตัวอย่างไม่แตกต่างกัน
Silverfish

คำถามของวิธีการที่แข็งแกร่งที่T -test คือการละเมิดดังกล่าวมีความสำคัญและถูกต้องตามกฎหมาย แต่ปัญหาที่เกี่ยวข้องคือการตรวจสอบการละเมิดข้อมูลของคุณก่อนแล้วจึงตัดสินใจว่าจะใช้การทดสอบt -test หรือการทดสอบทางเลือกอื่น ๆ หรือไม่ ขั้นตอนแบบหลายขั้นตอนดังกล่าวมีลักษณะการดำเนินงานที่ไม่แน่นอน ดูหัวข้อนี้: วิธีการหลักการสำหรับการเลือกระหว่างการทดสอบ t หรือไม่ใช่พารามิเตอร์เช่น Wilcoxon ในตัวอย่างเล็ก ๆ
Silverfish

แหล่งข้อมูลที่น่าเชื่อถือคืออะไร (ฉันคิดว่าเราทั้งคู่เห็นพ้องต้องกันว่าไม่มีสิ่งใดเป็นแหล่งข้อมูลอย่างเป็นทางการ) เรากำลังดูระดับความทนทานหรือกำลังหรือไม่ และถ้า 'พลัง' ... เรากำลังพูดถึงทางเลือกอะไร?
Glen_b -Reinstate Monica

@Glen_b ขออภัยข้อความ "แหล่งที่มาอย่างเป็นทางการ" เป็นรางวัลสำหรับ StackOverflow ที่ชัดเจนยิ่งขึ้น! ฉันแค่รู้สึกว่าหัวข้อนี้มีความสำคัญในทางปฏิบัติ (รวมถึงการเข้าชมค่อนข้างสูงและไม่ดีใน Wikipedia) เพื่อทำประโยชน์การอ้างอิงบางส่วน เทมเพลตรางวัล "คำตอบมาตรฐาน" จะไม่เหมาะสมเนื่องจากคำตอบของ Peter Flom แสดงให้เห็นอย่างชัดเจน ฉันได้รับความรู้สึกว่ามี "องค์ความรู้ทั่วไป" ในหัวข้อนี้ - ถ้าฉันถูกถามคำถามแบบนี้รายการของฉันจะมีลักษณะเหมือนของ Dallal (ฉันได้เพิ่มความโด่ง แต่ไม่มีขนาดเท่ากัน ปกป้อง vs ทั่วไปไม่ใช่บรรทัดฐาน)
Silverfish

@Glen_b คำตอบของคุณขุดเส้นเลือดที่คล้ายกันดังนั้นจึงดูเหมือนว่ามีบางจุดพื้นฐานที่รู้จัก / ยอมรับอย่างกว้างขวาง การศึกษาระดับปริญญาของฉันครอบคลุมถึงสมมติฐาน แต่ไม่ใช่ผลของการละเมิด: ความรู้ของฉันถูกดึงมาจากแหล่งที่หลากหลายบิตและบ็อบที่กระจัดกระจายเกี่ยวกับ (หนังสือประเภท "สถิติสำหรับนักจิตวิทยา" สามารถให้ความสำคัญกับผลที่ตามมามากกว่า คำตอบไม่ใช่ความโปรดปราน! หากใครรู้ว่าสรุปหน้าเดียวที่ดีในตำราเรียนที่ดีนั่นจะทำให้ฉันสบายดี หากเป็นเอกสารสองสามฉบับที่มีผลลัพธ์การจำลองก็ไม่เป็นไร สิ่งที่ผู้อ่านในอนาคตสามารถอ้างถึงและอ้างถึง
Silverfish

คำตอบ:


16

คำถามเกี่ยวกับความทนทานนั้นยากมากที่จะตอบได้ดี - เนื่องจากข้อสันนิษฐานอาจถูกละเมิดในหลาย ๆ ทางและในแต่ละระดับจะแตกต่างกัน งานการจำลองสถานการณ์สามารถสุ่มตัวอย่างส่วนเล็ก ๆ ของการละเมิดที่เป็นไปได้เท่านั้น

เมื่อพิจารณาถึงสถานะของการประมวลผลฉันคิดว่ามันคุ้มค่ากับเวลาที่จะเรียกใช้ทั้งการทดสอบแบบพารามิเตอร์และแบบไม่ใช้พารามิเตอร์ จากนั้นคุณสามารถเปรียบเทียบผลลัพธ์

หากคุณมีความทะเยอทะยานจริงๆคุณสามารถทำแบบทดสอบการเรียงสับเปลี่ยน

ถ้าอลันทัวริงทำหน้าที่ของเขาก่อนโรนัลด์ฟิชเชอร์ก็ทำเช่นนั้น? :-)


1
ปีเตอร์คุณได้แรงบันดาลใจให้ฉันเขียนนิยายอิงประวัติศาสตร์เพื่อตอบคำถามนั้นอย่างแม่นยำ!
Sycorax พูดว่า Reinstate Monica

12

@ PeterFlom ตบเล็บด้วยประโยคแรกของเขา

ฉันจะพยายามให้ข้อมูลคร่าวๆเกี่ยวกับสิ่งที่ฉันได้เห็นการศึกษา (ถ้าคุณต้องการลิงค์อาจเป็นเวลานาน):

โดยรวมแล้ว t-test ทั้งสองตัวอย่างนั้นมีกำลังพอสมควรที่จะสมมาตรซึ่งไม่เป็นไปตามปกติ

เมื่อตัวอย่างทั้งสองเบี่ยงเบนไปในทิศทางเดียวกันการทดสอบ t-one แบบเทลจะไม่เป็นกลางอีกต่อไป สถิติสถิติเบี่ยงเบนไปทางตรงข้ามกับการแจกแจงและมีอำนาจมากขึ้นถ้าการทดสอบอยู่ในทิศทางเดียวมากกว่าในอีกทิศทางหนึ่ง หากพวกเขาเอียงไปในทิศทางตรงกันข้ามอัตราความผิดพลาดประเภทที่ 1 อาจได้รับผลกระทบอย่างมาก

ความเบ้หนักอาจมีผลกระทบมากขึ้น แต่โดยทั่วไปแล้วการพูดเบ้ปานกลางด้วยการทดสอบสองด้านนั้นไม่ได้เลวร้ายไปกว่านี้หากคุณไม่คำนึงถึงผลการทดสอบของคุณในสาระสำคัญที่จัดสรรพลังให้กับอีกทิศทางหนึ่งมากขึ้น

กล่าวโดยย่อ - การทดสอบสองตัวอย่างสองทางมีความแข็งแกร่งพอสมควรสำหรับสิ่งต่าง ๆ เหล่านั้นถ้าคุณสามารถทนต่อผลกระทบต่อระดับนัยสำคัญและอคติเล็กน้อย

มีหลายวิธีหลายวิธีสำหรับการแจกแจงที่ไม่ธรรมดา แต่ไม่ได้ครอบคลุมความคิดเห็นเหล่านั้น


ฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ที่จะพูดว่ามันมีความทนทานในระดับพลังงานพอสมควร! มันมีความสมเหตุสมผลในระดับที่แข็งแกร่งระดับความสำคัญจะถูกต้องคร่าว ๆ แต่ตัวอย่างการทดสอบวิลคอกซันสามารถมีพลังงานที่สูงกว่ามากสำหรับทางเลือกที่มีเหตุผลใกล้เคียงกับความปกติจะยากต่อการตรวจจับ สิ่งนี้ยังขึ้นอยู่กับปัจจัยต่าง ๆ เช่นหากมีจำนวนการสังเกตที่เท่ากันในแต่ละกลุ่ม: ความทนทานนั้นบอบบางกว่าในกรณีที่ไม่เท่ากัน!
kjetil b halvorsen

1
@kjetilbhalvorsen การศึกษาที่ฉันได้เห็น - รวมถึงการจำลองบางอย่างที่ฉันได้ทำเอง (และฉันไม่ได้มองไปที่ใดในขณะที่คุณอาจได้เห็นสิ่งที่ฉันไม่ได้) ส่วนใหญ่ของผลกระทบต่อพลังงานดูเหมือน ที่จะผลักดันระดับขึ้นและลงส่วนใหญ่ (ซึ่งไม่ส่งผลกระทบต่อ Wilcoxon) เมื่อพิจารณาจากคุณสมบัติด้านพลังงานที่ดีของ Wilcoxon ในสถานการณ์เหล่านี้ (โดยเฉพาะกับหางหนา) นั่นก็เพียงพอแล้วที่จะให้ Wilcoxon ชนะการใช้พลังงาน - ถ้าคุณปรับระดับให้คล้ายกันมันทำให้ฉันประหลาดใจมากแค่ไหน ไม่
Glen_b -Reinstate Monica

7

@PeterFlom ได้กล่าวแล้วว่าการศึกษาสถานการณ์จำลองไม่สามารถครอบคลุมสถานการณ์และความเป็นไปได้ทั้งหมดดังนั้นจึงไม่สามารถนำไปสู่คำตอบที่ชัดเจน อย่างไรก็ตามฉันยังพบว่ามีประโยชน์ในการสำรวจปัญหาเช่นนี้โดยการจำลองสถานการณ์ (เช่นนี้เป็นประเภทของการออกกำลังกายที่ฉันต้องการใช้เมื่อแนะนำแนวคิดของการศึกษาสถานการณ์จำลองมอนติคาร์โลกับนักเรียน) ลองทำสิ่งนี้กัน ฉันจะใช้ R เพื่อสิ่งนี้

รหัส

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

คำอธิบาย

  1. ก่อนอื่นเรากำหนดขนาดกลุ่ม ( n1และn2), กลุ่มที่แท้จริงหมายถึง ( mu1และmu2) และค่าเบี่ยงเบนมาตรฐานที่แท้จริง ( sd1และsd2)

  2. จากนั้นเราจะกำหนดจำนวนการวนซ้ำเพื่อเรียกใช้และตั้งค่าเวกเตอร์เพื่อเก็บค่า p ใน

  3. จากนั้นฉันจำลองข้อมูลภายใต้ 5 สถานการณ์:

    1. การแจกแจงทั้งสองเป็นเรื่องปกติ
    2. การแจกแจงทั้งสองจะเอียงไปทางขวา
    3. การแจกแจงทั้งสองจะเอียงไปทางซ้าย
    4. การแจกแจงครั้งแรกเอียงไปทางซ้าย, ครั้งที่สองไปทางขวา
    5. การแจกแจงครั้งแรกเอียงไปทางขวา, ครั้งที่สองไปทางซ้าย

    โปรดทราบว่าฉันใช้การแจกแจงแบบไคสแควร์เพื่อสร้างการแจกแจงแบบเบ้ ด้วยระดับความอิสระหนึ่งระดับการแจกแจงแบบเบ้อย่างหนัก เนื่องจากค่าเฉลี่ยที่แท้จริงและความแปรปรวนของการแจกแจงแบบไคสแควร์ที่มีระดับความเป็นอิสระเท่ากับ 1 และ 2 ตามลำดับ ( ดูวิกิพีเดีย ) ฉันช่วยขายการแจกแจงเหล่านั้นเป็นครั้งแรกที่มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 ต้องการค่าเฉลี่ยจริงและส่วนเบี่ยงเบนมาตรฐาน (สามารถทำได้ในขั้นตอนเดียว แต่การทำเช่นนี้อาจชัดเจนกว่า)

  4. ในแต่ละกรณีฉันใช้ t-test (เวอร์ชันของ Welch - แน่นอนว่าเราสามารถพิจารณารุ่นของนักเรียนที่ถือว่ามีความแปรปรวนเท่ากันในสองกลุ่ม) และบันทึกค่า p-value ให้กับเวกเตอร์ที่ตั้งค่าไว้ก่อนหน้านี้

  5. ในที่สุดเมื่อการทำซ้ำทั้งหมดเสร็จสมบูรณ์ฉันคำนวณหาเวกเตอร์แต่ละความถี่ว่าค่า p-value เท่ากับหรือต่ำกว่า. 05 (เช่นการทดสอบคือ "นัยสำคัญ") นี่คืออัตราการปฏิเสธเชิงประจักษ์

ผลลัพธ์บางส่วน

  1. จำลองตามที่อธิบายไว้ข้างต้นให้ผล:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    ดังนั้นเมื่อความเบ้ไปในทิศทางเดียวกันในทั้งสองกลุ่มอัตราความผิดพลาด Type I ดูเหมือนจะค่อนข้างใกล้เคียงกับการควบคุมที่ดี (กล่าวคือมันค่อนข้างใกล้กับชื่อ ) เมื่อความเบ้อยู่ในทิศทางตรงกันข้ามจะมีอัตราเงินเฟ้อเล็กน้อยในอัตราความผิดพลาด Type Iα=.05

  2. หากเราเปลี่ยนรหัสเป็นmu1 <- .5เราจะได้รับ:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    ดังนั้นเมื่อเปรียบเทียบกับกรณีที่การแจกแจงทั้งสองเป็นแบบปกติ (ตามที่คาดการณ์จากการทดสอบ) พลังจริง ๆ แล้วดูเหมือนจะสูงขึ้นเล็กน้อยเมื่อความเบ้อยู่ในทิศทางเดียวกัน! หากคุณประหลาดใจกับสิ่งนี้คุณอาจต้องทำการเรียกใช้ซ้ำสองสามครั้ง (แน่นอนว่าแต่ละครั้งจะได้ผลลัพธ์ที่แตกต่างกันเล็กน้อย) แต่รูปแบบจะยังคงอยู่

    โปรดทราบว่าเราจะต้องระมัดระวังในการตีความค่าพลังเชิงประจักษ์ภายใต้สถานการณ์สองสถานการณ์ที่ความเบ้อยู่ในทิศทางตรงกันข้ามเนื่องจากอัตราความผิดพลาดประเภทที่ 1 นั้นไม่ได้ระบุค่อนข้างมาก (เป็นกรณีที่รุนแรงสมมติว่าฉันปฏิเสธเสมอว่าข้อมูลอะไร show; ฉันจะทดสอบด้วยกำลังสูงสุดเสมอ แต่แน่นอนว่าการทดสอบนั้นมีอัตราความผิดพลาด Type I ที่สูงเกินจริงด้วยเช่นกัน)

เราสามารถเริ่มสำรวจค่าที่หลากหลายสำหรับmu1(และmu2- แต่สิ่งที่สำคัญจริงๆคือความแตกต่างระหว่างทั้งสอง) และที่สำคัญกว่านั้นให้เริ่มเปลี่ยนค่าเบี่ยงเบนมาตรฐานที่แท้จริงของทั้งสองกลุ่ม (เช่นsd1และsd2) โดยเฉพาะทำให้ไม่เท่ากัน ฉันยังติดอยู่กับขนาดตัวอย่างที่กล่าวถึงโดย OP แต่แน่นอนว่าสามารถปรับได้เช่นกัน และแน่นอนความเบ้อาจมีรูปแบบอื่น ๆ มากมายกว่าที่เราเห็นในการแจกแจงแบบไคสแควร์ที่มีอิสระในระดับหนึ่ง ฉันยังคงคิดว่าการเข้าใกล้สิ่งต่าง ๆ ในลักษณะนี้มีประโยชน์แม้ว่าจะไม่สามารถให้คำตอบที่แน่นอนได้


2
เนื่องจากเรามีวิธีกึ่งพารามิเตอร์ที่แข็งแกร่งทุกวันนี้เหตุใดการสนทนานี้จึงคุ้มค่า
Frank Harrell

(+1) ฉันคิดว่ามันน่าจะคุ้มค่ารวมถึงกรณีที่ตัวอย่างหนึ่งถูกดึงมาจากประชากรที่มีความเบ้และอีกอันไม่ได้เป็นเช่นนี้เป็นสิ่งที่ OP คิดว่าอาจเกิดขึ้นกับข้อมูลของพวกเขา แต่ก็เป็นเรื่องดีที่ได้เห็นคำตอบพร้อมรหัสชัดเจน (ความเห็นโดยทั่วไปเล็กน้อยจะช่วยให้ผู้อ่านตรวจสอบว่าวิธีการที่มีประสิทธิภาพดีกว่าแบบทดสอบ t-test แบบดั้งเดิมซึ่งเป็นแบบฝึกหัดที่มีประโยชน์หากคุณกำลังพยายามสอนใครบางคนถึงอันตรายของการใช้แบบทดสอบที่มีสมมติฐานถูกละเมิด .. .)
Silverfish

2

ในสถานการณ์ของคุณการทดสอบ t น่าจะมีประสิทธิภาพในแง่ของอัตราความผิดพลาด Type I แต่ไม่ใช่อัตราข้อผิดพลาด Type II คุณอาจจะได้รับพลังมากขึ้นผ่าน a) การทดสอบ Kruskal-Wallis หรือ b) การแปลงสภาพปกติก่อนการทดสอบ t

ฉันได้ข้อสรุปนี้จากการศึกษาของ Monte Carlo สองครั้ง ในครั้งแรก ( Khan & Rayner, 2003 ) ความเบ้และเคิร์ตซีสถูกควบคุมทางอ้อมผ่านพารามิเตอร์ของตระกูลการกระจาย g-and-k และตรวจสอบพลังงานที่เกิดขึ้น ที่สำคัญพลังการทดสอบของ Kruskal - Wallis นั้นได้รับความเสียหายน้อยกว่าเนื่องจากไม่ได้มาตรฐานโดยเฉพาะอย่างยิ่งสำหรับ n> = 15

คำเตือน / คุณสมบัติบางประการเกี่ยวกับการศึกษานี้: พลังมักจะได้รับบาดเจ็บจากอาการคลื่นไส้สูง แต่ได้รับผลกระทบจากความเบ้น้อย ได้อย่างรวดเร็วก่อนรูปแบบนี้อาจมีความเกี่ยวข้องกับสถานการณ์ของคุณน้อยลงเนื่องจากคุณสังเกตว่ามีปัญหากับความเบ้ไม่ใช่ความผิดปกติ อย่างไรก็ตามฉันพนันได้เลยว่าความโด่งเกินในกรณีของคุณ โปรดจำไว้ว่า kurtosis ส่วนเกินจะสูงอย่างน้อยเอียง ^ 2 - 2 (ให้ kurtosis ส่วนเกินเท่ากับช่วงเวลามาตรฐานที่ 4 ลบ 3 ดังนั้น kurtosis ส่วนเกิน = 0 สำหรับการแจกแจงปกติ) โปรดทราบด้วยว่า Khan และ Rayner ( 2003) ตรวจสอบความแปรปรวนร่วมกับ 3 กลุ่ม แต่ผลลัพธ์ของพวกเขามีแนวโน้มที่จะพูดคุยกับ t-test สองตัวอย่าง

การศึกษาที่เกี่ยวข้องครั้งที่สอง ( Beasley, Erikson, & Allison, 2009) ตรวจสอบข้อผิดพลาด Type I และ Type II ด้วยการแจกแจงแบบไม่ปกติต่างๆเช่น Chi-squared (1) และ Weibull (1, .5) สำหรับขนาดตัวอย่างอย่างน้อย 25 การทดสอบ t-test ควบคุมอัตราความผิดพลาด Type I ที่เพียงพอหรือต่ำกว่าระดับอัลฟาเล็กน้อย อย่างไรก็ตามพลังงานมีค่าสูงสุดเมื่อใช้การทดสอบ Kruskal-Wallis หรือใช้การแปลงแบบ Inverse Normal (คะแนน Blom) ที่ใช้ก่อนการทดสอบ t โดยทั่วไป Beasley และเพื่อนร่วมงานแย้งกับวิธีการทำให้เป็นมาตรฐาน แต่ควรสังเกตว่าวิธีการทำให้เป็นมาตรฐานนั้นควบคุมอัตราความผิดพลาด Type I สำหรับ n> = 25 และบางครั้งพลังของมันก็สูงกว่าการทดสอบ Kruskal-Wallis เล็กน้อย นั่นคือวิธีการทำให้เป็นมาตรฐานดูน่าเชื่อถือสำหรับสถานการณ์ของคุณ ดูตารางที่ 1 และ 4 ในบทความเพื่อดูรายละเอียด

อ้างอิง:

ข่าน, a, และเรย์เนอร์, GD (2003) ความทนทานต่อการทดสอบทั่วไปสำหรับปัญหาสถานที่ตั้งหลายตัวอย่าง วารสารคณิตศาสตร์ประยุกต์และวิทยาศาสตร์การตัดสินใจ, 7 , 187-206

บีสลีย์, TM, เอริกเอสและอัลลิสัน, DB (2009) การแปลงผกผันตามลำดับตามตำแหน่งมีการใช้งานมากขึ้น พันธุศาสตร์เชิงพฤติกรรม, 39 , 580-595


(excess) kurtosisskew22เป็นจริงสำหรับประชากร มันจะเป็นจริงสำหรับการประมาณการจากตัวอย่าง?
Silverfish

ดูเหมือนว่าคำถามที่ควรค่าแก่การเป็นของตัวเอง บางทีความกังวลของคุณอาจเป็นเพราะความโด่งเกินนั้นจะทำให้ลำเอียงในกลุ่มตัวอย่างเล็กลง? แน่นอนว่าเป็นกรณีในการศึกษาแบบจำลองด้านบนและ kurtosis ยังทำให้เกิดพลังงานต่ำในการทดสอบทีในสถานการณ์เหล่านั้น คำถามของคุณชี้ไปที่ข้อ จำกัด ทั่วไปของการศึกษามอนติคาร์โลส่วนใหญ่ข้อสรุปมักขึ้นอยู่กับลักษณะของประชากรลักษณะที่นักวิจัยประยุกต์ไม่สามารถสังเกตได้ มันจะมีประโยชน์มากกว่าที่จะสามารถทำนายพลังสัมพัทธ์โดยอิงจากตัวอย่างความเบ้, ความโด่งและอื่น ๆ
แอนโธนี

ฉันได้โพสต์คำถามแยกต่างหากเกี่ยวกับปัญหานี้: stats.stackexchange.com/questions/133247/…
Anthony

0

ก่อนอื่นถ้าคุณสมมติว่าการกระจายตัวของตัวอย่างทั้งสองนั้นแตกต่างกันตรวจสอบให้แน่ใจว่าคุณใช้เวอร์ชันของ t-test ของ Welch ซึ่งถือว่าผลต่างไม่เท่ากันระหว่างกลุ่ม อย่างน้อยที่สุดจะพยายามอธิบายถึงความแตกต่างบางอย่างที่เกิดขึ้นเนื่องจากการกระจาย

ถ้าเราดูสูตรสำหรับการทดสอบ t ของ Welch:

t=X¯1X¯2sX¯1X¯2

โดยที่คือsX¯1X¯2

sX¯1X¯2=s12n1+s22n2

เราสามารถมองเห็นทุกครั้งว่ามีsเรารู้แปรปรวนจะถูกนำเข้าบัญชี ลองจินตนาการว่าความแปรปรวนทั้งสองนั้นเหมือนกัน แต่มีความแปรปรวนนำไปสู่การประมาณค่าความแปรปรวนที่แตกต่างกัน หากการประมาณค่าความแปรปรวนนี้ไม่ได้เป็นตัวแทนของข้อมูลของคุณเพราะความเอียงแล้วผลการให้น้ำหนักจริงจะเป็นสแควร์รูทของอคตินั้นหารด้วยจำนวนจุดข้อมูลที่ใช้ในการคำนวณ ดังนั้นผลกระทบของการประมาณค่าความแปรปรวนที่ไม่ดีจึงอยู่ในระดับสแควร์รูทและค่า n ที่สูงกว่าและนั่นอาจเป็นเหตุผลว่าทำไมฉันทามติก็คือมันยังคงมีการทดสอบที่แข็งแกร่ง

อีกประเด็นหนึ่งของการแจกแจงแบบเบ้นั่นคือการคำนวณค่าเฉลี่ยจะได้รับผลกระทบด้วยและนี่อาจเป็นปัญหาที่แท้จริงของการละเมิดสมมติฐานการทดสอบเนื่องจากค่าเฉลี่ยนั้นค่อนข้างอ่อนไหวต่อความเบ้ และความทนทานของการทดสอบสามารถพิจารณาได้อย่างคร่าวๆโดยการคำนวณความแตกต่างของค่าเฉลี่ยเปรียบเทียบกับความแตกต่างของค่ามัธยฐาน บางทีคุณอาจลองเปลี่ยนความแตกต่างในค่าเฉลี่ยโดยความแตกต่างของค่ามัธยฐานในการทดสอบ t เป็นแบบวัดที่มีประสิทธิภาพมากขึ้น (ฉันแน่ใจว่ามีคนพูดถึงเรื่องนี้ แต่ฉันไม่พบสิ่งใดบน google อย่างรวดเร็ว

ฉันขอแนะนำให้ใช้การทดสอบการเปลี่ยนรูปถ้าสิ่งที่คุณทำคือการทดสอบแบบที การทดสอบการเรียงสับเปลี่ยนเป็นการทดสอบที่แน่นอนโดยไม่ขึ้นอยู่กับสมมติฐานการแจกแจง สิ่งสำคัญที่สุดคือการทดสอบการเปลี่ยนแปลงและ t-test จะนำไปสู่ผลลัพธ์ที่เหมือนกันถ้าสมมติฐานของการทดสอบตัวแปรจะได้พบกับ ดังนั้นการวัดความทนทานที่คุณค้นหาจึงอาจเป็น 1 - ความแตกต่างระหว่างการเปลี่ยนแปลงและค่า p-test ที่คะแนน 1 หมายถึงความสมบูรณ์แบบที่สมบูรณ์และ 0 หมายถึงไม่แข็งแกร่งเลย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.