มันมีความหมายหรือไม่ที่จะทดสอบความเป็นมาตรฐานด้วยขนาดตัวอย่างที่เล็กมาก (เช่น n = 6)?


26

ฉันมีขนาดตัวอย่างเป็น 6 ในกรณีเช่นนี้มันสมเหตุสมผลไหมที่จะทดสอบความเป็นมาตรฐานโดยใช้การทดสอบ Kolmogorov-Smirnov ฉันใช้ SPSS ฉันมีขนาดตัวอย่างเล็กมากเพราะต้องใช้เวลาพอสมควร ถ้ามันไม่สมเหตุสมผลจำนวนตัวอย่างที่น้อยที่สุดที่สมเหตุสมผลในการทดสอบคือเท่าใด

หมายเหตุ: ฉันได้ทำการทดสอบบางอย่างที่เกี่ยวข้องกับซอร์สโค้ด ตัวอย่างคือเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชัน (เวอร์ชัน A) ที่ จริงแล้วฉันมีขนาดตัวอย่างอีก 6 ตัวซึ่งเป็นเวลาที่ใช้ในการเข้ารหัสในซอฟต์แวร์เวอร์ชันอื่น(เวอร์ชัน B)

ฉันต้องการทำการทดสอบสมมติฐานโดยใช้หนึ่งตัวอย่าง t-testเพื่อทดสอบว่าเวลาที่ใช้ในรหัสรุ่น A นั้นแตกต่างจากเวลาที่ใช้ในรหัสรุ่น B หรือไม่ (นี่คือ H1 ของฉัน) เงื่อนไขเบื้องต้นของ t-test หนึ่งตัวอย่างคือข้อมูลที่จะทดสอบต้องมีการแจกแจงแบบปกติ นั่นคือเหตุผลที่ฉันต้องทดสอบความเป็นปกติ


6
สำหรับฉันคนหนึ่งมีปัญหาในการจินตนาการบริบทที่ n = 6 และความปกติจะเป็นการทดสอบสมมติฐานที่คุ้มค่า ฉันกลัวว่านี่เป็นกรณีของผู้ใช้ที่ไม่มีประสบการณ์ที่ทำการทดสอบสมมติฐานหลายตัว (รันการถดถอยจากนั้นทดสอบหาค่าปกติของเศษเหลือ) และเรากำลังจัดการกับอาการ แต่ไม่สนใจโครงกระดูกในตู้เสื้อผ้าเพื่อพูด
user603

3
@user มันไม่ยุติธรรมที่จะคาดเดาเกี่ยวกับผู้ถาม เรามาตอบคำถามกันไหม ดังนั้นสมมติว่าคุณวางแผนที่จะคำนวณขีด จำกัด การคาดคะเนระดับสูงสำหรับค่าที่จะใช้ในการตัดสินใจค่าใช้จ่ายสูง มูลค่าของ PL จะมีความอ่อนไหวต่อสมมติฐานปกติ คุณค่อนข้างมั่นใจว่ากระบวนการสร้างข้อมูลไม่ปกติ แต่ข้อมูลมีราคาแพงและใช้เวลานานในการสร้าง การทดลองก่อนหน้านี้แนะนำให้จะมีพลังเพียงพอที่จะปฏิเสธความเป็นปกติ (ฉันเพิ่งอธิบายกรอบมาตรฐานสำหรับโปรแกรมตรวจสอบน้ำใต้ดินในสหรัฐอเมริกา)n=6
whuber

3
User603 (ความคิดเห็นแรกของคุณ): ฉันอยากจะชี้ให้เห็นว่า @Joris ยังไม่ได้ให้คำตอบและความคิดเห็นของเขาก็มาพร้อมกับเหตุผลใด ๆ หากมีการเน้นย้ำว่า "ไม่" เป็นคำตอบทั่วไปที่ถูกต้องสำหรับคำถามนี้เราจะเห็นว่ามันถูกเขียนลงไปเช่นนี้พร้อมกับการสนับสนุนเพื่อให้ชุมชนสามารถประเมินขึ้นและลงได้
whuber

2
@whuber: ฉันได้เพิ่มการโต้แย้งสำหรับการเน้น "ไม่"
Joris Meys

1
@Joris ขอบคุณ! ที่เป็นประโยชน์และให้แสงสว่าง
whuber

คำตอบ:


38

ใช่.

การทดสอบสมมติฐานทั้งหมดมีคุณสมบัติเด่นสองประการได้แก่ขนาด (หรือ "ระดับนัยสำคัญ") จำนวนหนึ่งที่เกี่ยวข้องโดยตรงกับความเชื่อมั่นและอัตราการบวกเท็จที่คาดหวังและพลังของพวกเขาซึ่งแสดงถึงโอกาสเชิงลบที่ผิดพลาด เมื่อขนาดตัวอย่างเล็กและคุณยังคงยืนยันในขนาดเล็ก (ความมั่นใจสูง) พลังจะแย่ลง ซึ่งหมายความว่าการทดสอบตัวอย่างขนาดเล็กมักจะไม่สามารถตรวจพบความแตกต่างเล็กน้อยหรือปานกลาง แต่พวกเขายังคงมีความหมาย

การทดสอบ KS ประเมินว่าตัวอย่างนั้นมาจากการแจกแจงแบบปกติหรือไม่ ตัวอย่างของค่าหกค่าจะต้องดูไม่ธรรมดาอย่างแน่นอนเพื่อล้มเหลวในการทดสอบนี้ แต่ถ้าเป็นเช่นนั้นคุณสามารถตีความการปฏิเสธค่าว่างนี้ได้เหมือนที่คุณตีความด้วยขนาดตัวอย่างที่สูงขึ้น ในทางกลับกันหากการทดสอบล้มเหลวในการปฏิเสธสมมติฐานว่างที่บอกคุณเพียงเล็กน้อยเนื่องจากอัตราการลบสูงผิด โดยเฉพาะอย่างยิ่งมันค่อนข้างเสี่ยงที่จะทำหน้าที่เสมือนการกระจายตัวเป็นปกติ

อีกสิ่งหนึ่งที่ต้องระวังคือซอฟต์แวร์บางตัวใช้การประมาณค่าเพื่อคำนวณค่า p จากสถิติทดสอบ บ่อยครั้งที่การประมาณเหล่านี้ทำงานได้ดีสำหรับตัวอย่างขนาดใหญ่ แต่ทำงานได้ไม่ดีสำหรับขนาดตัวอย่างที่เล็กมาก ในกรณีนี้คุณไม่สามารถเชื่อถือได้ว่าค่า p ได้รับการคำนวณอย่างถูกต้องซึ่งหมายความว่าคุณไม่สามารถแน่ใจได้ว่าขนาดการทดสอบที่ต้องการได้รับการบรรลุแล้ว โปรดดูเอกสารประกอบซอฟต์แวร์ของคุณ

คำแนะนำ:การทดสอบ KS นั้นมีประสิทธิภาพน้อยกว่าในการทดสอบความเป็นมาตรฐานมากกว่าการทดสอบอื่น ๆ ที่สร้างขึ้นเพื่อจุดประสงค์นี้โดยเฉพาะ ที่ดีที่สุดของพวกเขาน่าจะเป็นShapiro-Wilkทดสอบ แต่คนอื่น ๆ ที่ใช้กันทั่วไปและเกือบจะเป็นที่มีประสิทธิภาพเป็นชาปิโร-แฟรงและแอนเดอ-ดาร์ลิ่ง

พล็อตนี้แสดงการกระจายตัวของสถิติทดสอบ Kolmogorov-Smirnov ในตัวอย่าง 10,000 ตัวอย่างจากหกรูปแบบการแจกแจงแบบปกติ:

ฮิสโตแกรมของสถิติแคนซัส

จากตัวอย่างเพิ่มเติม 100,000 ตัวอย่างเปอร์เซนต์ไทล์ 95 บน (ซึ่งประมาณค่าวิกฤตสำหรับสถิตินี้สำหรับการทดสอบขนาด ) คือ 0.520 ตัวอย่างของตัวอย่างที่ผ่านการทดสอบนี้คือชุดข้อมูลα=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

สถิติการทดสอบคือ 0.5 (ซึ่งน้อยกว่าค่าวิกฤต) ตัวอย่างดังกล่าวจะถูกปฏิเสธโดยใช้การทดสอบปกติอื่น ๆ


10
ฉันคิดว่าการกระจายตัวใด ๆ ที่ให้ sig ผลลัพธ์ที่ได้ด้วย N = 6 จะไม่ปกติที่จะผ่าน IOTT ด้วยสีที่บิน - นั่นคือการทดสอบการบาดเจ็บระหว่างตา มันกระทบคุณระหว่างดวงตา
Peter Flom - Reinstate Monica

2
@Peter หากคุณต้องการใช้ความคิดเห็นนี้ใหม่ก็จะถูกต้อง หลังจากที่ทุกคนหลายตัวอย่างจากการกระจายปกติจะมีลักษณะปกติอย่างสมบูรณ์เพื่อให้เห็นได้อย่างชัดเจน "ใด ๆ" แรงเกินไปปริมาณ สิ่งที่คุณหมายถึงคือมีโอกาสดีที่ตัวอย่างแบบสุ่มที่มีจะไม่ชัดเจนเมื่อทำการพล็อตด้วยวิธีที่สมเหตุสมผล ( เช่นพล็อตความน่าจะเป็น) แต่จะไม่ถูกปฏิเสธโดยการทดสอบนี้ N = 6N=6N=6
whuber

เพื่อความสนุกฉันลอง set.seed (3833782) x <- runif (6) ks.test (x, pnorm) นี่สำคัญมากที่ p = .04 ดังนั้นมันสามารถเกิดขึ้นได้
Peter Flom - Reinstate Monica

4
@ ปีเตอร์ที่ดี! การทดสอบ KS สำหรับภาวะปกติได้ปฏิเสธตัวอย่างที่สม่ำเสมอ นั่นคือสิ่งที่เราหวังไว้
whuber

3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)p-value = 0.0003255ผลิต แน่นอนผมต้องลองกับ 140 เมล็ดก่อนที่จะพบนี้ ...
Spacedman

20

ในฐานะที่ @whuber ถามในความคิดเห็นการตรวจสอบสำหรับเด็ดขาดของฉันไม่มี แก้ไข: ด้วยการทดสอบ shapiro เนื่องจากการทดสอบ ks หนึ่งตัวอย่างถูกนำไปใช้อย่างผิด ๆ Whuber ถูกต้อง: สำหรับการใช้การทดสอบ Kolmogorov-Smirnov อย่างถูกต้องคุณต้องระบุพารามิเตอร์การกระจายและไม่แยกข้อมูลออกจากข้อมูล อย่างไรก็ตามนี่คือสิ่งที่ทำในแพ็คเกจทางสถิติเช่น SPSS สำหรับการทดสอบ KS-one ตัวอย่าง

คุณพยายามพูดบางอย่างเกี่ยวกับการกระจายและคุณต้องการตรวจสอบว่าคุณสามารถใช้การทดสอบ t ดังนั้นการทดสอบนี้ทำขึ้นเพื่อยืนยันว่าข้อมูลไม่ได้ออกจากภาวะปกติอย่างมีนัยสำคัญเพียงพอที่จะทำให้สมมติฐานพื้นฐานของการวิเคราะห์ไม่ถูกต้อง ดังนั้นคุณไม่สนใจข้อผิดพลาดประเภท I แต่อยู่ในข้อผิดพลาด type II

ตอนนี้ต้องกำหนด "แตกต่างกันอย่างมีนัยสำคัญ" เพื่อให้สามารถคำนวณขั้นต่ำ n สำหรับพลังงานที่ยอมรับได้ (พูด 0.8) ด้วยการแจกแจงนั่นไม่ใช่เรื่องง่ายที่จะนิยาม ดังนั้นฉันไม่ได้ตอบคำถามเพราะฉันไม่สามารถให้คำตอบที่สมเหตุสมผลได้นอกจากกฏของหัวแม่มือที่ฉันใช้: n> 15 และ n <50 ขึ้นอยู่กับอะไร โดยทั่วไปแล้วความรู้สึกนั้นไม่สามารถป้องกันตัวเลือกนั้นนอกเหนือจากประสบการณ์

แต่ฉันรู้ว่ามีเพียง 6 ค่าประเภท II ข้อผิดพลาดของคุณถูกผูกไว้เกือบ 1 ทำให้พลังงานของคุณใกล้กับ 0 ด้วยการสังเกต 6 การทดสอบ Shapiro ไม่สามารถแยกความแตกต่างระหว่างการกระจายปกติปัวซองเครื่องแบบหรือแม้กระทั่งการชี้แจง ด้วยข้อผิดพลาดประเภท II เกือบ 1 ผลการทดสอบของคุณจะไม่มีความหมาย

เพื่อแสดงให้เห็นถึงการทดสอบเชิงบรรทัดฐานด้วยการทดสอบ shapiro:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

เฉพาะที่ประมาณครึ่งหนึ่งของค่าน้อยกว่า 0.05 เป็นค่าสุดท้าย ซึ่งเป็นกรณีที่รุนแรงที่สุด


หากคุณต้องการทราบว่า n ขั้นต่ำที่ให้พลังที่คุณชอบด้วยการทดสอบชาปิโรคืออะไรคุณสามารถจำลองสถานการณ์เช่นนี้ได้:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

ซึ่งให้การวิเคราะห์พลังงานแบบนี้:

ป้อนคำอธิบายรูปภาพที่นี่

จากการที่ฉันสรุปว่าคุณต้องมีค่าต่ำสุดประมาณ 20 ค่าเพื่อแยกความแตกต่างจากการแจกแจงแบบปกติใน 80% ของคดี

พล็อตรหัส:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)

2
@whuber: เกี่ยวกับตรรกะของการทดสอบสมมติฐานบนหัวของมัน: ในกรณีใดที่คุณสนใจในสมมติฐานทางเลือก? ในทุกแอปพลิเคชันของการทดสอบเหล่านี้ที่ฉันเคยเห็นผู้คนสนใจในการยืนยันโมฆะ: ข้อมูลของฉันไม่แตกต่างจากการแจกแจงแบบปกติ นี่คือเหตุผลที่ฉันเน้นย้ำข้อผิดพลาดประเภทที่สอง
Joris Meys

4
ดูความคิดเห็นของฉันต่อ OP เกี่ยวกับการตรวจสอบน้ำใต้ดิน โดยทั่วไปแล้วคนมีความสนใจในการปฏิเสธสมมติฐานเริ่มต้นหนึ่งหรือทั้งสองอย่าง: ปกติและ lognormality เนื่องจากสิ่งนี้ทำภายใต้การควบคุมดูแลอย่างเข้มงวดการมองความน่าจะเป็น (ซึ่งเป็นเครื่องมือที่ทรงพลังสำหรับผู้ปฏิบัติงาน IOTT ที่มีประสบการณ์อย่าง @Peter Flom) ไม่เพียงพอ: ไม่จำเป็นต้องทำการทดสอบอย่างเป็นทางการ การประยุกต์ใช้ที่คล้ายกันเกิดขึ้นในการประเมินความเสี่ยงต่อสุขภาพของมนุษย์ US EPA เอกสารคำแนะนำเฉพาะ Contemplate ทดสอบกับต่ำเป็น5ดูepa.gov/oswer/riskassessment/pdf/ucl.pdf , เช่น 5n5
whuber

4
หากต้องการกลับไปที่ชื่อ: การทดสอบความปกติด้วยขนาดตัวอย่างเล็ก ๆ มีความหมายหรือไม่ ในบางกรณีมันเป็นโดยเฉพาะอย่างยิ่งเมื่อทดสอบกับทางเลือกที่เบ้อย่างยิ่ง (SW มีพลังงาน 80% ที่เทียบกับทางเลือก LN (1,2), เช่น) พลังงานต่ำกับทางเลือกอื่น ๆ เมื่อมีขนาดเล็กเป็นสิ่งที่การทดสอบปกติจะใช้ร่วมกันในระดับหนึ่งหรืออื่นด้วยการทดสอบสมมติฐานใด ๆ ที่ไม่ได้ห้ามการใช้งาน ดังนั้นจึงไม่มีเงื่อนไข "ไม่" คือที่จะนำมันอย่างอ่อนโยนไม่เป็นธรรมกับการทดสอบ โดยทั่วไปแล้วเราไม่ควรใช้การทดสอบสมมติฐานกับตัวอย่างที่ "เล็ก" เลย ฟังดูเกินไป Draconian nn=8n
whuber

3
@whuber: เราจะต้องยอมรับที่จะแตกต่างกัน ฉันไม่ได้เป็นแฟนของแนวทางของ EPA (และไม่ใช่ของ FDA) ฉันเคยเห็นสิ่งนี้ถูกทำร้ายบ่อยครั้งเกินไปที่จะเชื่อในประโยชน์ของมัน โอกาสเป็นสิ่งที่แปลกและมีเพียง 6 รายที่คาดเดาไม่ได้อย่างมาก ฉันไม่เชื่อว่าคุณสามารถพูดอะไรเกี่ยวกับฟังก์ชันที่ซับซ้อนอย่าง PDF ได้จากการสังเกตเพียง 6 ข้อ YMMV
Joris Meys

5
@ImAlso เสื้อทดสอบสามารถทนมากที่ไม่ปกติถ้ามันค่อนข้างสมมาตร แต่ก็ไม่สามารถทนต่อความไม่สมดุลมากเกินไป (อันที่จริงการทดสอบความเบ้สำหรับค่านิยมจริงอาจเป็นตัวเลือกที่ดีกว่าในการทดสอบแบบ OP ด้วยเหตุผลนี้) จุดนี้ชี้ให้เห็นถึงความแตกต่างที่ยิ่งใหญ่ที่สุดข้อหนึ่งระหว่างการทดสอบแบบพอดีและแบบทดสอบสมมติฐานอื่น ๆ : พื้นที่ของทางเลือกที่เป็นไปได้และการทดสอบ GoF มีแนวโน้มที่จะดีกับบางคน แต่ไม่ใช่กับคนอื่น คุณไม่สามารถทำให้มันทำงานได้ดีกับทางเลือกทั้งหมด
whuber

-2

คำถามที่ถูกวางไว้ที่นี่มีความเข้าใจผิดว่าทำไมต้องทำการตรวจสอบ Normality สำหรับขนาดตัวอย่างที่ 6 นี่คือวัตถุประสงค์หลักคือ "เพื่อทดสอบว่าเวลาที่ใช้ในรุ่นรหัส A แตกต่างจากเวลาที่ใช้ในรหัสรุ่น B หรือไม่ ( นี่คือ H1 ของฉัน)” เมื่อใช้คำว่า "แตกต่าง" จะเป็นการทดสอบแบบหางเดียวหรือไม่? อย่างไรก็ตามการทดสอบ Normality เป็นขั้นตอนที่สอง ขั้นตอนแรกคือการตรวจสอบความเพียงพอของพลังงานที่กำหนดไว้ล่วงหน้า (1-β) ของการทดสอบสำหรับขนาดตัวอย่างที่กำหนดเมื่อพลังงานไม่ดีมากแล้วการทดสอบสภาพปกติจะใช้อะไร? การตรวจสภาพปกติจะช่วยเราในการตัดสินใจว่าจะไปทดสอบแบบพาราเมตริกหรือแบบไม่อิงพารามิเตอร์? หากขนาดตัวอย่างของคุณไม่มีพลังงานเพียงพอทำไมเราจึงควรคิดถึงการทดสอบเรื่อง Normality?


(-1) สิ่งนี้ไม่ชัดเจน โปรดอ่านหน้านี้เกี่ยวกับวิธีการตอบคำถาม: stats.stackexchange.com/help/how-to-answer
mkt - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.