การทดสอบภาวะปกติที่เหมาะสมสำหรับตัวอย่างขนาดเล็ก


22

จนถึงตอนนี้ฉันใช้สถิติของ Shapiro-Wilk เพื่อทดสอบสมมติฐานปกติในตัวอย่างเล็ก ๆ

คุณช่วยแนะนำเทคนิคอื่นได้ไหม


1
ต่อไปนี้เป็นคำถามสองสามข้อที่น่าสนใจคือ : - การทดสอบแบบปกติ - ไร้ประโยชน์ - เป็นหลัก , สำหรับการอภิปรายเกี่ยวกับคุณค่าของการทดสอบปกติ, และสิ่งที่หากเหลืออยู่ - ปกติ - กระจาย - แต่ - y-is- ไม่สำหรับการสนทนา / การชี้แจงความรู้สึกซึ่งความเป็นปกติเป็นข้อสันนิษฐานของตัวแบบเชิงเส้น
gung - Reinstate Monica

3
The Wilk ใน Shapiro-Wilk หมายถึง Martin B. Wilk มันง่ายเกินไปที่จะเขียน "Wilks" โดยเฉพาะ (ก) ถ้ามีคนพูดหรือเขียนสิ่งนั้นและคุณกำลังคัดลอก (b) คุณรู้เกี่ยวกับงานในสถิติของ Samuel S. Wilks บุคคลอื่นที่แตกต่างกัน (c) สับสนเกี่ยวกับเทอร์มินัล "s" ในภาษาอังกฤษเนื่องจากการใช้งานอื่นสำหรับพหูพจน์ (สถิติ, แมว, สุนัข, ... ) และความเป็นเจ้าของ (s) ซึ่งเป็นเรื่องปกติแม้ในหมู่ผู้ที่มีภาษาอังกฤษเป็นภาษาแรก ฉันได้แก้ไขหัวข้อนี้เท่าที่ฉันสามารถ; ฉันไม่สามารถเข้าถึงความคิดเห็น
Nick Cox

คำตอบ:


24

fBasicsแพคเกจใน R (ส่วนหนึ่งของRmetrics ) รวมถึงการทดสอบภาวะปกติหลายครอบคลุมหลายที่เป็นที่นิยมการทดสอบ frequentist - Kolmogorov-Smirnov ชาปิโร-Wilk, Jarque-Bera และตือศิลปวัตถุ - พร้อมกับเสื้อคลุมสำหรับการทดสอบภาวะปกติได้ ในnortestแพคเกจ - แอนเดอ-ดาร์ลิ่ง, แครมเมอฟอนคะเน Lilliefors (Kolmogorov-Smirnov) เพียร์สันไคสแควร์และชาปิโร-แฟรง เอกสารแพคเกจยังให้การอ้างอิงที่สำคัญทั้งหมด นี่คือตัวอย่างที่แสดงให้เห็นถึงวิธีการใช้การทดสอบจาก nortest

วิธีหนึ่งถ้าคุณมีเวลาคือใช้การทดสอบมากกว่าหนึ่งครั้งและตรวจสอบข้อตกลง การทดสอบแตกต่างกันไปในหลายวิธีดังนั้นจึงไม่ตรงไปตรงมาที่จะเลือก "ดีที่สุด" นักวิจัยคนอื่น ๆ ในสาขาของคุณใช้อะไร สิ่งนี้อาจแตกต่างกันไปและอาจเป็นการดีที่สุดที่จะปฏิบัติตามวิธีการที่ยอมรับเพื่อให้คนอื่นยอมรับงานของคุณ ฉันมักใช้การทดสอบ Jarque-Bera ส่วนหนึ่งด้วยเหตุผลนั้นและ Anderson – Darling เพื่อเปรียบเทียบ

คุณสามารถดูได้ที่"การเปรียบเทียบการทดสอบสำหรับค่านิยมทั่วไปที่ไม่เปลี่ยนแปลง" (Seier 2002) และ"การเปรียบเทียบการทดสอบตามปกติต่างๆ" (Yazici; Yolacan 2007) สำหรับการเปรียบเทียบและการอภิปรายปัญหา

นอกจากนี้ยังเป็นเรื่องเล็กน้อยที่จะทดสอบวิธีการเหล่านี้เพื่อเปรียบเทียบใน R ขอบคุณฟังก์ชันการแจกแจงทั้งหมด นี่คือตัวอย่างง่ายๆที่มีข้อมูลจำลอง (ฉันจะไม่พิมพ์ผลลัพธ์เพื่อประหยัดพื้นที่) แม้ว่าจะต้องมีการแสดงออกอย่างเต็มที่มากขึ้น:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

เมื่อคุณได้ผลลัพธ์จากการทดสอบต่าง ๆ ผ่านการแจกแจงที่แตกต่างกันคุณสามารถเปรียบเทียบการทดสอบที่มีประสิทธิภาพมากที่สุด ตัวอย่างเช่นค่า p สำหรับการทดสอบ Jarque-Bera ด้านบนคืนค่า 0.276 สำหรับการแจกแจงแบบปกติ (ยอมรับ) และ <2.2e-16 สำหรับ cauchy (ปฏิเสธสมมติฐานว่าง)


ขอบคุณเชนคำตอบยอดเยี่ยม! "คนอื่น" จากสาขาของฉันมักใช้ SPSS ดังนั้นพวกเขาจึงใช้ Kolmogorov-Smirnov (ถ้าพวกเขาตรวจสอบความเป็นมาตรฐานเลย) แม้ว่า IMHO การทดสอบของ Lilliefors จะเป็นทางเลือกที่ดีกว่าเมื่อรวบรวมข้อมูลจากตัวอย่าง (เมื่อพารามิเตอร์เป็น ไม่ทราบ) ฉันได้รับการสอนว่าชาปิโร่วิลค์เหมาะสำหรับกลุ่มตัวอย่างขนาดเล็กและต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับ "การทดสอบตามปกติตัวอย่างเล็ก ๆ น้อย ๆ " ... BTW ฉันใช้ภาษาเหนือใน R! =)
aL3xa

12

สำหรับความปกติ Shapiro-Wilk ที่แท้จริงนั้นมีพลังที่ดีในกลุ่มตัวอย่างที่ค่อนข้างเล็ก

คู่แข่งหลักในการศึกษาที่ฉันได้เห็นคือแอนเดอร์สัน - ดาร์ลิ่งทั่วไปมากกว่าซึ่งทำได้ค่อนข้างดี แต่ฉันจะไม่พูดว่ามันดีกว่า หากคุณสามารถอธิบายได้ว่าทางเลือกใดที่คุณสนใจอาจเป็นไปได้ว่าสถิติที่ดีกว่านั้นชัดเจนยิ่งขึ้น [แก้ไข: หากคุณประเมินพารามิเตอร์ควรทำการทดสอบโฆษณาสำหรับสิ่งนั้น]

[ฉันขอแนะนำอย่างยิ่งให้ไม่พิจารณา Jarque-Bera ในกลุ่มตัวอย่างขนาดเล็ก (ซึ่งอาจเป็นที่รู้จักกันดีในนาม Bowman-Shenton ในแวดวงสถิติ - พวกเขาศึกษาการกระจายตัวตัวอย่างขนาดเล็ก) การกระจายข้อต่อเชิงเส้นกำกับของความเบ้และความโด่งเป็นอะไรที่ไม่เหมือนกับการกระจายตัวตัวอย่างขนาดเล็กในลักษณะเดียวกับที่กล้วยมีลักษณะไม่เหมือนส้ม นอกจากนี้ยังมีพลังงานที่ต่ำมากเมื่อเทียบกับทางเลือกที่น่าสนใจอื่น ๆ เช่นมีพลังงานต่ำในการรับการกระจายแบบสมมาตรบิโมดัลที่มีความโด่งใกล้เคียงกับการแจกแจงแบบปกติ]

ผู้คนมักทดสอบความดีที่เหมาะสมว่าอะไรเป็นเหตุผลที่ไม่ดีโดยเฉพาะหรือพวกเขาตอบคำถามอื่นนอกเหนือจากคำถามที่พวกเขาต้องการตอบ

ตัวอย่างเช่นคุณเกือบจะแน่นอนรู้อยู่แล้วว่าข้อมูลของคุณไม่ได้จริงๆปกติ (ไม่ตรง) เพื่อให้มีจุดในการพยายามที่จะตอบคำถามที่คุณรู้คำตอบไปไม่ - และการทดสอบสมมติฐานที่ไม่จริงตอบมันอยู่แล้ว

เมื่อคุณรู้ว่าคุณไม่มีกฎเกณฑ์ที่แน่นอนอยู่แล้วการทดสอบสมมติฐานของคุณเกี่ยวกับกฎเกณฑ์ปกติจะให้คำตอบกับคำถามที่ใกล้กว่า "คือขนาดตัวอย่างของฉันมีขนาดใหญ่พอที่จะรับจำนวนที่ไม่ใช่กฎเกณฑ์ที่ฉันมี" ในขณะที่ คำถามจริงที่คุณสนใจจะตอบมักจะใกล้เคียงกับ "สิ่งที่เกิดขึ้นกับสิ่งอื่น ๆ ที่ฉันสนใจคืออะไร" การทดสอบสมมติฐานเป็นการวัดขนาดตัวอย่างในขณะที่คำถามที่คุณสนใจตอบไม่ขึ้นอยู่กับขนาดตัวอย่างมากนัก

มีบางครั้งที่การทดสอบความเป็นบรรทัดฐานทำให้เกิดความรู้สึกบางอย่าง แต่สถานการณ์เหล่านั้นแทบไม่เคยเกิดขึ้นกับกลุ่มตัวอย่างขนาดเล็ก

ทำไมคุณต้องทดสอบความเป็นปกติ?


ขอบคุณสำหรับคำตอบที่ดีและเป็นคำถามที่ดีหลังจากนั้น จำเป็นอย่างยิ่งที่จะต้องเข้าใจถึงเบื้องหลังของปัญหา หลายครั้งที่ฉันเคยเห็นคนทำแบบทดสอบ t, Pearson's r หรือ ANOVA โดยไม่ได้รับความคิดเกี่ยวกับรูปร่างของการกระจาย (ซึ่งมักจะเบ้อย่างหนัก) - เทคนิคพารามิเตอร์ "ต้องการ" สมมติฐานเชิงบรรทัดฐานที่น่าพอใจ ในด้านจิตวิทยา (ซึ่งเป็นสาขาที่ฉันสนใจ) เรามักจะจัดการกับกลุ่มตัวอย่างเล็ก ๆ ดังนั้นฉันจึงต้องการการทดสอบภาวะปกติ
aL3xa

5
แต่ปกติไม่เคยพอใจ บางครั้งมันเป็นคำอธิบายที่สมเหตุสมผลของข้อมูล แต่จริงๆแล้วมันไม่ได้เป็นปกติในขณะที่มันมีเหตุผลที่จะตรวจสอบความไม่ปกติเมื่อคุณคิดว่ามันไม่มีประโยชน์ที่จะทดสอบ (สำหรับเหตุผลที่ฉันอธิบายไว้ข้างต้น) ฉันทำ qq-plot เช่น แต่การทดสอบสมมติฐานตอบคำถามที่ผิดในสถานการณ์นี้ การทดสอบ t และโนวามักจะทำงานได้ดีพอสมควรถ้าการแจกแจงไม่เบ้อย่างหนัก แนวทางที่ดีกว่าอาจใช้ขั้นตอนที่ไม่ถือว่าเป็นเรื่องปกติ - อาจเป็นเทคนิคการสุ่มตัวอย่างใหม่
Glen_b -Reinstate Monica

หรือคุณสามารถใช้การทดสอบแบบไม่มีพารามิเตอร์ในราคาที่มีพลังงานน้อยกว่า และไม่มีอะไรที่พอใจในสถิติอย่างแน่นอนไม่ใช่เพียงเรื่องปกติ อย่างไรก็ตาม bootstrapping หรือ jackknifing ไม่ใช่วิธีแก้ปัญหาเมื่อแนะนำคนอื่นให้ทดสอบสมมติฐานและ / หรือ ANOVA ฉันสงสัยว่าเทคนิคการสุ่มตัวอย่างแก้ปัญหาเรื่องปกติได้ทั้งหมด หนึ่งควรตรวจสอบปกติทั้งกราฟิก (พล็อตความหนาแน่น, boxplot, QQplot, ฮิสโตแกรม) และ "ตัวเลข" (การทดสอบปกติ, เบ้, kurtosis, ฯลฯ ) คุณแนะนำอะไร? นี่ไม่ใช่หัวข้อที่สมบูรณ์ แต่คุณจะตรวจสอบพูดว่าสมมติฐานเชิงปกติของ ANOVA ได้อย่างไร
aL3xa

@ aL3xa ฉันคิดว่าวิธีการสุ่มตัวอย่างเหมาะสมกว่าสำหรับสาขาการวิจัยของคุณ อย่างไรก็ตามความจริงที่ว่าการทดสอบพาราเมตริกแบบปกตินั้นให้การประมาณที่ดีสำหรับการทดสอบการเปลี่ยนรูปแบบที่แน่นอนการทดสอบที่ไม่ใช่พารามิเตอร์ก็มีข้อสันนิษฐานบางอย่าง (เช่นรูปร่างของการแจกแจง) ฉันยังสงสัยว่าเราจะนิยามว่าอะไรคือความเบี่ยงเบนจากปกติในการศึกษาตัวอย่างขนาดเล็ก ฉันคิดว่าคุณควรถามเพิ่มเติมเกี่ยวกับประเด็นนี้ในคำถามอื่น
chl

10

มีหมวดหมู่ทั้งหมดของWikipedia เกี่ยวกับการทดสอบภาวะปกติได้แก่ :

ฉันคิดว่าโฆษณาน่าจะดีที่สุดสำหรับพวกเขา


1
ฉันเห็นด้วย. ฉันทำการทดสอบโฆษณาอย่างรวดเร็วของการทดสอบ Jarque-Bera และการทดสอบของ Spiegelhalter (1983) ภายใต้ค่า null โดยมีขนาดตัวอย่าง 8 ทำซ้ำ 10,000 ครั้ง การทดสอบ AD รักษาอัตราการปฏิเสธเล็กน้อยและให้ระยะเวลาสม่ำเสมอในขณะที่การทดสอบ JB แย่มาก Spiegelhalter ค่อนข้างมิด
shabbychef

1
@shabbychef การทดสอบ Jarque-Bera อาศัยปกติ asymptotic ของเบ้ตัวอย่างและโด่ง, ซึ่งไม่ได้ทำงานได้ดีแม้สำหรับ n ใน 100s แต่เพื่อให้ได้อัตราการปฏิเสธที่ต้องการคุณสามารถปรับค่าวิกฤตเช่นตามผลการจำลองเช่นในส่วนที่ 4.1 ของ Thadewald, T, และ H. Buning, 2004, การทดสอบ Jarque-Bera และคู่แข่งสำหรับการทดสอบภาวะปกติ - การเปรียบเทียบกำลังไฟ , การสนทนา เศรษฐศาสตร์กระดาษ 2004/9 คณะวิชาธุรกิจและเศรษฐศาสตร์มหาวิทยาลัยอิสระแห่งเบอร์ลิน
Silverfish

3

เพื่อความสมบูรณ์นักเศรษฐศาสตร์ก็ชอบการทดสอบ Kiefer และปลาแซลมอนจากบทความภาควิชาเศรษฐศาสตร์ในจดหมายฉบับปี 2526 ซึ่งเป็นการแสดงออกถึงความเบ้และความโด่งดังของ 'การทำให้เป็นปกติ' ซึ่งเป็นการแจกแจงแบบไคสแควร์ ฉันมี C ++ รุ่นเก่าที่ฉันเขียนระหว่างเรียนจบฉันสามารถแปลเป็น R ได้

แก้ไข:และนี่คือเอกสารล่าสุดโดย Bierens (อีกครั้ง) ที่ได้รับ Jarque-Bera และ Kiefer-Salmon

แก้ไข 2:ฉันดูรหัสเก่าและดูเหมือนว่าเป็นการทดสอบเดียวกันระหว่าง Jarque-Bera และ Kiefer-Salmon


2

ในความเป็นจริงการทดสอบแซลมอน Kiefer และการทดสอบ Jarque Bera จะแตกต่างกันอย่างยิ่งตามที่แสดงในหลายสถานที่ แต่ส่วนใหญ่เมื่อเร็ว ๆ นี้ที่นี่ - การทดสอบช่วงเวลาสำหรับมาตรฐานการแจกแจงข้อผิดพลาด: วิธีการที่มีประสิทธิภาพง่ายโดย Yi-Ting เฉิน การทดสอบ Kiefer Salmon โดยการก่อสร้างนั้นมีความแข็งแกร่งในการเผชิญกับโครงสร้างข้อผิดพลาดประเภท ARCH ซึ่งแตกต่างจากการทดสอบ Jarque Bera มาตรฐาน บทความโดย Yi-Ting Chen พัฒนาและพูดคุยเกี่ยวกับสิ่งที่ฉันคิดว่าน่าจะเป็นการทดสอบที่ดีที่สุดในขณะนี้


4
เฉินดูเหมือนว่าจะมุ่งเน้นไปที่ชุดข้อมูลที่มีขนาดใหญ่ขึ้นซึ่งทำให้เข้าใจได้เพราะช่วงเวลาที่สี่และหกและสูงกว่าที่เกี่ยวข้องในการทดสอบเหล่านี้กำลังจะใช้เวลาสักครู่ในการปรับตัวให้อยู่ในระดับซีมโทติค แต่โดยทั่วไปแล้วการทดสอบแบบกระจายจะใช้สำหรับชุดข้อมูลที่มีขนาดเล็กกว่า 250 ค่า ในความเป็นจริงส่วนใหญ่ของพวกเขาจะมีประสิทธิภาพด้วยข้อมูลจำนวนมากที่พวกเขามีน้อยกว่าความคิดในแอปพลิเคชันดังกล่าวเล็กน้อย หรือจะเกิดขึ้นที่นี่มากกว่าที่ฉันเห็น?
whuber

0

สำหรับขนาดตัวอย่าง<30วัตถุ Shapiro-Wilk ได้รับการพิจารณาว่ามีพลังที่แข็งแกร่ง - โปรดระวังเมื่อทำการปรับระดับความสำคัญของการทดสอบเนื่องจากอาจทำให้เกิดข้อผิดพลาดประเภท II! [1]


ในตัวอย่างขนาดเล็กความดีของการทดสอบแบบพอดีมักไม่สามารถปฏิเสธ normaility ได้
Michael R. Chernick

@MichaelChernick เกิดอะไรขึ้นในกรณีที่เฉพาะเจาะจงแล้ว? อะไรคือเหตุผลที่ทำให้เด็กตัวเล็ก ๆ ที่ถูก "จัด" เป็นคนธรรมดา
Aliakbar Ahmadi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.