การทดสอบตามปกติคือ 'ไร้ประโยชน์เป็นหลัก' หรือไม่?


298

อดีตเพื่อนร่วมงานเคยโต้เถียงกับฉันดังนี้:

เรามักจะใช้การทดสอบเชิงบรรทัดฐานกับผลลัพธ์ของกระบวนการที่ภายใต้ค่า null จะสร้างตัวแปรสุ่มที่เป็น แบบอะซีพโทติกหรือใกล้เคียงปกติ ในยุคของหน่วยความจำราคาถูก, ข้อมูลขนาดใหญ่และการประมวลผลได้อย่างรวดเร็วการทดสอบภาวะปกติควร เสมอปฏิเสธ null ของการกระจายปกติสำหรับขนาดใหญ่ ( แต่ไม่ใหญ่เมามัน) ตัวอย่าง ดังนั้นจึงควรใช้การทดสอบเชิงบรรทัดฐานในทางที่ผิดสำหรับตัวอย่างเล็ก ๆ น้อย ๆ เท่านั้นเมื่อพวกมันมีพลังงานต่ำและควบคุมอัตราการพิมพ์ที่น้อยลง

นี่เป็นอาร์กิวเมนต์ที่ถูกต้องหรือไม่? นี่เป็นข้อโต้แย้งที่รู้จักกันดีหรือไม่? มีการทดสอบที่รู้จักกันดีสำหรับสมมติฐานว่าง 'fuzzier' มากกว่าปกติหรือไม่?


23
สำหรับการอ้างอิง: ฉันไม่คิดว่านี่จะต้องเป็นวิกิชุมชน
เชน

2
ฉันไม่แน่ใจว่ามี 'คำตอบที่ถูกต้อง' ...
shabbychef

5
ในแง่หนึ่งนี่เป็นความจริงของการทดสอบพารามิเตอร์จำนวน จำกัด ทั้งหมด ด้วยค่าคงที่ (จำนวนพารามิเตอร์ที่ใช้ในการทดสอบ) และปลูกสร้างโดยไม่มีขอบเขตความแตกต่างระหว่างสองกลุ่ม (ไม่ว่าจะเล็กเพียงใด) จะทำลายค่า null ในบางจุดเสมอ อันที่จริงนี่เป็นข้อโต้แย้งในความโปรดปรานของการทดสอบแบบเบย์ nkn
user603

2
สำหรับฉันมันไม่ได้เป็นข้อโต้แย้งที่ถูกต้อง อย่างไรก็ตามก่อนที่จะให้คำตอบใด ๆ คุณจำเป็นต้องทำสิ่งต่าง ๆ ให้เป็นระเบียบเล็กน้อย คุณอาจจะผิดและคุณอาจจะไม่ แต่ตอนนี้สิ่งที่คุณไม่มีอะไรมากกว่าปรีชา: สำหรับฉันประโยค "ในยุคของหน่วยความจำราคาถูกข้อมูลขนาดใหญ่และตัวประมวลผลที่รวดเร็วการทดสอบปกติควรปฏิเสธโมฆะปกติ" ต้องการคำชี้แจง :) ฉันคิดว่าถ้าคุณลองให้ความแม่นยำที่เป็นทางการมากขึ้นคำตอบนั้นจะง่าย
robin girard

8
หัวข้อที่ "ชุดข้อมูลขนาดใหญ่ไม่เหมาะสมสำหรับการทดสอบสมมติฐาน" กล่าวถึงลักษณะทั่วไปของคำถามนี้ ( stats.stackexchange.com/questions/2516/… )
whuber

คำตอบ:


229

มันไม่ได้เป็นข้อโต้แย้ง มันเป็นความจริง (ที่ระบุไว้เล็กน้อย) ว่าการทดสอบภาวะปกติอย่างเป็นทางการมักจะปฏิเสธในตัวอย่างขนาดใหญ่ที่เราทำงานด้วยในวันนี้ มันง่ายมากที่จะพิสูจน์ว่าเมื่อ n มีขนาดใหญ่แม้แต่การเบี่ยงเบนที่เล็กที่สุดจากภาวะปกติที่สมบูรณ์แบบจะนำไปสู่ผลลัพธ์ที่สำคัญ และเนื่องจากชุดข้อมูลทุกชุดมีระดับความสุ่มไม่มีชุดข้อมูลเดียวจะเป็นตัวอย่างที่กระจายแบบปกติอย่างสมบูรณ์แบบ แต่ในสถิติที่ใช้คำถามไม่ได้ว่าข้อมูล / ส่วนที่เหลือ ... เป็นปกติอย่างสมบูรณ์ แต่ปกติพอสำหรับสมมติฐานที่จะถือ

ขอยกตัวอย่างที่มีการทดสอบ Shapiro-Wilk โค้ดด้านล่างนี้สร้างชุดการแจกแจงที่เข้าใกล้ความปกติ แต่ไม่ปกติอย่างสมบูรณ์ ต่อไปเราจะทดสอบshapiro.testว่าตัวอย่างจากการแจกแจงแบบเกือบปกติเหล่านี้เบี่ยงเบนจากค่าปกติหรือไม่ ใน R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

บรรทัดสุดท้ายตรวจสอบว่าส่วนใดของแบบจำลองสำหรับทุกขนาดตัวอย่างเบี่ยงเบนอย่างมีนัยสำคัญจากปกติ ดังนั้นใน 87% ของกรณีตัวอย่างของการสังเกต 5,000 ครั้งเบี่ยงเบนไปจากความเป็นมาตรฐานตาม Shapiro-Wilks แต่ถ้าคุณเห็นแปลง qq คุณจะไม่มีทางตัดสินใจว่าจะเบี่ยงเบนไปจากความปกติ ด้านล่างคุณจะเห็นตัวอย่างของ qq-plots สำหรับตัวอย่างสุ่มหนึ่งชุด

ข้อความแสดงแทน

ด้วยค่า p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
ในหมายเหตุด้านทฤษฎีบทขีด จำกัด กลางทำให้การตรวจสอบความเป็นทางการแบบปกติไม่จำเป็นในหลายกรณีเมื่อ n มีขนาดใหญ่
Joris Meys

31
ใช่คำถามจริงไม่ใช่ว่าข้อมูลถูกกระจายตามปกติหรือไม่ แต่เป็นเรื่องปกติที่เพียงพอสำหรับสมมติฐานพื้นฐานของภาวะปกติที่จะมีเหตุผลสำหรับการใช้งานจริงของการวิเคราะห์และฉันจะคิดว่าอาร์กิวเมนต์ตาม CLT นั้นเป็นปกติ [sic] เพียงพอสำหรับการที่
Dikran Marsupial

53
คำตอบนี้ดูเหมือนจะไม่ตอบคำถาม:มันเพียงแสดงให้เห็นว่าการทดสอบ SW ไม่บรรลุระดับความเชื่อมั่นที่กำหนดและดังนั้นจึงระบุข้อบกพร่องในการทดสอบนั้น (หรืออย่างน้อยก็ในการRดำเนินการของมัน) แต่นั่นคือทั้งหมด - มันไม่ได้มีขอบเขตของประโยชน์ของการทดสอบปกติ การยืนยันเริ่มต้นว่าการทดสอบภาวะปกติมักปฏิเสธขนาดตัวอย่างขนาดใหญ่นั้นไม่ถูกต้อง
whuber

19
@whuber คำตอบนี้ตอบคำถาม ประเด็นทั้งหมดของคำถามคือ "ใกล้" ใน "ใกล้ - ปกติ" SW ทดสอบโอกาสที่ตัวอย่างจะถูกดึงจากการแจกแจงแบบปกติ เนื่องจากการแจกแจงที่ฉันสร้างขึ้นนั้นไม่ได้ตั้งใจคุณคาดหวังว่าการทดสอบ SW จะทำในสิ่งที่สัญญาไว้: ปฏิเสธ null ประเด็นทั้งหมดคือการปฏิเสธนี้ไม่มีความหมายในกลุ่มตัวอย่างขนาดใหญ่เนื่องจากการเบี่ยงเบนจากภาวะปกติไม่ส่งผลให้สูญเสียพลังงานที่นั่น ดังนั้นการทดสอบนั้นถูกต้อง แต่ไม่มีความหมายดังที่ QQplots แสดง
Joris

11
ฉันวางใจในสิ่งที่คุณเขียนและเข้าใจผิดว่าคุณหมายถึงอะไรโดยการกระจาย "เกือบปกติ" ตอนนี้ฉันเห็น - แต่เพียงโดยการอ่านรหัสและระมัดระวังการทดสอบนั้น - ที่คุณกำลังเลียนแบบจากสามแจกแจงปกติมาตรฐานด้วยวิธีการที่และและการรวมผลในอัตราส่วน คุณจะไม่หวังหรือไม่ว่าการทดสอบตามปกติของ Normality ที่ดีจะปฏิเสธ null ในกรณีนี้หรือไม่? สิ่งที่คุณแสดงให้เห็นได้อย่างมีประสิทธิภาพคือแผนการ QQ นั้นไม่ค่อยดีในการตรวจจับสารผสมดังกล่าวนั่นคือทั้งหมด! 0, 1,22:2:1
whuber

172

เมื่อคิดถึงว่าการทดสอบภาวะปกตินั้นไม่มีประโยชน์หรือไม่สิ่งแรกคือต้องคิดว่ามันควรจะมีประโยชน์หรือไม่ หลายคน (ดี ... อย่างน้อยนักวิทยาศาสตร์หลายคน) เข้าใจผิดคำถามที่คำตอบการทดสอบปกติ

คำถามทดสอบคำตอบทั่วไป: มีหลักฐานที่น่าเชื่อถือเกี่ยวกับการเบี่ยงเบนใด ๆ จากอุดมคติของเกาส์เซียนหรือไม่? ด้วยชุดข้อมูลจริงขนาดใหญ่พอสมควรคำตอบคือใช่เกือบทุกครั้ง

คำถามที่นักวิทยาศาสตร์มักคาดหวังว่าการทดสอบปกติจะตอบคำถาม: ข้อมูลเบี่ยงเบนจากอุดมคติของเกาส์เซียนในการใช้แบบ "ห้าม" ของการทดสอบที่ถือว่าการกระจายแบบเกาส์หรือไม่? นักวิทยาศาสตร์มักต้องการให้การทดสอบแบบปกติเป็นผู้ตัดสินว่าจะยกเลิกการทดสอบแบบเดิม (ANOVA และอื่น ๆ ) และวิเคราะห์การแปลงข้อมูลหรือใช้การทดสอบแบบไม่อิงพารามิเตอร์หรือการทดสอบซ้ำหรือวิธีบูตสแตรปแทน สำหรับจุดประสงค์นี้การทดสอบภาวะปกติไม่ได้มีประโยชน์มาก


16
+1 สำหรับคำตอบที่ดีและให้ข้อมูล ฉันพบว่ามีประโยชน์ที่จะเห็นคำอธิบายที่ดีสำหรับความเข้าใจผิดที่พบบ่อย (ซึ่งฉันบังเอิญประสบกับตัวเอง: stats.stackexchange.com/questions/7022/ ...... ) สิ่งที่ฉันคิดถึงคือทางเลือกอื่นสำหรับความเข้าใจผิดที่พบบ่อยนี้ ฉันหมายถึงถ้าการทดสอบภาวะปกติเป็นวิธีที่ผิดไปใครจะไปตรวจสอบว่าการประมาณปกติเป็นที่ยอมรับ / ธรรม?
posdef

6
ไม่มีสิ่งใดทดแทนความรู้สึก (ทั่วไป) ของนักวิเคราะห์ (หรือผู้วิจัย / นักวิทยาศาสตร์) และประสบการณ์ (เรียนรู้จากการลองและดู: ฉันจะได้ข้อสรุปอะไรถ้าฉันคิดว่ามันเป็นเรื่องปกติอะไรคือความแตกต่างถ้าไม่?) กราฟิกเป็นเพื่อนที่ดีที่สุดของคุณ
FairMiles

2
ฉันชอบบทความนี้ซึ่งทำให้ประเด็นที่คุณทำ: Micceri, T. (1989) ยูนิคอร์นโค้งปกติและสิ่งมีชีวิตอื่น ๆ ที่ไม่น่าจะเป็นไปได้ กระดานข่าวทางจิตวิทยา, 105 (1), 156-166
Jeremy Miles

4
ดูกราฟิกดี แต่ถ้ามีจำนวนมากเกินไปที่จะตรวจสอบด้วยตนเอง? เราสามารถกำหนดกระบวนการทางสถิติที่สมเหตุสมผลเพื่อชี้ให้เห็นจุดที่เป็นปัญหา ฉันคิดว่าสถานการณ์เช่นขัดเคือง / B ที่ขนาดใหญ่: exp-platform.com/Pages/...
dfrankow

118

ฉันคิดว่าการทดสอบเกณฑ์ปกติอาจมีประโยชน์ในฐานะเพื่อนร่วมในการตรวจสอบเชิงกราฟิก พวกเขาต้องใช้อย่างถูกวิธี ในความคิดของฉันนี่หมายความว่าไม่ควรใช้การทดสอบยอดนิยมหลายอย่างเช่น Shapiro-Wilk, Anderson-Darling และ Jarque-Bera

ก่อนที่ฉันจะอธิบายมุมมองของฉันให้ฉันพูดเล็กน้อย:

  • ในกระดาษล่าสุดที่น่าสนใจ Rochon และคณะ ศึกษาผลกระทบของการทดสอบชาปิโร - วิลก์ต่อการทดสอบสองตัวอย่าง ขั้นตอนสองขั้นตอนของการทดสอบความเป็นมาตรฐานก่อนดำเนินการเช่นการทดสอบ t ไม่มีปัญหา จากนั้นอีกครั้งทั้งสองขั้นตอนของการตรวจสอบความปกติของกราฟิกก่อนดำเนินการทดสอบ t ความแตกต่างคือผลกระทบของสิ่งหลังนั้นยากกว่ามากในการตรวจสอบ (เนื่องจากจะต้องมีนักสถิติเพื่อตรวจสอบความเป็นบรรทัดฐานทางกราฟิกครั้งหรือมากกว่านั้น ... )100,000
  • มันมีประโยชน์ในการหาปริมาณที่ไม่เป็นมาตรฐานเช่นโดยการคำนวณความเบ้ตัวอย่างแม้ว่าคุณจะไม่ต้องการทำการทดสอบอย่างเป็นทางการก็ตาม
  • กฎเกณฑ์หลายตัวแปรอาจเป็นเรื่องยากที่จะประเมินกราฟและการลู่เข้าสู่การแจกแจงแบบแอมโมติกติกอาจช้าสำหรับสถิติหลายตัวแปร การทดสอบความเป็นมาตรฐานจึงมีประโยชน์มากกว่าในการตั้งค่าหลายตัวแปร
  • การทดสอบภาวะปกติอาจจะเป็นประโยชน์อย่างยิ่งสำหรับผู้ปฏิบัติงานที่ใช้สถิติเป็นชุดของวิธีการดำกล่อง เมื่อปฏิเสธภาวะปกติผู้ประกอบวิชาชีพควรตื่นตระหนกและแทนที่จะดำเนินการขั้นตอนมาตรฐานตามข้อสันนิษฐานทั่วไปพิจารณาใช้ขั้นตอนที่ไม่ใช่พารามิเตอร์ใช้การแปลงหรือให้คำปรึกษากับนักสถิติที่มีประสบการณ์มากกว่า
  • ตามที่คนอื่นชี้ให้เห็นถ้ามีขนาดใหญ่พอ CLT มักจะช่วยให้วันนั้น อย่างไรก็ตามสิ่งที่ "ใหญ่พอ" แตกต่างกันสำหรับคลาสที่แตกต่างกันของการแจกแจงn

(ในคำจำกัดความของฉัน) การทดสอบความเป็นไปได้นั้นจะมุ่งไปที่คลาสของทางเลือกถ้ามันอ่อนไหวต่อทางเลือกจากคลาสนั้น แต่ไม่ไวต่อทางเลือกจากคลาสอื่น ตัวอย่างทั่วไปคือการทดสอบที่มุ่งตรงไปยังทางเลือกที่เอียงหรือผิดเพี้ยน ตัวอย่างที่ง่ายที่สุดใช้ตัวอย่างความเบ้และความโด่งเป็นตัวอย่างของสถิติทดสอบ

การทดสอบกำกับการแสดงของภาวะมี arguably มักจะดีกว่าที่จะทดสอบรถโดยสาร (เช่นการทดสอบ Shapiro-Wilk และ Jarque-Bera) ตั้งแต่มันเป็นเรื่องธรรมดาที่มีเพียงบางชนิดที่ไม่ปกติมีความกังวลสำหรับขั้นตอนการอนุมานโดยเฉพาะอย่างยิ่ง

ลองพิจารณาการทดสอบ t ของนักเรียนเป็นตัวอย่าง สมมติว่าเรามีตัวอย่าง iid จากการแจกแจงที่มีความเบ้และ (เกิน) kurtosisถ้าเป็นสมมาตรเกี่ยวกับค่าเฉลี่ยของ 0 ทั้งและเป็น 0 สำหรับการแจกแจงแบบปกติγ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

ภายใต้สมมติฐานปกติเราได้รับการขยาย asymptoticสำหรับ cdf ของสถิติการทดสอบ : Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

โดยที่คือ cdf และคือ pdf ของการแจกแจงแบบปกติมาตรฐานΦ()ϕ()

γปรากฏขึ้นเป็นครั้งแรกในระยะขณะที่ปรากฏในระยะ asymptoticประสิทธิภาพการทำงานของมากขึ้นความไวต่อการเบี่ยงเบนไปจากปกติในรูปแบบของเบ้กว่าในรูปแบบของความโด่งn1/2κn1 T nTn

มันสามารถตรวจสอบได้โดยใช้แบบจำลองที่เป็นจริงสำหรับขนาดเล็กเช่นกัน ดังนั้นนักศึกษา t-test มีความไวต่อเบ้ แต่ค่อนข้างแข็งแกร่งกับหางหนักและมันก็มีเหตุผลที่จะใช้สำหรับการทดสอบภาวะปกติที่เป็นผู้กำกับที่มีต่อทางเลือกเอียงก่อนที่จะใช้ t-testn

ตามกฎของหัวแม่มือ ( ไม่ใช่กฎแห่งธรรมชาติ) การอนุมานเกี่ยวกับวิธีการนั้นมีความอ่อนไหวต่อความเบ้และการอนุมานเกี่ยวกับความแปรปรวนนั้นมีความอ่อนไหวต่อ kurtosis

การใช้การทดสอบโดยตรงเพื่อหาบรรทัดฐานมีประโยชน์ในการรับพลังงานที่สูงกว่าทางเลือก '' อันตราย '' และพลังงานที่ต่ำกว่ากับทางเลือกที่ 'อันตราย' 'น้อยกว่าซึ่งหมายความว่าเรามีโอกาสน้อยที่จะปฏิเสธกฎเกณฑ์เนื่องจากการเบี่ยงเบนจากปกติ ไม่ส่งผลกระทบต่อประสิทธิภาพการทำงานของขั้นตอนอนุมานของเรา ปริมาณที่ไม่ได้อยู่ในเกณฑ์ปกตินั้นจะถูกวัดในลักษณะที่เกี่ยวข้องกับปัญหา นี่ไม่ใช่การทำกราฟิกที่ง่ายเสมอไป

เมื่อมีขนาดใหญ่ขึ้นความเบ้และความโด่งเป็นสิ่งที่มีความสำคัญน้อยลงและการทดสอบโดยตรงนั้นมีแนวโน้มที่จะตรวจสอบว่าปริมาณเหล่านี้เบี่ยงเบนจาก 0 แม้เพียงเล็กน้อย ในกรณีเช่นนี้ดูเหมือนว่าสมเหตุสมผลทดสอบว่าหรือ (ดูที่คำแรกของการขยายตัวด้านบน)มากกว่าว่า 0 นี้จะดูแลบางส่วนของปัญหาที่เราเผชิญเป็นอย่างอื่นขนาดใหญ่ได้รับn|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n


2
ตอนนี้เป็นคำตอบที่ยอดเยี่ยม!
user603

10
ใช่นี่ควรจะเป็นคำตอบที่ยอดเยี่ยมและได้รับการยอมรับ
jenesaisquoi

2
"มันเป็นเรื่องธรรมดาที่มีเพียงบางประเภทที่ไม่ใช่เรื่องปกติมีความกังวลสำหรับกระบวนการอนุมานโดยเฉพาะ" - แน่นอนว่าเราควรใช้การทดสอบที่มุ่งสู่ประเภทที่ไม่เป็นไปตามปกติ แต่ความจริงที่ว่าเราใช้การทดสอบภาวะปกติหมายความว่าเขาใส่ใจทุกด้านของภาวะปกติ คำถามคือ: เป็นการทดสอบปกติในกรณีนั้นเป็นตัวเลือกที่ดี
rbm

การทดสอบความพอเพียงของข้อสันนิษฐานสำหรับการทดสอบบางอย่างกำลังเป็นเรื่องปกติซึ่งเป็นการลบการคาดเดาออกไปบางส่วน
Carl

1
@Carl: คุณสามารถเพิ่มการอ้างอิง / ตัวอย่างสำหรับสิ่งนั้นได้หรือไม่?
kjetil b halvorsen

58

การทดสอบภาวะปกติ IMHO ไม่มีประโยชน์อย่างแน่นอนด้วยเหตุผลดังต่อไปนี้:

  1. ในกลุ่มตัวอย่างขนาดเล็กมีโอกาสดีที่การกระจายตัวที่แท้จริงของประชากรนั้นไม่ได้เป็นเรื่องปกติ แต่การทดสอบภาวะปกตินั้นไม่มีประสิทธิภาพในการรับมัน

  2. ในกลุ่มตัวอย่างขนาดใหญ่สิ่งต่าง ๆ เช่น T-test และ ANOVA นั้นค่อนข้างทนทานต่อสภาวะที่ไม่ปกติ

  3. ความคิดทั้งหมดของประชากรที่กระจายตัวตามปกติเป็นเพียงการประมาณทางคณิตศาสตร์ที่สะดวก โดยทั่วไปปริมาณที่ไม่เกี่ยวข้องกับสถิติอาจมีการแจกแจงด้วยการสนับสนุนของจำนวนจริงทั้งหมด ตัวอย่างเช่นคนไม่สามารถมีความสูงติดลบได้ บางสิ่งไม่สามารถมีมวลติดลบหรือมีมวลมากกว่าที่มีอยู่ในจักรวาล ดังนั้นมันปลอดภัยที่จะบอกว่าไม่มีอะไรจะตรงกระจายตามปกติในโลกจริง


2
ความต่างศักย์ไฟฟ้าเป็นตัวอย่างของปริมาณจริงที่สามารถลบได้
โก้

16
@ นิโกร: แน่นอนว่ามันอาจจะเป็นเชิงลบ แต่มีข้อ จำกัด แน่นอนเนื่องจากมีเพียงโปรตอนและอิเล็กตรอนจำนวนมากในจักรวาล ของหลักสูตรนี้ไม่เกี่ยวข้องในทางปฏิบัติ แต่นั่นคือจุดของฉัน ไม่มีอะไรที่เป็นว่ากระจายตามปกติ (รูปแบบที่ไม่ถูกต้อง) แต่มีจำนวนมากของสิ่งที่อยู่ใกล้พอ (รูปแบบจะเป็นประโยชน์) โดยพื้นฐานแล้วคุณรู้แล้วว่าแบบจำลองนั้นผิดและการปฏิเสธหรือไม่ปฏิเสธค่า null นั้นไม่ได้ให้ข้อมูลว่าเป็นประโยชน์หรือไม่
dsimcha

1
@dsimcha - ฉันพบว่าการตอบสนองที่ชาญฉลาดและมีประโยชน์จริงๆ
rolando2

5
@dsimcha, -test และ ANOVA นั้นไม่แข็งแรงพอที่จะไม่เป็นไปตามปกติ ดูเอกสารโดย Rand Wilcox t
Frank Harrell

@dsimcha "แบบจำลองนี้ผิด" ไม่ใช่ว่าทุกคนจะ "ผิด" หรือ?
Atirag

30

ฉันคิดว่าการทดสอบเบื้องต้นเพื่อความเป็นไปได้ (ซึ่งรวมถึงการประเมินแบบไม่เป็นทางการโดยใช้กราฟิก) คิดถึงประเด็น

  1. ผู้ใช้วิธีการนี้จะสันนิษฐานว่าการประเมินภาวะปกติมีผลใช้กำลังใกล้ 1.0
  2. การทดสอบแบบไม่อิงพารามิเตอร์เช่น Wilcoxon, Spearman และ Kruskal-Wallis มีประสิทธิภาพ 0.95 ถ้ามีกฎเกณฑ์
  3. ในมุมมองของ 2. หนึ่งสามารถระบุล่วงหน้าการใช้การทดสอบ nonparametric ถ้าใครแม้ได้รับความเป็นไปได้ว่าข้อมูลอาจไม่เกิดขึ้นจากการกระจายปกติ
  4. แบบจำลองความน่าจะเป็นแบบสะสมตามปกติ (ตัวแบบอัตราต่อรองแบบสัดส่วนเป็นสมาชิกของคลาสนี้) ทำการทดสอบแบบไม่มีพารามิเตอร์มาตรฐาน รุ่นลำดับจะสมบูรณ์เปลี่ยนแปลงคงที่ที่เกี่ยวกับ , มีประสิทธิภาพที่มีประสิทธิภาพและช่วยให้การประมาณ quantiles และค่าเฉลี่ยของYYYY

โปรดทราบว่าประสิทธิภาพของ 0.95 นั้นเป็นเชิงเส้น : FWIW ฉันเดาว่าประสิทธิภาพจะต่ำกว่าสำหรับขนาดตัวอย่างทั่วไปที่ จำกัด ... (แม้ว่าเป็นที่ยอมรับฉันไม่ได้เห็นสิ่งนี้ศึกษาและพยายามสำรวจด้วยตัวเอง)
Ben Bolker

16

ก่อนที่จะถามว่าการทดสอบหรือการตรวจสอบอย่างหยาบ ๆ สำหรับความเป็นมาตรฐานนั้นมีประโยชน์หรือไม่คุณต้องตอบคำถามที่อยู่เบื้องหลังคำถาม: "ทำไมคุณถึงถาม"

ตัวอย่างเช่นหากคุณต้องการจำกัดความมั่นใจเฉพาะค่าเฉลี่ยของชุดข้อมูลการออกจากภาวะปกติอาจมีความสำคัญหรือไม่ขึ้นอยู่กับว่าคุณมีข้อมูลมากน้อยเพียงใดและมีขนาดใหญ่เพียงใด อย่างไรก็ตามการออกจากภาวะปกตินั้นมีความสำคัญหากคุณต้องการคาดการณ์ว่ามูลค่าที่สูงที่สุดจะเป็นอย่างไรในการสำรวจในอนาคตหรือในประชากรที่คุณได้เก็บตัวอย่างไว้


12

ให้ฉันเพิ่มสิ่งเล็ก ๆ น้อยหนึ่ง:
ทำการทดสอบตามปกติโดยไม่คำนึงถึงข้อผิดพลาดของอัลฟาเพื่อเพิ่มความน่าจะเป็นโดยรวมของคุณในการดำเนินการข้อผิดพลาดอัลฟา

คุณจะไม่มีวันลืมว่าการทดสอบเพิ่มเติมแต่ละครั้งจะทำได้ตราบใดที่คุณไม่ได้ควบคุมการสะสมอัลฟ่า - ข้อผิดพลาด ดังนั้นอีกเหตุผลที่ดีในการยกเลิกการทดสอบตามปกติ


ฉันคิดว่าคุณกำลังอ้างถึงสถานการณ์ที่หนึ่งจะทำการทดสอบปกติและจากนั้นใช้ผลการทดสอบเพื่อตัดสินใจว่าการทดสอบใดที่จะดำเนินการต่อไป
Harvey Motulsky

3
ฉันอ้างถึงอรรถประโยชน์ทั่วไปของการทดสอบภาวะปกติเมื่อใช้เป็นวิธีการตรวจสอบว่าเหมาะสมหรือไม่ที่จะใช้วิธีการบางอย่าง หากคุณใช้พวกเขาในกรณีเหล่านี้มันน่าจะเป็นข้อผิดพลาดของอัลฟ่าในแง่ของความน่าจะเป็นที่จะทำการทดสอบที่มีประสิทธิภาพมากกว่าเพื่อหลีกเลี่ยงการสะสมข้อผิดพลาดของอัลฟา
Henrik

4
สิ่งนี้ไม่สมเหตุสมผลสำหรับฉัน แม้ว่าคุณจะตัดสินใจระหว่างพูด ANOVA หรือวิธีการจัดอันดับตามการทดสอบความเป็นปกติ (ความคิดที่ไม่ดีแน่นอน) ในตอนท้ายของวันที่คุณจะยังคงทำการทดสอบเปรียบเทียบดอกเบี้ย หากคุณปฏิเสธความผิดปกติคุณยังคงไม่ได้ข้อสรุปที่ผิดเกี่ยวกับการเปรียบเทียบนี้ คุณอาจจะได้รับการดำเนินการทดสอบสอง แต่เพียงกรณีในที่ที่คุณสามารถสรุปปัจจัยที่ว่าเช่นนั้นเช่นนี้มีผลกระทบคือเมื่อการทดสอบที่สองยังปฏิเสธ , ไม่ได้เมื่อมีเพียงหนึ่งครั้งแรกไม่ จึงไม่มีการสะสม alpha-ข้อผิดพลาด ...H0
Gala

3
อีกวิธีหนึ่งที่การทดสอบเชิงบรรทัดฐานสามารถเพิ่มข้อผิดพลาดประเภทที่ 1 ได้คือถ้าเรากำลังพูดถึง การทดสอบนั้นมีอัตราความผิดพลาดดังนั้นโดยรวมแล้วความน่าจะเป็นที่จะยอมรับข้อผิดพลาดเพิ่มขึ้น เน้นสิ่งเล็ก ๆ น้อย ๆด้วยฉันคิดว่า ...
Nick Stauner

2
@ NickStauner นั่นคือสิ่งที่ฉันต้องการถ่ายทอด ขอบคุณที่ทำให้จุดนี้ชัดเจนยิ่งขึ้น
Henrik

11

คำตอบที่นี่ได้ระบุประเด็นสำคัญหลายประการแล้ว ในการสรุปอย่างรวดเร็ว:

  • ไม่มีการทดสอบที่สอดคล้องกันซึ่งสามารถตัดสินได้ว่าชุดของข้อมูลเป็นไปตามการกระจายอย่างแท้จริงหรือไม่
  • การทดสอบไม่ได้ใช้แทนการตรวจสอบข้อมูลและแบบจำลองด้วยสายตาเพื่อระบุการใช้ประโยชน์สูงการสังเกตที่มีอิทธิพลสูงและการแสดงความคิดเห็นเกี่ยวกับผลกระทบที่มีต่อโมเดล
  • ข้อสันนิษฐานสำหรับกิจวัตรการถดถอยหลายครั้งมักจะผิดพลาดเนื่องจากต้องมีการแจกจ่าย "ข้อมูล" [เศษส่วนเหลือ] และตีความโดยนักสถิติมือใหม่ซึ่งต้องการให้นักวิเคราะห์ประเมินอย่างเป็นทางการก่อนที่จะทำการวิเคราะห์

ฉันกำลังเพิ่มคำตอบก่อนเพื่ออ้างถึงหนึ่งในบทความส่วนตัวของฉันเข้าถึงบ่อยที่สุดและอ่านสถิติ: " ความสำคัญของการสันนิษฐาน Normality ในชุดข้อมูลสาธารณสุขขนาดใหญ่ " โดย Lumley et อัล มันคุ้มค่าที่จะอ่านทั้งหมด สถานะสรุป:

t-test และการถดถอยเชิงเส้นอย่างน้อยกำลังสองไม่จำเป็นต้องมีสมมติฐานของการแจกแจงแบบปกติในตัวอย่างที่มีขนาดใหญ่เพียงพอ การศึกษาแบบจำลองก่อนหน้าแสดงให้เห็นว่า "มีขนาดใหญ่พอ" มักจะต่ำกว่า 100 และแม้สำหรับข้อมูลค่าใช้จ่ายทางการแพทย์ที่ไม่ธรรมดามากของเราก็น้อยกว่า 500 ซึ่งหมายความว่าในการวิจัยด้านสาธารณสุขที่ตัวอย่างมักมีขนาดใหญ่กว่า - การทดสอบและโมเดลเชิงเส้นเป็นเครื่องมือเริ่มต้นที่มีประโยชน์สำหรับการวิเคราะห์ความแตกต่างและแนวโน้มในข้อมูลหลายประเภทไม่ใช่เฉพาะกับการแจกแจงแบบปกติ การทดสอบทางสถิติอย่างเป็นทางการสำหรับ Normality ไม่เป็นที่น่าพอใจอย่างยิ่งเนื่องจากจะมีพลังงานต่ำในตัวอย่างขนาดเล็กที่การกระจายมีความสำคัญและใช้พลังงานสูงเฉพาะในตัวอย่างขนาดใหญ่ที่การกระจายไม่สำคัญ

ในขณะที่มีการเข้าใจคุณสมบัติตัวอย่างขนาดใหญ่ของการถดถอยเชิงเส้นเป็นอย่างดี แต่ก็มีงานวิจัยเพียงเล็กน้อยเกี่ยวกับขนาดของกลุ่มตัวอย่างที่จำเป็นสำหรับการสันนิษฐานทั่วไปว่าไม่มีความสำคัญ โดยเฉพาะอย่างยิ่งมันไม่ชัดเจนว่าขนาดตัวอย่างที่จำเป็นขึ้นอยู่กับจำนวนของตัวทำนายในโมเดล

การมุ่งเน้นที่การแจกแจงแบบปกติสามารถเบี่ยงเบนความสนใจไปจากสมมติฐานที่แท้จริงของวิธีการเหล่านี้ การถดถอยเชิงเส้นถือว่าความแปรปรวนของตัวแปรผลลัพธ์อยู่ที่ประมาณคงที่ แต่ข้อ จำกัด หลักของทั้งสองวิธีคือพวกเขาคิดว่ามันเพียงพอที่จะตรวจสอบการเปลี่ยนแปลงในความหมายของตัวแปรผลลัพธ์ หากการสรุปอื่น ๆ ของการแจกแจงมีความน่าสนใจมากขึ้นการทดสอบ t และการถดถอยเชิงเส้นอาจไม่เหมาะสม

เพื่อสรุป: โดยทั่วไปความปกติจะไม่คุ้มค่ากับการอภิปรายหรือความสนใจที่ได้รับในทางตรงกันข้ามกับความสำคัญของการตอบคำถามทางวิทยาศาสตร์โดยเฉพาะ ถ้าความปรารถนาที่จะสรุปความแตกต่างของข้อมูลหมายถึง t-test และ ANOVA หรือการถดถอยเชิงเส้นนั้นมีเหตุผลที่สมเหตุสมผล การทดสอบที่ใช้แบบจำลองเหล่านี้ยังคงอยู่ในระดับอัลฟาที่ถูกต้องแม้ว่าจะไม่ตรงตามสมมติฐานการกระจายแม้ว่าพลังงานอาจได้รับผลกระทบในทางลบ

เหตุผลที่ทำไมการแจกแจงแบบปกติอาจได้รับความสนใจที่พวกเขาทำอาจเป็นเพราะเหตุผลดั้งเดิมซึ่งการทดสอบที่แน่นอนบนพื้นฐานของการแจกแจงแบบ F สำหรับ ANOVAs และ Student-T- การแจกแจงสำหรับ T-test สามารถรับได้ ความจริงก็คือในบรรดาความก้าวหน้าทางวิทยาศาสตร์สมัยใหม่เรามักจะจัดการกับชุดข้อมูลขนาดใหญ่กว่าที่รวบรวมไว้ก่อนหน้านี้ หากมีความจริงที่เกี่ยวข้องกับชุดข้อมูลขนาดเล็กเหตุผลที่ข้อมูลเหล่านั้นถูกกระจายตามปกติไม่สามารถมาจากข้อมูลเหล่านั้นเอง: มีพลังงานไม่เพียงพอ การสังเกตการวิจัยการทำซ้ำหรือแม้แต่ชีววิทยาหรือวิทยาศาสตร์ของกระบวนการวัดอื่น ๆ ในความคิดของฉันเป็นวิธีการที่มีเหตุผลมากขึ้นในการพูดคุยเกี่ยวกับแบบจำลองความน่าจะเป็นไปได้ที่เป็นไปตามข้อมูลที่สังเกตได้

ด้วยเหตุนี้การเลือกการทดสอบตามตำแหน่งจึงเป็นทางเลือกที่พลาดจุดทั้งหมด อย่างไรก็ตามฉันจะยอมรับว่าการใช้ตัวประมาณค่าความแปรปรวนที่แข็งแกร่งเช่น jackknife หรือ bootstrap เสนอทางเลือกการคำนวณที่สำคัญที่อนุญาตให้ทำการทดสอบภายใต้การละเมิดข้อกำหนดคุณลักษณะของแบบจำลองที่สำคัญกว่าเช่นความเป็นอิสระหรือการแจกจ่ายข้อผิดพลาดเหล่านั้น


10

ฉันเคยคิดว่าการทดสอบภาวะปกติไม่มีประโยชน์อย่างสมบูรณ์

อย่างไรก็ตามตอนนี้ฉันให้คำปรึกษากับนักวิจัยคนอื่น ๆ บ่อยครั้งที่การได้รับตัวอย่างมีราคาแพงมากดังนั้นพวกเขาจึงต้องการอนุมานด้วย n = 8

ในกรณีเช่นนี้เป็นการยากที่จะค้นหานัยสำคัญทางสถิติด้วยการทดสอบแบบไม่อิงพารามิเตอร์ แต่การทดสอบด้วย n = 8 นั้นอ่อนไหวต่อการเบี่ยงเบนจากภาวะปกติ ดังนั้นสิ่งที่เราได้คือเราสามารถพูดว่า "ดีมีเงื่อนไขบนสมมติฐานของภาวะปกติเราพบความแตกต่างอย่างมีนัยสำคัญทางสถิติ" (ไม่ต้องกังวลพวกนี้มักจะเป็นการศึกษานำร่อง ... )

จากนั้นเราต้องการวิธีการประเมินสมมติฐาน ฉันครึ่งทางในค่ายที่ดูแปลงเป็นวิธีที่ดีกว่าที่จะไป แต่ความจริงจะบอกว่าอาจมีความขัดแย้งมากมายเกี่ยวกับเรื่องนี้ซึ่งอาจเป็นปัญหาได้มากหากคนที่ไม่เห็นด้วยกับคุณคือ ผู้ตรวจทานต้นฉบับของคุณ

ในหลาย ๆ วิธีฉันยังคงคิดว่ามีข้อบกพร่องมากมายในการทดสอบบรรทัดฐาน: ตัวอย่างเช่นเราควรคิดถึงข้อผิดพลาดประเภท II มากกว่าประเภท I แต่มีความต้องการสำหรับพวกเขา


โปรดทราบว่าข้อโต้แย้งที่นี่คือการทดสอบนั้นไม่มีประโยชน์ในทางทฤษฎีเท่านั้น ในทางทฤษฎีเราสามารถรับตัวอย่างได้มากเท่าที่เราต้องการ ... คุณจะต้องทดสอบเพื่อพิสูจน์ว่าอย่างน้อยข้อมูลของคุณก็ใกล้เคียงกับมาตรฐาน
SmallChess

2
จุดดี. ฉันคิดว่าสิ่งที่คุณพูดถึงและแน่นอนสิ่งที่ฉันเชื่อคือการวัดความเบี่ยงเบนจากภาวะปกตินั้นสำคัญกว่าการทดสอบสมมติฐาน
หน้าผา AB

ตราบใดที่พวกเขาไม่เปลี่ยนไปใช้การทดสอบแบบไม่อิงพารามิเตอร์และพยายามตีความค่า p (ซึ่งถูกทำให้เป็นโมฆะโดยการทดสอบล่วงหน้าตามเงื่อนไข) อาจไม่เป็นไร!
Björn

2
พลังของการทดสอบภาวะปกติจะต่ำมากที่ n = 8; โดยเฉพาะอย่างยิ่งการเบี่ยงเบนจากปกติที่จะส่งผลกระทบอย่างมีนัยสำคัญต่อคุณสมบัติของการทดสอบที่สันนิษฐานว่ามันอาจจะค่อนข้างยากที่จะตรวจสอบในขนาดตัวอย่างขนาดเล็ก (ไม่ว่าจะโดยการทดสอบหรือมองเห็น)
Glen_b

1
@Glen_b: ฉันเห็นด้วย; ฉันคิดว่าความเชื่อมั่นนี้สอดคล้องกับการดูแลข้อผิดพลาดของ type II มากกว่า type I ประเด็นของฉันคือว่าโลกแห่งความจริงจำเป็นต้องทดสอบความเป็นปกติ เครื่องมือในปัจจุบันของเราเติมเต็มความต้องการนั้นจริงหรือไม่เป็นคำถามอื่น
หน้าผา AB

10

สำหรับสิ่งที่คุ้มค่าฉันเคยพัฒนาตัวอย่างรวดเร็วสำหรับการแจกแจงแบบปกติที่ถูกตัดทอนและการทดสอบ normality (KS) มีประโยชน์มากในการแก้ไขข้อบกพร่องของฟังก์ชัน ตัวอย่างนี้ผ่านการทดสอบด้วยขนาดตัวอย่างขนาดใหญ่ แต่ที่น่าสนใจ ziggurat sampler ของ GSL ไม่น่าสนใจ


8

อาร์กิวเมนต์ที่คุณให้ไว้เป็นความเห็น ฉันคิดว่าความสำคัญของการทดสอบตามปกติคือเพื่อให้แน่ใจว่าข้อมูลไม่หลุดพ้นจากปกติ บางครั้งฉันใช้มันเพื่อตัดสินใจระหว่างการใช้พารามิเตอร์เปรียบเทียบกับการทดสอบแบบไม่มีพารามิเตอร์สำหรับกระบวนการอนุมานของฉัน ฉันคิดว่าการทดสอบจะมีประโยชน์ในกลุ่มตัวอย่างขนาดกลางและขนาดใหญ่ (เมื่อทฤษฎีบทขีด จำกัด กลางไม่ได้เข้ามาเล่น) ฉันมักจะใช้การทดสอบแบบ Wilk-Shapiro หรือ Anderson-Darling แต่การรัน SAS ฉันทำให้พวกเขาทั้งหมดและพวกเขาก็เห็นด้วยค่อนข้างดี ในบันทึกอื่นฉันคิดว่าขั้นตอนกราฟิกเช่นแผนการ QQ ทำงานได้ดีเท่า ๆ กัน ข้อดีของการทดสอบอย่างเป็นทางการคือมันมีวัตถุประสงค์ ในตัวอย่างเล็ก ๆ มันเป็นความจริงที่ความดีของการทดสอบแบบพอดีไม่มีอำนาจและทำให้เข้าใจได้ง่ายเพราะตัวอย่างเล็ก ๆ จากการแจกแจงแบบปกติอาจดูค่อนข้างไม่ปกติและนั่นเป็นสาเหตุของการทดสอบ นอกจากนี้ยังมีความเบ้สูงและความโด่งที่แตกต่างจากการแจกแจงแบบปกติจำนวนมากที่ไม่ได้เห็นได้ง่ายในตัวอย่างเล็ก ๆ


2
แม้ว่ามันจะสามารถใช้งานได้อย่างแน่นอน แต่ฉันไม่คิดว่าคุณจะมีจุดประสงค์มากกว่าการใช้ QQ-Plot ส่วนที่เป็นอัตนัยกับการทดสอบคือเมื่อตัดสินใจว่าข้อมูลของคุณเป็นแบบไม่ปกติ ด้วยตัวอย่างขนาดใหญ่ปฏิเสธที่ p = 0.05 อาจมากเกินไป
Erik

4
การทดสอบล่วงหน้า (ตามที่แนะนำไว้ที่นี่) สามารถทำให้อัตราความผิดพลาด Type I ของกระบวนการโดยรวมไม่ถูกต้อง เราควรคำนึงถึงความจริงที่ว่าการทดสอบก่อนทำเมื่อตีความผลลัพธ์ของการทดสอบที่เลือกไว้ โดยทั่วไปแล้วการทดสอบสมมติฐานควรเก็บไว้เพื่อทดสอบสมมุติฐานว่างที่จริง ๆ แล้วใส่ใจนั่นคือไม่มีความสัมพันธ์ระหว่างตัวแปร สมมติฐานว่างเปล่าที่ว่าข้อมูลนั้นเป็นปกติไม่ได้อยู่ในหมวดหมู่นี้
แขกที่เข้าพัก

1
(+1) มีคำแนะนำที่ยอดเยี่ยมที่นี่ เอริคการใช้ "วัตถุประสงค์" พาฉันผงะด้วยจนกระทั่งฉันตระหนักถึงสิทธิของไมเคิล: คนสองคนที่ทำการทดสอบเดียวกันกับข้อมูลเดียวกันอย่างถูกต้องจะได้รับค่า p เท่ากัน แต่พวกเขาอาจตีความพล็อต QQ เดียวกันแตกต่างกัน แขก: ขอขอบคุณสำหรับข้อควรระวังเกี่ยวกับข้อผิดพลาด Type I แต่ทำไมเราไม่สนใจเรื่องการกระจายข้อมูล? บ่อยครั้งที่ข้อมูลที่น่าสนใจและมีค่า อย่างน้อยฉันก็อยากรู้ว่าข้อมูลสอดคล้องกับสมมติฐานที่การทดสอบของฉันทำกับพวกเขาหรือเปล่า!
whuber

1
ฉันไม่เห็นด้วยอย่างยิ่ง คนทั้งสองได้พล็อต QQ เดียวกันและ p-value เหมือนกัน ในการตีความค่า p คุณจำเป็นต้องคำนึงถึงขนาดตัวอย่างและการละเมิดกฎเกณฑ์ของการทดสอบของคุณนั้นมีความอ่อนไหวเป็นพิเศษ ดังนั้นการตัดสินใจว่าจะทำอย่างไรกับค่า p ของคุณจึงเป็นแบบอัตนัย เหตุผลที่คุณอาจต้องการค่า p-value คือคุณเชื่อว่าข้อมูลสามารถติดตามการแจกแจงแบบปกติที่สมบูรณ์แบบได้มิฉะนั้นเป็นเพียงคำถามว่าค่า p-value มีขนาดตัวอย่างรวดเร็วเพียงใด ซึ่งมีขนาดใหญ่ขึ้นเนื่องจากขนาดตัวอย่างที่เหมาะสม QQ-plot มีลักษณะเหมือนกันมากและยังคงมีความเสถียรเมื่อมีตัวอย่างมากขึ้น
Erik

1
เอริคฉันยอมรับว่าผลการทดสอบและกราฟิกต้องมีการตีความ แต่ผลการทดสอบเป็นตัวเลขและจะไม่มีข้อโต้แย้งใด ๆ พล็อต QQ อย่างไรก็ตามยอมรับคำอธิบายหลาย ๆ แม้ว่าแต่ละคนอาจจะถูกต้องอย่างเป็นกลาง แต่การเลือกสิ่งที่ต้องใส่ใจคือ ... ตัวเลือก นั่นคือสิ่งที่ "อัตนัย" หมายถึง: ผลลัพธ์ขึ้นอยู่กับนักวิเคราะห์ไม่ใช่แค่ขั้นตอนเอง ยกตัวอย่างเช่นในการตั้งค่าที่หลากหลายเช่นแผนภูมิควบคุมและกฎระเบียบของรัฐบาลที่ "ความเที่ยงธรรม" มีความสำคัญเกณฑ์จะขึ้นอยู่กับการทดสอบเชิงตัวเลขและไม่เคยแสดงผลแบบกราฟิก
whuber

7

ฉันคิดว่าวิธีการเอนโทรปีที่มากที่สุดอาจมีประโยชน์ที่นี่ เราสามารถกำหนดการแจกแจงแบบปกติเพราะเราเชื่อว่าข้อมูลคือ "การแจกแจงแบบปกติ" (อะไรก็ตามที่มีความหมาย) หรือเพราะเราคาดหวังว่าจะเห็นการเบี่ยงเบนของขนาดเท่ากัน นอกจากนี้เนื่องจากการแจกแจงแบบปกติมีเพียงสองสถิติที่เพียงพอจึงไม่มีความสำคัญต่อการเปลี่ยนแปลงของข้อมูลที่ไม่เปลี่ยนแปลงปริมาณเหล่านี้ ดังนั้นในแง่หนึ่งคุณสามารถนึกถึงการแจกแจงแบบปกติว่าเป็น "ค่าเฉลี่ย" ในการแจกแจงที่เป็นไปได้ทั้งหมดในช่วงเวลาที่หนึ่งและสองที่เหมือนกัน นี่เป็นเหตุผลข้อหนึ่งว่าทำไมสี่เหลี่ยมจัตุรัสน้อยควรทำงานได้ดี


เชื่อมโยงแนวคิดที่ดี ฉันยังเห็นพ้องด้วยว่าในกรณีที่การแจกจ่ายดังกล่าวมีความสำคัญมากขึ้นกว่าที่คิดว่าจะสร้างข้อมูลอย่างไร เราใช้หลักการนั้นกับโมเดลผสมที่เหมาะสม ความเข้มข้นหรืออัตราส่วนในทางกลับกันจะเบ้ ฉันอาจเพิ่มโดย "ปกติ ... ไม่รู้สึกถึงการเปลี่ยนแปลง" คุณหมายถึงการเปลี่ยนแปลงรูปร่าง / ขนาด
AdamO

7

ฉันจะไม่พูดว่ามันไร้ประโยชน์ แต่ขึ้นอยู่กับแอปพลิเคชันจริงๆ หมายเหตุคุณไม่เคยรู้เลยว่าการกระจายข้อมูลมาจากไหนและสิ่งที่คุณมีก็คือชุดของการรับรู้เล็ก ๆ ค่าเฉลี่ยตัวอย่างของคุณ จำกัด ตัวอย่างเสมอ แต่ค่าเฉลี่ยอาจไม่ได้กำหนดหรือไม่ จำกัด สำหรับฟังก์ชันความหนาแน่นของความน่าจะเป็นบางประเภท ให้เราพิจารณาการแจกแจงแบบเสถียรสามประเภท ได้แก่ การแจกแจงแบบปกติการแจกแจงแบบแบ่งและการกระจายแบบโคชี ตัวอย่างส่วนใหญ่ของคุณไม่มีการสังเกตที่หาง (เช่นอยู่ห่างจากค่าเฉลี่ยตัวอย่าง) ดังนั้นสังเกตุก็ยากที่จะแยกความแตกต่างระหว่างทั้งสามดังนั้น Cauchy (มีค่าเฉลี่ยไม่ได้กำหนด) และ Levy (มีค่าเฉลี่ยอนันต์) สามารถหลอกลวงได้อย่างง่ายดายเป็นการกระจายปกติ


1
"... สังเกตุว่ามันเป็นเรื่องยากมาก ..." ดูเหมือนว่าจะเถียงกับมากกว่าสำหรับการทดสอบการกระจาย นี่เป็นเรื่องแปลกที่จะอ่านในย่อหน้าที่การแนะนำแนะนำให้ใช้สำหรับการทดสอบแบบกระจาย ถ้าอย่างนั้นคุณพยายามจะพูดอะไรที่นี่จริงเหรอ?
whuber

3
ฉันไม่เห็นด้วย แต่ฉันก็อยากระวังมากกว่าที่จะบอกว่ามันไร้ประโยชน์เพราะฉันไม่รู้ว่ามีสถานการณ์ที่เป็นไปได้ทั้งหมดอยู่ในนั้น มีการทดสอบหลายอย่างที่ขึ้นอยู่กับข้อสมมติปกติ การบอกว่าการทดสอบภาวะปกตินั้นไม่มีประโยชน์นั้นเป็นเรื่องสำคัญที่จะทำให้การทดสอบทางสถิติทั้งหมดดังเช่นที่คุณพูดว่าคุณไม่แน่ใจว่าคุณกำลังใช้ / ทำสิ่งที่ถูกต้อง ในกรณีที่คุณไม่ควรทำคุณไม่ควรทำสถิติในส่วนนี้มาก
kolonel

ขอขอบคุณ. คำพูดในความคิดเห็นนั้นดูเหมือนจะเน้นคำถามได้ดีกว่าคำตอบเดิมของคุณ! คุณอาจลองปรับปรุงคำตอบของคุณในบางครั้งเพื่อให้ความคิดเห็นและคำแนะนำของคุณชัดเจนยิ่งขึ้น
whuber

@whuber ไม่มีปัญหา คุณสามารถแนะนำการแก้ไขได้หรือไม่
kolonel

คุณอาจเริ่มต้นด้วยการรวมสองโพสต์ - คำตอบและความคิดเห็นของคุณ - และจากนั้นคิดเกี่ยวกับการกำจัดวัชพืช (หรือ relegating ไปที่ภาคผนวกหรือชี้แจง) วัสดุใด ๆ ที่อาจจะสัมผัสกัน ตัวอย่างเช่นการอ้างอิงถึงหมายที่ไม่ได้กำหนดนั้นยังไม่มีความชัดเจนเกี่ยวกับคำถามดังนั้นมันจึงค่อนข้างลึกลับ
whuber

7

ฉันคิดว่าคำถาม 2 ข้อแรกได้รับการตอบอย่างถี่ถ้วน แต่ฉันไม่คิดว่าคำถาม 3 จะได้รับการแก้ไข การทดสอบจำนวนมากเปรียบเทียบการกระจายเชิงประจักษ์กับการแจกแจงแบบตั้งสมมติฐานที่รู้จัก ค่าวิกฤตสำหรับการทดสอบ Kolmogorov-Smirnov ขึ้นอยู่กับ F ที่ระบุไว้อย่างสมบูรณ์ สามารถแก้ไขเพื่อทดสอบกับการแจกแจงแบบพารามิเตอร์ด้วยพารามิเตอร์ที่ประมาณไว้ ดังนั้นหาก fuzzier หมายถึงการประมาณค่าพารามิเตอร์มากกว่าสองพารามิเตอร์คำตอบของคำถามคือใช่ การทดสอบเหล่านี้สามารถนำไปใช้กับตระกูลพารามิเตอร์ 3 ตัวหรือมากกว่า การทดสอบบางอย่างได้รับการออกแบบให้มีพลังงานที่ดีขึ้นเมื่อทดสอบกับตระกูลการแจกแจงแบบเฉพาะ ตัวอย่างเช่นเมื่อทดสอบภาวะปกติการทดสอบ Anderson-Darling หรือการทดสอบ Shapiro-Wilk มีพลังมากกว่า KS หรือไคสแควร์เมื่อการแจกแจงแบบไม่มีสมมติฐานเป็นเรื่องปกติ


5

การทดสอบว่า "บางสิ่ง" สำคัญต่อการวิเคราะห์นั้นสนับสนุนค่า p สูงหรือไม่ฉันคิดผิดปกติ อย่างที่คนอื่น ๆ ชี้ให้เห็นสำหรับชุดข้อมูลขนาดใหญ่ค่า p ต่ำกว่า 0.05 จะมั่นใจได้ ดังนั้นการทดสอบเป็นหลัก "รางวัล" สำหรับชุดข้อมูลขนาดเล็กและเลือนและ "รางวัล" สำหรับการขาดหลักฐาน สิ่งที่ชอบแปลง qq มีประโยชน์มากกว่า ความปรารถนาสำหรับตัวเลขที่ยากต่อการตัดสินใจในสิ่งนี้เช่นเคย (ใช่ / ไม่ใช่ปกติ / ไม่ปกติ) คิดถึงว่าการสร้างแบบจำลองนั้นเป็นเพียงบางส่วนของศิลปะและสนับสนุนการตั้งสมมติฐานอย่างไร


2
มันยังคงอยู่ที่กลุ่มตัวอย่างขนาดใหญ่ที่เกือบปกติจะมีค่า p ต่ำในขณะที่กลุ่มตัวอย่างขนาดเล็กที่ไม่ได้เกือบตามปกติมักจะไม่ได้ ฉันไม่คิดว่าค่า p ขนาดใหญ่มีประโยชน์ อีกครั้งพวกเขาให้รางวัลเพราะขาดหลักฐาน ฉันสามารถมีตัวอย่างที่มีจุดข้อมูลหลายล้านจุดและมันมักจะปฏิเสธสมมติฐานเชิงบรรทัดฐานภายใต้การทดสอบเหล่านี้ในขณะที่ตัวอย่างขนาดเล็กจะไม่ ดังนั้นฉันพบว่ามันไม่มีประโยชน์ หากความคิดของฉันมีข้อบกพร่องโปรดแสดงโดยใช้เหตุผลแบบอนุมานในประเด็นนี้
wvguy8258

นี่ไม่ได้ตอบคำถามเลย
SmallChess

-2

การทดสอบบรรทัดฐานที่ดีอย่างหนึ่งที่ฉันไม่คิดว่ามีการพูดถึงคือการพิจารณาว่าการใช้คะแนน z นั้นใช้ได้หรือไม่ สมมติว่าคุณเลือกตัวอย่างแบบสุ่มจากประชากรและคุณต้องการหาความน่าจะเป็นในการเลือกบุคคลสุ่มจากประชากรและรับค่า 80 หรือสูงกว่า สิ่งนี้สามารถทำได้ก็ต่อเมื่อการแจกแจงเป็นเรื่องปกติเนื่องจากการใช้คะแนน z สมมุติว่าการกระจายตัวของประชากรเป็นเรื่องปกติ

แต่ฉันเดาว่าฉันก็สามารถเห็นสิ่งนี้ได้เช่นกัน ...


คุณค่าของอะไร หมายถึงผลรวมความแปรปรวนการสังเกตของแต่ละบุคคล? มีเพียงคนสุดท้ายเท่านั้นที่ขึ้นอยู่กับความเป็นปกติของการแจกแจง
whuber

ฉันหมายถึงบุคคล
Hotaka

2
ขอบคุณ คำตอบของคุณยังคลุมเครือแม้ว่าเป็นการยากที่จะบอกขั้นตอนที่คุณอ้างถึงและเป็นไปไม่ได้ที่จะประเมินว่าข้อสรุปของคุณถูกต้องหรือไม่
whuber

2
ปัญหาของการใช้งานนี้เหมือนกับการใช้งานอื่น ๆ : การทดสอบจะขึ้นอยู่กับขนาดตัวอย่างดังนั้นมันจึงไร้ประโยชน์ ไม่ได้บอกคุณว่าคุณสามารถใช้คะแนน z ได้หรือไม่
Peter Flom
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.