การตีความ QQplot - มีกฎของหัวแม่มือในการตัดสินใจที่ไม่ปกติหรือไม่?


47

ฉันได้อ่านเธรดบน QQplots เพียงพอที่นี่เพื่อทำความเข้าใจว่า QQplot สามารถให้ข้อมูลได้มากกว่าการทดสอบตามปกติอื่น ๆ อย่างไรก็ตามฉันไม่มีประสบการณ์กับการตีความ QQplots ฉันเที่ยวมาก ฉันพบกราฟจำนวนมากของ QQplots ที่ไม่ปกติ แต่ไม่มีกฎที่ชัดเจนเกี่ยวกับวิธีการตีความพวกเขานอกเหนือจากสิ่งที่ดูเหมือนว่าจะเป็นการเปรียบเทียบกับการแจกแจงแบบรู้พร้อมกับ "ความรู้สึกทางเดิน"

ฉันต้องการทราบว่าคุณมีกฎ (หรือที่คุณรู้) กฎง่ายๆที่จะช่วยให้คุณตัดสินใจไม่ปกติ

คำถามนี้เกิดขึ้นเมื่อฉันเห็นกราฟทั้งสองนี้: กราฟ 2 กราฟ 1

ฉันเข้าใจว่าการตัดสินใจที่ไม่เป็นมาตรฐานนั้นขึ้นอยู่กับข้อมูลและสิ่งที่ฉันต้องการจะทำกับพวกเขา อย่างไรก็ตามคำถามของฉันคือ: โดยทั่วไปแล้วการสังเกตที่ออกจากเส้นตรงเมื่อใดจะมีหลักฐานมากพอที่จะทำให้การประมาณค่าปกติไม่มีเหตุผล?

สำหรับสิ่งที่คุ้มค่าการทดสอบชาปิโร - วิลค์ล้มเหลวในการปฏิเสธสมมติฐานที่ไม่เป็นมาตรฐานในทั้งสองกรณี


3
แถบความเชื่อมั่นรอบ ๆ สาย QQ นั้นค่อนข้างเท่ห์ คุณสามารถแบ่งปันรหัส R ที่คุณใช้เพื่อรับได้หรือไม่
user603

7
มันเป็นแค่ qqPlot () จาก {
qualityTools

คำตอบ:


43

โปรดทราบว่า Shapiro-Wilk เป็นการทดสอบที่มีประสิทธิภาพของบรรทัดฐาน

วิธีที่ดีที่สุดคือการมีความคิดที่ดีว่ากระบวนการใด ๆ ที่คุณต้องการใช้นั้นมีความอ่อนไหวต่อการไม่ปฏิบัติตามประเภทต่าง ๆ อย่างไร สามารถยอมรับ)

แนวทางแบบไม่เป็นทางการสำหรับการดูแปลงคือการสร้างชุดข้อมูลจำนวนหนึ่งซึ่งเป็นเรื่องปกติที่มีขนาดตัวอย่างเดียวกับขนาดที่คุณมี - (ตัวอย่างเช่นพูด 24 ชุด) พล็อตข้อมูลจริงของคุณท่ามกลางตารางของแปลงดังกล่าว (5x5 ในกรณีของ 24 ชุดสุ่ม) หากไม่ใช่รูปลักษณ์ที่ผิดปกติโดยเฉพาะ (รูปที่แย่ที่สุดพูด) มันก็สมเหตุสมผลกับความเป็นปกติ

ป้อนคำอธิบายรูปภาพที่นี่

ในสายตาของฉันชุดข้อมูล "Z" ที่อยู่ตรงกลางดูคร่าวๆด้วย "o" และ "v" และอาจเป็น "h" ในขณะที่ "d" และ "f" ดูแย่ลงเล็กน้อย "Z" เป็นข้อมูลจริง แม้ว่าฉันจะไม่เชื่อสักครู่ว่ามันเป็นเรื่องปกติ แต่ก็ไม่ได้ดูแปลกอะไรเมื่อเปรียบเทียบกับข้อมูลปกติ

[แก้ไข: ฉันเพิ่งทำแบบสำรวจความคิดเห็นแบบสุ่ม - ดีฉันถามลูกสาวของฉัน แต่ในเวลาที่ค่อนข้างสุ่ม - และการเลือกของเธออย่างน้อยเหมือนเส้นตรงคือ "d" ดังนั้น 100% ของผู้ตอบแบบสำรวจที่คิดว่า "d" นั้นแปลกประหลาดที่สุด]

วิธีการที่เป็นทางการมากกว่านั้นคือการทำแบบทดสอบชาปิโร - ฟรานเซีย (ซึ่งมีพื้นฐานจากความสัมพันธ์ใน QQ- พล็อต) แต่ (ก) มันไม่ได้มีประสิทธิภาพเท่ากับการทดสอบชาปิโรวิลค์และ (ข) การทดสอบอย่างเป็นทางการ คำถาม (บางครั้ง) ที่คุณควรรู้คำตอบอยู่แล้ว (การกระจายข้อมูลของคุณมาจากไม่ตรงตามปกติ) แทนที่จะเป็นคำถามที่คุณต้องการคำตอบ


ตามที่ขอรหัสสำหรับการแสดงด้านบน ไม่มีอะไรเกี่ยวข้องกับแฟนซี:

z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])

opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));

ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)

for(i in 1:25) {
  qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
  qqline(xz[,i],col=2,lty=2)
  box("figure", col="darkgreen")
  text(-1.5,ytpos[i],cn[i])
}

par(opar)

โปรดทราบว่านี่เป็นเพียงเพื่อวัตถุประสงค์ในการภาพประกอบ ฉันต้องการชุดข้อมูลขนาดเล็กที่ดูไม่ธรรมดาซึ่งเป็นสาเหตุที่ฉันใช้ส่วนที่เหลือจากการถดถอยเชิงเส้นของข้อมูลรถยนต์ (โมเดลไม่เหมาะสมมาก) อย่างไรก็ตามถ้าฉันสร้างจอแสดงผลสำหรับชุดของการตกต่ำสำหรับการถดถอยฉันจะถอยหลังชุดข้อมูลทั้ง 25ชุดในเดียวกันในรุ่นและแสดง QQ แปลงของส่วนที่เหลือเนื่องจากส่วนที่เหลือมี โครงสร้างไม่แสดงในตัวเลขสุ่มปกติx

(ฉันได้จัดทำแผนเช่นนี้มาตั้งแต่ช่วงกลางยุค 80 อย่างน้อยคุณจะตีความพล็อตได้อย่างไรถ้าคุณไม่คุ้นเคยกับพฤติกรรมที่พวกเขาทำเมื่อมีการตั้งสมมติฐาน - และเมื่อพวกเขาไม่ทำ?)

ดูเพิ่มเติม:

Buja, A. , Cook, D. Hofmann, H. , Lawrence, M. Lee, E.-K. , Swayne, DF และ Wickham, H. (2009) การอนุมานทางสถิติสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจและการวินิจฉัยแบบจำลอง Phil. ทรานส์ ร. A 2009 367, 4361-4383 ดอย: 10.1098 / rsta.2009.0120


8
+1 ฉันชอบไอเดียที่จะเปรียบเทียบ QQ-plot ของตัวอย่างของคุณกับตัวอย่างที่สร้างแบบสุ่ม!
COOLSerdash

ขอบคุณ @Glen_b ฉันขอถามคุณว่าคุณสร้างตารางของกราฟได้อย่างไร
greymatter0

3
ฉันเพิ่งค้นพบว่าฉันไม่เคยตอบคำขอของคุณ greymatter0 ไม่มีที่ว่างพอที่จะวางสคริปต์ทั้งหมดของฉัน แต่ฉันจะเขียนเนื้อเรื่องของมัน ฉันเล่นกับตัวเลือกการพล็อต - opar=par(); par(mfrow=c(5,5)); par(mar=c(0.5,0.5,0.5,0.5)); par(oma=c(1,1,1,1))จากนั้นก็วนซ้ำที่iฉันทำqqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main=""); qqline(xz[,i],col=2,lty=2); box("figure", col="darkgreen")ในตอนท้ายpar(opar)เพื่อตั้งค่าตัวเลือกกลับไปเป็นสิ่งที่พวกเขาก่อน นั่นทำให้รายละเอียดบางอย่างหมดไป แต่คุณน่าจะจัดการได้
Glen_b

@ greymatter0 ... และตอนนี้ฉันค้นพบว่าฉันไม่ได้ ping คุณอย่างถูกต้องมาก่อนในที่สุดเมื่อฉันตอบไม่ได้ ขอโทษด้วย.
Glen_b

ไม่ต้องกังวล Glen_b ขอบคุณมากสำหรับการจดจำ!
greymatter0

22

โดยไม่ขัดแย้งกับคำตอบที่ยอดเยี่ยมใด ๆ ที่นี่ฉันมีหนึ่งกฎง่ายๆซึ่งมักจะ (แต่ไม่เสมอไป) เด็ดขาด (ความคิดเห็นที่ส่งผ่านในคำตอบของ @Dante ก็มีความเกี่ยวข้องเช่นกัน)

บางครั้งดูเหมือนชัดเจนเกินไปที่จะระบุ แต่ที่นี่คุณอยู่

ฉันยินดีที่จะเรียกการแจกแจงที่ไม่ธรรมดาถ้าฉันคิดว่าฉันสามารถเสนอคำอธิบายที่เหมาะสมกว่าได้ชัดเจนกว่า

ดังนั้นหากมีความโค้งเล็กน้อยและ / หรือความผิดปกติในส่วนหางของควอนตัม - ควอนไทน์แบบปกติ แต่ความตรงโดยประมาณของพล็อตเชิงควอนตัมแบบควอนตัมฉันสามารถพูดได้ว่า "ไม่โดดเด่นเหมือนปกติ "

มันไม่ได้เกิดอุบัติเหตุเลยที่เสียงสะท้อนนี้เป็นข้อโต้แย้งมาตรฐานในประวัติศาสตร์และปรัชญาของวิทยาศาสตร์ไม่พูดถึงการฝึกฝนทางวิทยาศาสตร์ทั่วไปว่าสมมติฐานนั้นชัดเจนที่สุดและมีประสิทธิภาพเมื่อคุณมีที่ที่ดีกว่า (คิว: การพาดพิงถึง Karl Popper, Thomas S. Kuhn และอื่น ๆ )

มันเป็นความจริงที่สำหรับผู้เริ่มต้นและแน่นอนสำหรับทุกคนมีการไล่ระดับที่ราบรื่นระหว่าง "นั่นเป็นเรื่องปกติยกเว้นความผิดปกติเล็ก ๆ น้อย ๆ ที่เราคาดหวังเสมอ" และ "นั่นแตกต่างจากปกติมากยกเว้นความคล้ายคลึงกันเล็กน้อยที่เรามักจะได้รับ "

ความมั่นใจ (เหมือน) ซองจดหมายและตัวอย่างที่จำลองขึ้นมาหลายอย่างสามารถช่วยได้มากและฉันก็ใช้และแนะนำทั้งสองอย่าง แต่ก็มีประโยชน์เช่นกัน (โดยบังเอิญการเปรียบเทียบกับผลงานจำลองเป็นสิ่งประดิษฐ์ซ้ำแล้วซ้ำอีกเมื่อเร็ว ๆ นี้ แต่กลับอย่างน้อยเท่าที่ Shewhart ในปี 1931)

ฉันจะสะท้อนบรรทัดบนสุดของฉัน บางครั้งการกระจายชื่อแบรนด์ไม่ปรากฏเลยและคุณต้องก้าวไปข้างหน้าอย่างดีที่สุดเท่าที่จะทำได้


12

เช่น @Glen_b กล่าวว่าคุณสามารถเปรียบเทียบข้อมูลของคุณกับข้อมูลที่คุณแน่ใจว่าเป็นเรื่องปกติ - ข้อมูลที่คุณสร้างขึ้นเองแล้วพึ่งพาความรู้สึกของคุณ :)

ต่อไปนี้เป็นตัวอย่างจากตำราเรียนOpenIntro Statistics

ลองมาดูที่ QQ Plot นี้:

qq1

เป็นเรื่องปกติหรือไม่ ลองเปรียบเทียบกับข้อมูลที่กระจายแบบปกติ:

qq2

อันนี้ดูดีกว่าข้อมูลของเราดังนั้นข้อมูลของเราดูไม่ปกติ ตรวจสอบให้แน่ใจด้วยการจำลองหลาย ๆ ครั้งและวางแผนทีละด้าน

qq3

ดังนั้นความรู้สึกของลำไส้ของเราบอกเราว่าตัวอย่างไม่น่าจะกระจายตามปกติ

นี่คือรหัส R เพื่อทำสิ่งนี้

load(url("http://www.openintro.org/stat/data/bdims.RData"))
fdims = subset(bdims, bdims$sex == 0)

qqnorm(fdims$wgt, col=adjustcolor("orange", 0.4), pch=19)
qqline(fdims$wgt)

qqnormsim = function(dat, dim=c(2,2)) {
  par(mfrow=dim)
  qqnorm(dat, col=adjustcolor("orange", 0.4), 
         pch=19, cex=0.7, main="Normal QQ Plot (Data)")
  qqline(dat)
  for (i in 1:(prod(dim) - 1)) {
    simnorm = rnorm(n=length(dat), mean=mean(dat), sd=sd(dat))
    qqnorm(simnorm, col=adjustcolor("orange", 0.4), 
           pch=19, cex=0.7,
           main="Normal QQ Plot (Sim)")
    qqline(simnorm)
  }
  par(mfrow=c(1, 1))
}
qqnormsim(fdims$wgt)

9

มีการทดสอบตามปกติมากมาย หนึ่งมักจะมุ่งเน้นไปที่สมมติฐานว่างคือ " " อย่างไรก็ตามมีการให้ความสนใจเพียงเล็กน้อยกับสมมติฐานทางเลือก : "ต่อต้านอะไร"?H0:F=Normal

โดยทั่วไปแล้วการทดสอบที่พิจารณาการกระจายตัวอื่น ๆ ในฐานะสมมติฐานทางเลือกมีพลังงานต่ำเมื่อเทียบกับการทดสอบกับสมมติฐานทางเลือกที่ถูกต้อง (ดูตัวอย่าง1และ2 )

มีแพ็กเกจ R ที่น่าสนใจพร้อมการใช้งานการทดสอบทั่วไปแบบ nonparametric หลายรายการ ('nortest', http://cran.r-project.org/web/packages/nortest/index.html) ดังที่กล่าวไว้ในเอกสารข้างต้นการทดสอบอัตราส่วนความน่าจะเป็นซึ่งมีสมมติฐานทางเลือกที่เหมาะสมนั้นมีประสิทธิภาพมากกว่าการทดสอบเหล่านี้

แนวคิดที่กล่าวถึงโดย @Glen_b เกี่ยวกับการเปรียบเทียบตัวอย่างของคุณกับตัวอย่างแบบสุ่มจากแบบจำลอง (ติดตั้ง) ของคุณถูกกล่าวถึงในการอ้างอิงครั้งที่สองของฉัน พวกเขาถูกเรียกว่า "QQ-Envelopes" หรือ "QQ-Fans" สิ่งนี้โดยปริยายต้องมีแบบจำลองเพื่อสร้างข้อมูลจากและดังนั้นจึงเป็นสมมติฐานทางเลือก


4

เมื่อสอนหลักสูตรกลยุทธ์การสร้างแบบจำลองการถดถอยของฉันหัวข้อนี้มักจะทำให้นักเรียนของฉันและฉันลำบาก ฉันบอกพวกเขาว่าการประเมินเชิงกราฟิกของเรามักจะเป็นอัตนัยและฉันมักจะกังวลเกี่ยวกับกราฟในช่วงต้นของวันกว่าตอนที่ฉันเหนื่อย เพิ่มการทดสอบทางสถิติอย่างเป็นทางการไม่ได้ช่วยให้พอ: การทดสอบสามารถเลือกขึ้นเล็กน้อยที่ไม่ปกติสำหรับขนาดตัวอย่างมีขนาดใหญ่มากและพลาดสิ่งสำคัญที่ไม่ปกติสำหรับขนาดเล็กและnผมชอบใช้วิธีการที่ไม่ถือว่าปกติที่มีประสิทธิภาพเช่นการถดถอยลำดับอย่างต่อเนื่องYYnY


1
+1 หากคุณมี @Franck ห้านาทีคุณสามารถดูที่หัวข้อนี้: stats.meta.stackexchange.com/questions/4743และชั่งน้ำหนักในนั้นได้หรือไม่ มันเกี่ยวกับแท็กของเราสำหรับลำดับ / logit / probit - มีทั้งกลุ่มหรือแท็กที่เกี่ยวข้องและความไม่สอดคล้องกันในการใช้แท็ก [ordinal] ดังนั้นฉันแนะนำให้จัดระเบียบแท็กเหล่านี้ให้เป็นระเบียบ มันจะเป็นการดีที่ได้ทราบความคิดเห็นของคุณเกี่ยวกับวิธีที่ดีที่สุดในการจัดระเบียบพวกเขา
อะมีบาพูดว่า Reinstate Monica

1
เริ่มต้นด้วยการโพสต์เกี่ยวกับ RMS ที่ออมกับฟังก์ชั่นตัวอย่างสำหรับต่อเนื่องYไม่พบในขณะนี้ ...Y
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.