ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้
UPDATE
ฮิสโตแกรมอย่างง่ายของข้อมูล:
UPDATE
การทดสอบของ Shapiro-Wilk พูดว่า:
ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้
UPDATE
ฮิสโตแกรมอย่างง่ายของข้อมูล:
UPDATE
การทดสอบของ Shapiro-Wilk พูดว่า:
คำตอบ:
" การทดสอบแสดงให้เห็นว่ามันเป็นไปได้ว่ามีประชากรที่มีการกระจายตามปกติ. "
ไม่มี มันไม่ได้แสดงให้เห็นว่า
การทดสอบสมมติฐานไม่ได้บอกคุณว่ามีแนวโน้มว่าเป็นโมฆะ ในความเป็นจริงคุณสามารถเดิมพัน null นี้เป็นเท็จ
พล็อต QQ ไม่ได้ให้การบ่งชี้ที่ชัดเจนว่าไม่ใช่เรื่องธรรมดา อาจมีหางซ้ายสั้นกว่าที่คุณคาดไว้เล็กน้อย แต่มันก็ไม่สำคัญอะไรนัก
ฮิสโตแกรมตาม - อาจไม่พูดมากนัก มันยังบอกใบ้ที่หางซ้ายสั้นกว่าเล็กน้อย แต่ดูที่นี่
การกระจายประชากรของข้อมูลของคุณนั้นไม่ได้เป็นไปตามปกติ อย่างไรก็ตามพล็อต QQ แสดงให้เห็นว่าปกติอาจเป็นเรื่องที่ดีพอสมควร
หากขนาดตัวอย่างไม่เล็กเกินไปการขาดการปฏิเสธของชาปิโร่ - วิลก์อาจจะพูดเหมือนกันมาก
อัปเดต: การแก้ไขเพื่อรวมค่า p Shapiro-Wilk จริงเป็นสิ่งสำคัญเพราะในความเป็นจริงที่ระบุว่าคุณจะปฏิเสธค่า null ในระดับที่มีความหมายทั่วไป การทดสอบนั้นบ่งชี้ว่าข้อมูลของคุณไม่ได้กระจายตามปกติและความเบ้เล็กน้อยที่บ่งชี้โดยแปลงน่าจะเป็นสิ่งที่จะถูกหยิบขึ้นมาโดยการทดสอบ สำหรับขั้นตอนทั่วไปที่อาจสันนิษฐานกฎเกณฑ์ของตัวแปรเอง (ตัวอย่างหนึ่งการทดสอบ t-test เป็นสิ่งที่อยู่ในใจ) สิ่งที่ดูเหมือนว่าจะเป็นกลุ่มตัวอย่างที่มีขนาดใหญ่พอสมควร ทั้งหมด - หนึ่งในปัญหาของการทดสอบแบบพอดีคือมีแนวโน้มที่จะปฏิเสธเมื่อมันไม่สำคัญ (เมื่อขนาดของกลุ่มตัวอย่างมีขนาดใหญ่พอที่จะตรวจจับแบบไม่ธรรมดาบางอย่าง) ในทำนองเดียวกันพวกเขามีแนวโน้มที่จะล้มเหลวที่จะปฏิเสธเมื่อมันเป็นเรื่องสำคัญที่สุด (เมื่อขนาดตัวอย่างมีขนาดเล็ก)
หากมีการกระจายข้อมูลตามปกติคะแนนในพล็อต QQ-normal จะอยู่ในแนวเส้นตรง คุณสามารถเพิ่มบรรทัดนี้ให้กับพล็อต QQ ของคุณด้วยคำสั่งqqline(x)
ซึ่งx
เป็นเวกเตอร์ของค่า
ตัวอย่างของการแจกแจงแบบปกติและไม่ธรรมดา:
การแจกแจงแบบปกติ
set.seed(42)
x <- rnorm(100)
พล็อต QQ-normal พร้อมบรรทัด:
qqnorm(x); qqline(x)
ความเบี่ยงเบนจากเส้นตรงมีค่าน้อยที่สุด นี่บ่งชี้ว่าการแจกแจงแบบปกติ
ฮิสโตแกรม:
hist(x)
การแจกแจงแบบไม่ปกติ (แกมมา)
y <- rgamma(100, 1)
พล็อต QQ- ปกติ:
qqnorm(y); qqline(y)
จุดต่าง ๆ นั้นมีรูปร่างที่ชัดเจนมากกว่าเส้นตรง
ฮิสโตแกรมยืนยันความไม่ปกติ การกระจายไม่ใช่รูประฆัง แต่เบ้เชิงบวก (กล่าวคือจุดข้อมูลส่วนใหญ่อยู่ในครึ่งล่าง) ฮิสโทแกรมของการแจกแจงแบบปกติแสดงความถี่สูงสุดในศูนย์กลางของการแจกแจง
hist(y)
qqPlot
ฟังก์ชั่นในcar
แพ็คเกจ
เครื่องมือบางอย่างสำหรับการตรวจสอบความถูกต้องของข้อสันนิษฐานของความปกติใน R
library(moments)
library(nortest)
library(e1071)
set.seed(777)
x <- rnorm(250,10,1)
# skewness and kurtosis, they should be around (0,3)
skewness(x)
kurtosis(x)
# Shapiro-Wilks test
shapiro.test(x)
# Kolmogorov-Smirnov test
ks.test(x,"pnorm",mean(x),sqrt(var(x)))
# Anderson-Darling test
ad.test(x)
# qq-plot: you should observe a good fit of the straight line
qqnorm(x)
qqline(x)
# p-plot: you should observe a good fit of the straight line
probplot(x, qdist=qnorm)
# fitted normal density
f.den <- function(t) dnorm(t,mean(x),sqrt(var(x)))
curve(f.den,xlim=c(6,14))
hist(x,prob=T,add=T)
ในขณะที่คุณควรตรวจสอบด้วยสายตาว่าสัญชาตญาณของคุณตรงกับผลการทดสอบบางอย่างหรือไม่คุณไม่สามารถคาดหวังว่าสิ่งนี้จะเป็นเรื่องง่ายทุกครั้ง หากคนที่พยายามตรวจจับ Higgs Boson จะเชื่อมั่นในผลลัพธ์ของพวกเขาหากพวกเขาสามารถประเมินพวกเขาด้วยสายตาพวกเขาจะต้องมีตาที่คมชัดมาก
โดยเฉพาะอย่างยิ่งกับชุดข้อมูลขนาดใหญ่ (และโดยทั่วไปจะมีกำลังเพิ่มขึ้น) สถิติมีแนวโน้มที่จะเลือกความแตกต่างที่น้อยที่สุดแม้ว่าพวกเขาจะมองไม่เห็นด้วยตาเปล่าก็ตาม
ที่ถูกกล่าวว่า: สำหรับปรกติ QQ-plot ของคุณควรแสดงเป็นเส้นตรง: ฉันจะบอกว่ามันไม่ได้ มีโค้งงอที่ชัดเจนในหางและแม้ใกล้กลางมีความปั่นป่วนบางอย่าง สายตาฉันยังอาจยินดีที่จะพูด (ขึ้นอยู่กับเป้าหมายของการตรวจสอบปกติ) ข้อมูลนี้เป็นปกติ "พอสมควร"
อย่างไรก็ตามโปรดทราบ: เพื่อจุดประสงค์ส่วนใหญ่ที่คุณต้องการตรวจสอบความเป็นปกติคุณต้องใช้ความปกติของวิธีการแทนที่จะเป็นแบบปกติของการสังเกตดังนั้นทฤษฎีบทขีด จำกัด กลางอาจเพียงพอที่จะช่วยคุณได้ นอกจากนี้: ในขณะที่ภาวะปกติมักจะเป็นข้อสันนิษฐานที่คุณต้องตรวจสอบ "อย่างเป็นทางการ" การทดสอบจำนวนมากแสดงให้เห็นว่าค่อนข้างอ่อนไหวต่อการมีสมมติฐานนี้ที่ไม่เป็นจริง
ฉันชอบรุ่นที่ออกมาจากรถ 'R' ไลบรารี่ 'เพราะมันไม่เพียง แต่ให้ความสำคัญเท่านั้น แต่ยังทำให้เกิดความมั่นใจด้วย มันให้แนวทางที่เป็นภาพเพื่อช่วยยืนยันว่าพฤติกรรมของข้อมูลสอดคล้องกับการแจกแจงตามสมมติฐานหรือไม่
library(car)
qqPlot(lm(prestige ~ income + education + type, data=Duncan),
envelope=.99)
ลิงค์บางส่วน: