R: ทดสอบค่าปกติของส่วนที่เหลือของตัวแบบเชิงเส้น - ซึ่งส่วนที่เหลือที่จะใช้


13

ฉันต้องการทำการทดสอบ W ของ Shapiro Wilk และการทดสอบ Kolmogorov-Smirnov กับส่วนที่เหลือของแบบจำลองเชิงเส้นเพื่อตรวจสอบความเป็นไปได้ ฉันแค่สงสัยว่าสิ่งที่เหลือควรใช้สำหรับการนี้ - ส่วนที่เหลือดิบ, เพียร์สันที่เหลือ, นักเรียนที่เหลืออยู่หรือนักเรียนที่ได้มาตรฐาน? สำหรับการทดสอบ W ของ Shapiro-Wilk นั้นปรากฏว่าผลลัพธ์สำหรับส่วนที่เหลือและเพียร์สันดิบนั้นเหมือนกัน แต่ไม่ใช่สำหรับคนอื่น ๆ

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

คำถามเดียวกันสำหรับ KS และยังควรทดสอบว่ามีการแจกแจงปกติ (pnorm) เหมือนในหรือไม่

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

หรือการแจกแจงแบบ t-student ที่มีองศาอิสระ nk-2 เช่นเดียวกับใน

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

มีคำแนะนำอะไรบ้าง? นอกจากนี้ค่าที่แนะนำสำหรับสถิติทดสอบ W (> 0.9?) และ D คือเท่าใดเพื่อให้การแจกแจงใกล้เคียงกับเกณฑ์ปกติและไม่ส่งผลกระทบต่อการอนุมานของคุณมากเกินไป?

ในที่สุดวิธีนี้จะคำนึงถึงความไม่แน่นอนในสัมประสิทธิ์ lm ที่เหมาะสมหรือจะทำงานcumres()ในแพ็คเกจgof()ได้ดีกว่าในแง่นี้

เสียงไชโยทอม


9
เป็นการยากที่การทดสอบดังกล่าวจะมีประเด็นใด ๆ ถามตัวเองว่าคุณจะทำอะไรเป็นการเฉพาะหากสิ่งที่เหลืออยู่กลายเป็น "นัยสำคัญ" ที่ไม่ปกติ ประสบการณ์สอนให้คุณรู้ว่ามันขึ้นอยู่กับว่าพวกเขาแตกต่างจากภาวะปกติอย่างไรและเท่าใด ไม่มีการวัดโดยตรง (หรือเพียงพอ) โดย SW, KS หรือการทดสอบการกระจายแบบเป็นทางการอื่น ๆ สำหรับงานนี้คุณต้องการใช้กราฟิกเชิงสำรวจไม่ใช่การทดสอบที่เป็นทางการ คำถามที่เหลืออาจจะเหมาะสำหรับการวางแผนยังคงยืนอยู่ แต่คำถามที่เหลือตกไปตามทางที่ไม่เกี่ยวข้อง
whuber

ใช่ฉันสังเกตว่านักสถิติหลายคนสนับสนุนตำแหน่งนี้ แต่ฉันยังต้องการตรวจสอบสถิติการทดสอบของการทดสอบเหล่านี้ (เช่นตรวจสอบว่าค่าของ Shapiro Wilks W มากกว่า 0.9) และฉันสามารถทำการแปลง Box-Cox หรืออะไรทำนองนั้นเพื่อปรับปรุงความเป็นมาตรฐานในกรณีที่มีการเบี่ยงเบนขนาดใหญ่ พลัสคำถามของฉันก็ยังเป็นความคิดส่วนหนึ่ง - คือสิ่งที่จะเป็นวิธีที่ถูกต้องที่สุดในการทำเรื่องนี้แม้ว่าปกติจะไม่เสมอที่สำคัญในการปฏิบัติ ...
ทอม Wenseleers

คำตอบ:


9

เพิ่มความคิดเห็นนานเกินไป

  1. สำหรับรูปแบบการถดถอยปกติ (เช่นติดตั้งด้วยlm) จะไม่มีความแตกต่างระหว่างสองประเภทแรกที่คุณพิจารณา type="pearson"เกี่ยวข้องกับ GLMs ไม่ใช่แบบเกาส์ แต่เป็นเช่นเดียวกับresponseสำหรับรูปแบบเกาส์

  2. การสังเกตที่คุณใช้กับการทดสอบของคุณกับ (รูปแบบของเศษบางส่วน) นั้นไม่ขึ้นกับข้อมูลดังนั้นสถิติทั่วไปไม่มีการแจกแจงที่ถูกต้อง นอกจากนี้การพูดอย่างเคร่งครัดไม่มีสิ่งตกค้างใด ๆ ที่คุณพิจารณาว่าเป็นเรื่องปกติเพราะข้อมูลของคุณจะไม่ปกติ [การทดสอบที่เป็นทางการตอบคำถามที่ผิด - คำถามที่มีความเกี่ยวข้องมากกว่านั้นคือ 'สิ่งนี้จะไม่ส่งผลกระทบต่อการอนุมานของฉันมากแค่ไหน?' คำถามที่ไม่ได้รับคำตอบจากความดีปกติของการทดสอบสมมติฐานที่เหมาะสม]

  3. แม้ว่าข้อมูลของคุณจะเป็นปกติอย่างแน่นอนทั้งที่สามและสี่ชนิดที่เหลือจะเป็นปกติ อย่างไรก็ตามมันเป็นเรื่องธรรมดามากสำหรับคนที่จะตรวจสอบสิ่งเหล่านั้น (พูดโดยแผนการแปลง QQ) มากกว่าเศษซากดิบ

  4. คุณสามารถเอาชนะปัญหาบางอย่างใน 2 และ 3 (การพึ่งพาในส่วนที่เหลือเช่นเดียวกับที่ไม่ได้มาตรฐานในส่วนที่เหลือมาตรฐาน) โดยการจำลองเงื่อนไขในเมทริกซ์การออกแบบของคุณ ( ) ซึ่งหมายความว่าคุณสามารถใช้ (อย่างไรก็ตามคุณไม่สามารถจัดการกับ "การตอบคำถามที่ไม่ช่วยเหลือซึ่งคุณทราบแล้วว่าคำตอบของ" ปัญหานั้น)X

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.