เป็นค่าเศษซากที่นักเรียนได้รับ v / s ที่เหลือเป็นค่ามาตรฐานในรูปแบบ lm


10

"เศษเหลือของนักเรียน" และ "เศษซากมาตรฐาน" เหมือนกันในแบบจำลองการถดถอยหรือไม่ ฉันสร้างแบบจำลองการถดถอยเชิงเส้นใน R และต้องการพล็อตกราฟของค่าติดตั้ง Studentized v / s ที่ติดตั้งไว้ แต่ไม่พบวิธีอัตโนมัติในการทำเช่นนี้ใน R

สมมติว่าฉันมีรูปแบบ

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

จากนั้นการใช้plot(lm.fit)ไม่ได้ให้พล็อตใด ๆ ของค่าเศษ Studentized เทียบกับค่าติดตั้ง แต่ยังให้ค่าพล็อตค่ามาตรฐานกับค่าที่ติดตั้ง

ฉันใช้plot(lm.fit$fitted.values,studres(lm.fit)แล้วมันจะพล็อตกราฟที่ต้องการดังนั้นเพียงแค่ต้องการยืนยันว่าฉันกำลังไปทางที่ถูกต้องและส่วนที่เหลือเป็นนักเรียนและมาตรฐานไม่ใช่สิ่งเดียวกัน หากพวกเขาแตกต่างกันโปรดให้คำแนะนำในการคำนวณพวกเขาและคำจำกัดความของพวกเขา ฉันค้นหาผ่านเน็ตและพบว่ามันสับสนเล็กน้อย


2
1 มันจะทำให้เกิดความสับสนเพราะ (ก) แน่นอนประเภทนี้เหลือ แต่แตกต่างกัน (ข) หน่วยงานที่แตกต่างกันไม่เห็นด้วยกับสิ่งที่จะเรียกพวกเขา! ตัวอย่างเช่นRคำศัพท์ตรงข้ามกับ Montgomery, Peck and Vining (ตำราเรียนการถดถอยยอดนิยมที่มีมานานกว่า 35 ปี) ดังนั้นระวังและให้แน่ใจว่าคุณศึกษาRเอกสารและถ้าจำเป็นซอร์สโค้ดของมันแทนที่จะพึ่งพาสิ่งที่คุณคิดว่าคำศัพท์หมายถึง
whuber

คำตอบ:


11

ไม่นักเรียนที่เหลือเป็นนักเรียนและของที่ได้มาตรฐานมีแนวคิดที่แตกต่างกัน (แต่เกี่ยวข้องกัน)

R ในความเป็นจริงไม่ให้ในตัวฟังก์ชั่นrstandard()และrstudent()เป็นเป็นส่วนหนึ่งของinfluence.measures แพคเกจในตัวเดียวกันมีฟังก์ชั่นที่คล้ายกันมากมายสำหรับการยกระดับระยะทางของ Cook และอื่น ๆrstudent()นั้นเหมือนกับMASS::studres()ที่คุณสามารถตรวจสอบได้ด้วยตัวเองดังนี้:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

มาตรฐานที่เหลืออยู่เป็นวิธีการประเมินข้อผิดพลาดสำหรับจุดข้อมูลเฉพาะซึ่งคำนึงถึงการใช้ประโยชน์ / อิทธิพลของจุดนั้น สิ่งเหล่านี้บางครั้งเรียกว่า

ri=eis(ei)=eiMSE(1hii)

แรงจูงใจที่อยู่เบื้องหลังมาตรฐานส่วนที่เหลือคือแม้ว่าตัวแบบของเราจะสันนิษฐานว่า homoscedasticity มีระยะข้อผิดพลาด iid ที่มีความแปรปรวนคงที่การกระจายตัวส่วนที่เหลือไม่สามารถ ผลรวมของเหลืออยู่เสมอว่าเป็นศูนย์ϵiN(0,σ2)ei

ส่วนที่เหลือของนักเรียนสำหรับจุดข้อมูลที่กำหนดใด ๆ จะถูกคำนวณจากแบบจำลองที่พอดีกับจุดข้อมูลอื่น ๆยกเว้นจุดที่มีปัญหา สิ่งเหล่านี้เรียกว่า "เศษเหลือของนักเรียนจากภายนอก", "ลบส่วนที่เหลือ" หรือ "เศษเหลือของ jackknifed"

ฟังดูยากที่จะคำนวณ ( ดูเหมือนว่าเราจะต้องพอดีกับรุ่นใหม่หนึ่งรุ่นสำหรับทุกจุด) แต่อันที่จริงมีวิธีคำนวณจากแบบจำลองดั้งเดิมโดยไม่ต้องแก้ไข หากค่ามาตรฐานที่เหลือคือแสดงว่าค่าส่วนที่เหลือของนักเรียนนั้นคือ :riti

ti=ri(nk2nk1ri2)1/2,

แรงจูงใจเบื้องหลังของนักเรียนตกค้างมาจากการใช้ในการทดสอบนอก หากเราสงสัยว่าจุดนั้นมีค่าผิดปกติมันก็จะไม่ถูกสร้างขึ้นจากตัวแบบที่สันนิษฐานโดยนิยาม ดังนั้นจึงเป็นความผิดพลาดซึ่งเป็นการละเมิดสมมติฐานที่จะรวมเอาค่าผิดพลาดในการปรับตัวของแบบจำลอง เศษของนักเรียนที่มีการใช้กันอย่างแพร่หลายในการตรวจหาค่าผิดปกติในทางปฏิบัติ

ส่วนที่เหลือของนักเรียนยังมีคุณสมบัติที่พึงประสงค์ซึ่งสำหรับแต่ละจุดข้อมูลการกระจายตัวของส่วนที่เหลือจะเป็นการแจกแจงแบบ t ของนักเรียนโดยสมมติว่ามีสมมติฐานปกติของรูปแบบการถดถอยเดิม (ส่วนที่เหลือมาตรฐานไม่ได้มีการกระจายที่ดี)

สุดท้ายเพื่อจัดการกับข้อกังวลใด ๆ ที่ห้องสมุด R อาจทำตามระบบการตั้งชื่อที่แตกต่างจากด้านบนเอกสาร Rระบุอย่างชัดเจนว่าพวกเขาใช้ "มาตรฐาน" และ "studentized" ในความหมายเดียวกับที่กล่าวไว้ข้างต้น

ฟังก์ชั่นrstandardและrstudentให้ส่วนที่เหลือมาตรฐานและ Studentized ตามลำดับ (สิ่งเหล่านี้ทำให้ค่าส่วนที่เหลือเป็นปกติอีกครั้งเพื่อให้มีความแปรปรวนของหน่วยโดยใช้การวัดโดยรวมและการปล่อยความแปรปรวนข้อผิดพลาดตามลำดับ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.