@NickCox ทำงานได้ดีพูดคุยเกี่ยวกับการแสดงของเหลือเมื่อคุณมีสองกลุ่ม ให้ฉันตอบคำถามที่ชัดเจนบางอย่างและข้อสรุปโดยนัยที่อยู่เบื้องหลังหัวข้อนี้
คำถามถามว่า "คุณจะทดสอบสมมติฐานของการถดถอยเชิงเส้นเช่น homoscedasticity อย่างไรเมื่อตัวแปรอิสระเป็นไบนารี?" คุณมีรูปแบบการถดถอยหลายแบบ แบบจำลองการถดถอย (หลายรายการ) ถือว่ามีข้อผิดพลาดเพียงคำเดียวเท่านั้นซึ่งมีค่าคงที่ทุกที่ มันไม่มีความหมายมากนัก (และคุณไม่มี) ในการตรวจสอบความแตกต่างระหว่างตัวทำนายแต่ละตัว นี่คือเหตุผลที่เมื่อเรามีรูปแบบการถดถอยหลายแบบเราจะวินิจฉัยความแตกต่างจากพล็อตของส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้ อาจเป็นพล็อตที่มีประโยชน์ที่สุดสำหรับจุดประสงค์นี้คือพล็อตสเกลตำแหน่ง (หรือที่เรียกว่า 'ระดับสเปรด') ซึ่งเป็นพล็อตของสแควร์รูทของค่าสัมบูรณ์ของค่าส่วนที่เหลือเทียบกับค่าที่คาดการณ์ เพื่อดูตัวอย่าง"ความแปรปรวนคงที่" ในแบบจำลองการถดถอยเชิงเส้นหมายความว่าอะไร?
ในทำนองเดียวกันคุณไม่จำเป็นต้องตรวจสอบยอดคงเหลือสำหรับตัวทำนายแต่ละตัวเพื่อหาค่านิยม (ฉันไม่ทราบด้วยซ้ำว่าจะใช้งานอย่างไร)
คุณสามารถทำอะไรกับแปลงของส่วนที่เหลือกับตัวทำนายแต่ละตัวเพื่อตรวจสอบว่าแบบฟอร์มการทำงานนั้นถูกระบุอย่างเหมาะสมหรือไม่ ตัวอย่างเช่นหากส่วนที่เหลือเป็นพาราโบลามีความโค้งของข้อมูลที่คุณพลาดไป หากต้องการดูตัวอย่างให้ดูที่พล็อตที่สองในคำตอบ @ Glen_b ของที่นี่: คุณภาพรูปแบบการตรวจสอบในการถดถอยเชิงเส้น อย่างไรก็ตามปัญหาเหล่านี้ใช้ไม่ได้กับตัวทำนายไบนารี
สำหรับสิ่งที่คุ้มค่าถ้าคุณมีตัวทำนายแบบหมวดหมู่เท่านั้นคุณสามารถทดสอบความแตกต่างแบบ heteroscedastic คุณแค่ใช้การทดสอบของ Levene ฉันพูดถึงที่นี่: ทำไมการทดสอบของ Levene ถึงความแตกต่างของความแปรปรวนมากกว่าอัตราส่วน F? ใน R คุณใช้? leveneTestจากแพ็คเกจรถยนต์
แก้ไข:เพื่อแสดงให้เห็นถึงจุดที่มองพล็อตของส่วนที่เหลือกับตัวแปรตัวทำนายส่วนบุคคลไม่ได้ดีขึ้นเมื่อคุณมีตัวแบบการถดถอยหลายแบบลองพิจารณาตัวอย่างนี้:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
คุณสามารถดูได้จากกระบวนการสร้างข้อมูลที่ไม่มีความแตกต่างแบบถาวร ลองตรวจสอบพล็อตที่เกี่ยวข้องของตัวแบบเพื่อดูว่าพวกมันบ่งบอกถึงความแตกต่างแบบ heteroscedasticity หรือไม่:
ไม่ไม่มีอะไรต้องกังวล อย่างไรก็ตามเรามาดูพล็อตของส่วนที่เหลือเทียบกับตัวแปรตัวทำนายเลขฐานสองแต่ละตัวเพื่อดูว่ามันมีความต่างกันตรงจุดหรือไม่:
อ๊ะดูเหมือนว่าอาจมีปัญหา เรารู้จากกระบวนการสร้างข้อมูลว่าไม่มีความแตกต่างกันอย่างแน่นอนและแผนการหลักในการสำรวจสิ่งนี้ไม่ได้แสดงอะไรเลยดังนั้นสิ่งที่เกิดขึ้นที่นี่ บางทีแปลงเหล่านี้จะช่วย:
x1
และx2
ไม่ได้เป็นอิสระจากกัน ยิ่งไปกว่านั้นการสังเกตที่x2 = 1
อยู่สุดขั้ว พวกเขามีความสามารถในการงัดแงะมากขึ้น อย่างไรก็ตามไม่มีความแตกต่างที่รุนแรง
ข้อความนำกลับบ้าน: ทางออกที่ดีที่สุดของคุณคือการวินิจฉัยความแตกต่างจากแผนการที่เหมาะสม (ส่วนที่เหลือเทียบกับพล็อตที่ติดตั้งและพล็อตระดับการแพร่กระจาย)