จะทำการวิเคราะห์ส่วนที่เหลือสำหรับตัวทำนายอิสระไบนารี / คู่ในการถดถอยเชิงเส้นได้อย่างไร?


11

ฉันกำลังดำเนินการถดถอยเชิงเส้นหลายครั้งด้านล่างใน R เพื่อทำนายผลตอบแทนของกองทุนที่จัดการ

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

GRI & MBA เท่านั้นที่นี่เป็นตัวทำนายแบบไบนารี / สองขั้ว ตัวพยากรณ์ที่เหลืออยู่จะต่อเนื่อง

ฉันใช้รหัสนี้เพื่อสร้างแปลงที่เหลือสำหรับตัวแปรไบนารี

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

คำถามของฉัน: ฉันรู้วิธีตรวจพล็อตที่เหลือสำหรับตัวทำนายอย่างต่อเนื่อง แต่คุณจะทดสอบสมมติฐานของการถดถอยเชิงเส้นเช่น homoscedasticity อย่างไรเมื่อตัวแปรอิสระเป็นไบนารี

แปลงที่เหลือ:

แปลงที่เหลือสำหรับ GR1 พล็อตที่เหลือสำหรับ MBA

คำตอบ:


8

@NickCox ทำงานได้ดีพูดคุยเกี่ยวกับการแสดงของเหลือเมื่อคุณมีสองกลุ่ม ให้ฉันตอบคำถามที่ชัดเจนบางอย่างและข้อสรุปโดยนัยที่อยู่เบื้องหลังหัวข้อนี้

คำถามถามว่า "คุณจะทดสอบสมมติฐานของการถดถอยเชิงเส้นเช่น homoscedasticity อย่างไรเมื่อตัวแปรอิสระเป็นไบนารี?" คุณมีรูปแบบการถดถอยหลายแบบ แบบจำลองการถดถอย (หลายรายการ) ถือว่ามีข้อผิดพลาดเพียงคำเดียวเท่านั้นซึ่งมีค่าคงที่ทุกที่ มันไม่มีความหมายมากนัก (และคุณไม่มี) ในการตรวจสอบความแตกต่างระหว่างตัวทำนายแต่ละตัว นี่คือเหตุผลที่เมื่อเรามีรูปแบบการถดถอยหลายแบบเราจะวินิจฉัยความแตกต่างจากพล็อตของส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้ อาจเป็นพล็อตที่มีประโยชน์ที่สุดสำหรับจุดประสงค์นี้คือพล็อตสเกลตำแหน่ง (หรือที่เรียกว่า 'ระดับสเปรด') ซึ่งเป็นพล็อตของสแควร์รูทของค่าสัมบูรณ์ของค่าส่วนที่เหลือเทียบกับค่าที่คาดการณ์ เพื่อดูตัวอย่าง"ความแปรปรวนคงที่" ในแบบจำลองการถดถอยเชิงเส้นหมายความว่าอะไร?

ในทำนองเดียวกันคุณไม่จำเป็นต้องตรวจสอบยอดคงเหลือสำหรับตัวทำนายแต่ละตัวเพื่อหาค่านิยม (ฉันไม่ทราบด้วยซ้ำว่าจะใช้งานอย่างไร)

คุณสามารถทำอะไรกับแปลงของส่วนที่เหลือกับตัวทำนายแต่ละตัวเพื่อตรวจสอบว่าแบบฟอร์มการทำงานนั้นถูกระบุอย่างเหมาะสมหรือไม่ ตัวอย่างเช่นหากส่วนที่เหลือเป็นพาราโบลามีความโค้งของข้อมูลที่คุณพลาดไป หากต้องการดูตัวอย่างให้ดูที่พล็อตที่สองในคำตอบ @ Glen_b ของที่นี่: คุณภาพรูปแบบการตรวจสอบในการถดถอยเชิงเส้น อย่างไรก็ตามปัญหาเหล่านี้ใช้ไม่ได้กับตัวทำนายไบนารี

สำหรับสิ่งที่คุ้มค่าถ้าคุณมีตัวทำนายแบบหมวดหมู่เท่านั้นคุณสามารถทดสอบความแตกต่างแบบ heteroscedastic คุณแค่ใช้การทดสอบของ Levene ฉันพูดถึงที่นี่: ทำไมการทดสอบของ Levene ถึงความแตกต่างของความแปรปรวนมากกว่าอัตราส่วน F? ใน R คุณใช้? leveneTestจากแพ็คเกจรถยนต์


แก้ไข:เพื่อแสดงให้เห็นถึงจุดที่มองพล็อตของส่วนที่เหลือกับตัวแปรตัวทำนายส่วนบุคคลไม่ได้ดีขึ้นเมื่อคุณมีตัวแบบการถดถอยหลายแบบลองพิจารณาตัวอย่างนี้:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

คุณสามารถดูได้จากกระบวนการสร้างข้อมูลที่ไม่มีความแตกต่างแบบถาวร ลองตรวจสอบพล็อตที่เกี่ยวข้องของตัวแบบเพื่อดูว่าพวกมันบ่งบอกถึงความแตกต่างแบบ heteroscedasticity หรือไม่:

ป้อนคำอธิบายรูปภาพที่นี่

ไม่ไม่มีอะไรต้องกังวล อย่างไรก็ตามเรามาดูพล็อตของส่วนที่เหลือเทียบกับตัวแปรตัวทำนายเลขฐานสองแต่ละตัวเพื่อดูว่ามันมีความต่างกันตรงจุดหรือไม่:

ป้อนคำอธิบายรูปภาพที่นี่

อ๊ะดูเหมือนว่าอาจมีปัญหา เรารู้จากกระบวนการสร้างข้อมูลว่าไม่มีความแตกต่างกันอย่างแน่นอนและแผนการหลักในการสำรวจสิ่งนี้ไม่ได้แสดงอะไรเลยดังนั้นสิ่งที่เกิดขึ้นที่นี่ บางทีแปลงเหล่านี้จะช่วย:

ป้อนคำอธิบายรูปภาพที่นี่

x1และx2ไม่ได้เป็นอิสระจากกัน ยิ่งไปกว่านั้นการสังเกตที่x2 = 1อยู่สุดขั้ว พวกเขามีความสามารถในการงัดแงะมากขึ้น อย่างไรก็ตามไม่มีความแตกต่างที่รุนแรง

ข้อความนำกลับบ้าน: ทางออกที่ดีที่สุดของคุณคือการวินิจฉัยความแตกต่างจากแผนการที่เหมาะสม (ส่วนที่เหลือเทียบกับพล็อตที่ติดตั้งและพล็อตระดับการแพร่กระจาย)


ขอบคุณ! สำหรับการถดถอยแบบเดียวกันฉันทำฉันพบว่า Residual Vs Y เป็น homoscedastic แต่เมื่อฉันตรวจสอบ Residual Vs tenure (อิสระ) มันเป็นรูปกรวย ดังนั้นฉันต้องทำการแปลงบางอย่างเพื่อแก้ไขให้ถูกต้อง? จากนั้นในบริบทนี้เพียงต้องการที่จะเข้าใจว่าทำไมคุณพูดถึงว่าการตรวจสอบตัวแปรอิสระที่เหลือ Vs ไม่จำเป็น?
GeorgeOfTheRF

@ mrcet007 คุณไม่ต้องการการแปลง หาก res vs fitted แสดงว่าไม่มีความแตกต่างอย่างรุนแรงคุณก็โอเค บางทีภาพประกอบอาจช่วยคุณได้ ฉันแก้ไขคำตอบเพื่อเพิ่มการสาธิต
gung - Reinstate Monica

คุณช่วยตรวจสอบลิงค์นี้people.duke.edu/~rnau/testing.htmได้ไหม มันบอกว่าตรวจสอบตัวแปรอิสระที่เหลือเช่นกัน เพียงแบ่งปันเพื่อการอภิปราย คุณสามารถแสดงความคิดเห็นเกี่ยวกับเรื่องนี้? สิ่งที่ฉันคิดคือเราต้องตรวจสอบทั้งค่าที่เหลือเทียบกับที่คาดการณ์ไว้และที่เหลือเทียบกับที่เป็นอิสระ homoscedasticity (ความแปรปรวนคงที่) ของข้อผิดพลาด (a) เมื่อเทียบกับเวลา (ในกรณีของข้อมูลอนุกรมเวลา) (b) เมื่อเทียบกับการคาดการณ์ (c) เมื่อเทียบกับตัวแปรอิสระใด ๆ
GeorgeOfTheRF

ความคิดเห็นของฉันคือฉันได้ให้ทั้งคุณด้วยเหตุผลที่คุณดูกราฟที่เหลือเทียบกับที่คาดการณ์ไว้เพื่อตรวจสอบ heteroscedasticity และแสดงให้คุณเห็นตัวอย่างของวิธีการดูกราฟที่เหลือ vs IV สามารถนำคุณออกนอกลู่นอกทาง ฉันไม่รู้จะพูดอะไรอีก
gung - Reinstate Monica

6

มันเป็นความจริงที่แผนการแปลงแบบเดิมนั้นทำงานหนักกว่าในกรณีนี้มันยากกว่ามากที่จะเห็นว่าการกระจายนั้นเหมือนกันหรือไม่ แต่มีทางเลือกง่าย ๆ ที่นี่ คุณเพิ่งเปรียบเทียบการแจกแจงสองแบบและมีวิธีที่ดีมากมายในการทำเช่นนั้น ความเป็นไปได้บางอย่างคือการแปลงควอไทล์แบบเคียงข้างหรือซ้อนทับฮิสโตแกรมหรือแปลงสี่เหลี่ยม อคติของฉันเองก็คือกล่องแปลงที่ไม่มีการตกแต่งมักใช้บ่อยเกินไปที่นี่: พวกเขามักจะระงับรายละเอียดที่เราควรจะดูแม้ว่าเราจะสามารถยกเลิกมันได้โดยไม่สำคัญ แต่คุณสามารถกินเค้กของคุณและมีมัน

คุณใช้ R แต่ไม่มีสถิติเชิงสถิติในคำถามของคุณเฉพาะ R ที่นี่ฉันใช้ Stata สำหรับการถดถอยของตัวทำนายเลขฐานสองเดียวจากนั้นยิงกล่องแปลงควอนไทล์เปรียบเทียบส่วนที่เหลือสำหรับสองระดับของตัวทำนาย ข้อสรุปที่เป็นประโยชน์ในตัวอย่างนี้คือการแจกแจงมีค่าเท่ากัน

ป้อนคำอธิบายรูปภาพที่นี่

1/43/4

หมายเหตุ: ดูเพิ่มเติมวิธีนำเสนอกล่องพล็อตที่มีค่าผิดปกติมาก รวมถึงตัวอย่างของ @ Glen_b เกี่ยวกับแปลงที่คล้ายกันโดยใช้ R การแปลงดังกล่าวควรเป็นเรื่องง่ายในซอฟต์แวร์ที่เหมาะสม หากไม่แสดงว่าซอฟต์แวร์ของคุณไม่เหมาะสม


+1 สวย คุณรู้สึกว่ามีบทบาทสำหรับการทดสอบสมมติฐานเกี่ยวกับส่วนที่เหลือที่นี่หรือไม่?
Alexis

@gung ฉันแก้ไขการแก้ไขของคุณ เอกสารต้นฉบับไม่ชัดเจนเพียงพอหากคุณเข้าใจผิด
Nick Cox

2
@Alexis ขอบคุณ! ฉันมีความสุขกับความคิดที่ว่าสมมติฐานของการกระจายที่เท่าเทียมกันได้รับการสนับสนุนอย่างไม่เป็นทางการจากกราฟในกรณีนี้ ฉันไม่ได้เป็นโรงเรียนแห่งความคิดว่าทุกขั้นตอนเล็ก ๆ ในการวิเคราะห์จำเป็นต้องได้รับการชำระให้บริสุทธิ์ด้วยค่า P น่าเสียดายที่มันไม่ง่ายเลยที่จะแน่ใจว่าคุณกระโดดไปทางที่ถูกต้อง แต่ในทางปฏิบัติฉันจะสร้างความบันเทิงให้กับนางแบบคนอื่น ๆ ด้วยเช่นกันถ้าฉันมีข้อสงสัย ตัวอย่างนี้เป็นเพียงการตั้งคำถามและไม่ใช่ส่วนหนึ่งของการวิเคราะห์ที่จริงจัง
Nick Cox

ขอโทษนะนิค ฉันเข้าใจจุดผิดของวลีนั้น ฉันคิดว่ามันเป็นตัวพิมพ์ผิด มันชัดเจนขึ้นแล้ว
gung - Reinstate Monica

1
@whuber ไม่เป็นไรโดยฉัน บางคนพบว่าพวกเขาสับสนหรือดังนั้นฉันก็บอก
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.