ความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายในการถดถอยพหุคูณ


10

ฉันกำลังอ่านบทการถดถอยหลายบทของการวิเคราะห์ข้อมูลและกราฟิกโดยใช้ R: วิธีการแบบอิงตัวอย่างและสับสนเล็กน้อยที่พบว่ามันแนะนำให้ตรวจสอบความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบาย (ใช้แบบกระจาย) และในกรณีที่เกิดขึ้น ' t ใด ๆ เปลี่ยนพวกเขาจึงไม่กลายเป็นที่เกี่ยวข้องกับเส้นตรง นี่คือข้อความที่ตัดตอนมาบางส่วนของนี้:

6.3 กลยุทธ์สำหรับการปรับโมเดลการถดถอยหลายแบบ

( ... )

ตรวจสอบ scatterplot matrix ที่เกี่ยวข้องกับตัวแปรอธิบายทั้งหมด (รวมถึงตัวแปรตามคือ ณ ตอนนี้ทางเลือก ) มองหาหลักฐานของการไม่เป็นเชิงเส้นในแปลงของตัวแปรอธิบายซึ่งกันและกัน

( ... )

จุดนี้จะระบุกลยุทธ์รูปแบบการค้นหา - แสวงหารูปแบบซึ่งในความสัมพันธ์ระหว่างตัวแปรถดถอยอธิบายตาม "ง่าย" รูปแบบเชิงเส้น ดังนั้นถ้าบางแปลงคู่แสดงหลักฐานของการไม่เชิงเส้นพิจารณาการใช้ของการเปลี่ยนแปลง (s) เพื่อให้มากขึ้นเกือบเชิงเส้นความสัมพันธ์ แม้ว่ามันอาจจะไม่สามารถพิสูจน์ได้ว่าเป็นไปได้ตามกลยุทธ์นี้เพื่อสร้างแบบจำลองความสัมพันธ์การถดถอยอย่างเพียงพอ แต่นี่เป็นกลยุทธ์ที่ดีสำหรับเหตุผลที่ให้ไว้ด้านล่างเพื่อติดตามในการเริ่มการค้นหา

( ... )

หากความสัมพันธ์ระหว่างตัวแปรอธิบายเป็นเส้นตรงประมาณบางทีหลังจากการเปลี่ยนแปลงมันก็เป็นไปได้ที่จะตีความแปลงของตัวแปรทำนายกับตัวแปรตอบสนองด้วยความมั่นใจ

( ... )

อาจไม่สามารถค้นหาการเปลี่ยนแปลงของตัวแปรอธิบายอย่างน้อยหนึ่งตัวที่รับรองความสัมพันธ์ (คู่) ที่แสดงในพาเนลปรากฏเป็นเส้นตรง สิ่งนี้สามารถสร้างปัญหาได้ทั้งสำหรับการตีความแผนการวินิจฉัยสำหรับสมการการถดถอยที่เหมาะสมและการตีความสัมประสิทธิ์ในสมการที่พอดี ดู Cook และ Weisberg (1999)

ฉันไม่ควรกังวลเกี่ยวกับความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรตาม (เพราะความเสี่ยงต่อความหลากสี) แทนที่จะติดตามพวกเขาอย่างกระตือรือร้น? อะไรคือข้อดีของการมีตัวแปรที่เกี่ยวข้องเชิงเส้นประมาณ?

ผู้เขียนจะจัดการกับปัญหาของความหลากสีในภายหลังในบทนี้ แต่คำแนะนำนี้ดูเหมือนจะขัดแย้งกับการหลีกเลี่ยงความไม่ลงรอยกัน

คำตอบ:


8

มีสองจุดที่นี่:

  1. ข้อความแนะนำให้เปลี่ยน IV ให้เป็นเชิงเส้นก็ต่อเมื่อมีหลักฐานของความไม่เชิงเส้น ความสัมพันธ์ที่ไม่เป็นเชิงเส้นตรงในกลุ่ม IV ยังสามารถทำให้เกิดความเหลื่อมล้ำกันและอาจทำให้ความสัมพันธ์อื่น ๆ มีความซับซ้อนมากขึ้น ฉันไม่แน่ใจว่าฉันเห็นด้วยกับคำแนะนำในหนังสือ แต่ก็ไม่ได้โง่

  2. แน่นอนว่าความสัมพันธ์เชิงเส้นที่แข็งแกร่งมากอาจเป็นสาเหตุของการเกิดคอลลิเนียริตี้ แต่ความสัมพันธ์ที่สูงนั้นไม่จำเป็นและไม่เพียงพอที่จะทำให้คอลิเนียริตี้ที่มีปัญหา วิธีการวินิจฉัย collinearity ที่ดีคือดัชนีเงื่อนไข

แก้ไขในการตอบกลับความคิดเห็น

ดัชนีเงื่อนไขมีการอธิบายสั้น ๆที่นี่เป็น "รากที่สองของค่าลักษณะเฉพาะสูงสุดหารด้วยค่าลักษณะเฉพาะขั้นต่ำ" มีโพสต์ใน CVที่พูดถึงพวกเขาและข้อดีของพวกเขา ตำราน้ำเชื้อของพวกเขาคือหนังสือสองเล่มโดย David Belsley: การวินิจฉัยการปรับอากาศและการวินิจฉัยการถดถอย (ซึ่งมีฉบับใหม่ปี 2005 เช่นกัน)


1
+1 - คำตอบที่ดี แต่คุณสามารถขยายดัชนีเงื่อนไขได้หรือไม่ ฉันยังไม่ได้หาวิธีการที่น่าพอใจในการจัดการกับ collinearity ในตัวแปรอธิบายผู้สมัคร
BGreene

ขอบคุณสำหรับคำตอบที่ให้ข้อมูล คุณช่วยอธิบายรายละเอียดเกี่ยวกับความสัมพันธ์อื่น ๆ ที่ซับซ้อนโดยการไม่เป็นเชิงเส้นระหว่าง expl ตัวแปร? และคุณทำในสิ่งที่ผู้เขียนกำลังพูดถึงเมื่อพวกเขาพูดว่าความสัมพันธ์แบบไม่เชิงเส้นระหว่าง expl ตัวแปรสามารถทำให้เกิดปัญหากับการตีความของค่าสัมประสิทธิ์และแปลงวินิจฉัยหรือไม่
RicardoC

ฉันไม่สามารถหาตัวอย่างได้ในขณะนี้ แต่ฉันเห็นว่ามันเกิดขึ้น ดูเหมือนว่ามีความสัมพันธ์แบบไม่เป็นเชิงเส้นระหว่าง Y และ X
Peter Flom

3

ความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายแต่ละตัวกับตัวแปรตามจะช่วยให้แน่ใจว่าความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบาย การย้อนกลับไม่เป็นความจริงแน่นอน

มันเป็นความจริงที่การแปลงสภาพที่ออกแบบมาเพื่อให้ความเป็นเส้นตรงโดยประมาณจะเพิ่มความเป็นเส้นตรง อย่างไรก็ตามในกรณีที่ไม่มีการเปลี่ยนแปลงเช่นนั้นความ collinearity จะถูกซ่อนไว้ การยืนยันในการรักษาความหนาแน่นของไข่มุกจึงซ่อนอยู่อาจส่งผลให้เกิดสมการถดถอยที่ซับซ้อนและไม่สามารถตีความได้ซึ่งมีรูปแบบสมการที่ง่าย

สมมติว่าyใกล้กับฟังก์ชั่นเชิงเส้นของlog(x1)ในกรณีที่xช่วงมากกว่าค่าที่แตกต่างกันโดยปัจจัย 10 หรือมากกว่า จากนั้นหากxใช้เป็น regressor ตัวแปรอธิบายอื่น ๆ จะถูกเรียกใช้เพื่ออธิบายความไม่เชิงเส้นในความสัมพันธ์กับ x1 ผลลัพธ์อาจเป็นความสัมพันธ์การถดถอยที่ซับซ้อนมากโดยมีค่าสัมประสิทธิ์ที่ไม่สามารถตีความได้แทนรูปแบบง่าย ๆ ของสมการการถดถอยที่รวบรวมพลังการอธิบายที่มีอยู่ทั้งหมด

ผลสืบเนื่องที่แปลกประหลาดซึ่งอาจเป็นผลมาจากความล้มเหลวในการค้นหาและทำงานกับตัวแปรเชิงเส้นตรงที่แสดงไว้ในบทความล่าสุดที่อ้างถึงความอ่อนแอของชื่อพายุเฮอริเคนที่มีผลต่อข้อมูลเกี่ยวกับการเสียชีวิตจากพายุเฮอริเคนแอตแลนติก 94 ครั้ง ดูhttp://www.pnas.org/content/111/24/8782.abstract ข้อมูลที่มีอยู่เป็นส่วนหนึ่งของข้อมูลเสริม โปรดทราบว่าการทำงานกับlog(deaths)และใช้โมเดลเชิงเส้นของทฤษฎี normaL (ฟังก์ชันของ R lm()) นั้นเทียบเท่ากับการใช้แบบจำลองการถดถอยแบบทวินามเชิงลบของ Jung et al

หากหนึ่งในเอ็มlog(E[deaths])บนlog(NDAM)มีอะไรเหลือสำหรับตัวแปรความดันต่ำสุดตัวแปร femaleness และปฏิสัมพันธ์ที่จะอธิบาย ตัวแปรlog(NDAM)ไม่NDAMปรากฏในเมทริกซ์กระจายที่เกี่ยวข้องเชิงเส้นกับตัวแปรแรงดันต่ำสุด การกระจายตัวของมันยังน้อยกว่ามากและใกล้เคียงกับสมมาตรมาก

Jung et al, ถดถอยlog(E[deaths])ในNDAM(ความเสียหายปกติ) บวกตัวแปรอื่น ๆ เหล่านั้นและการมีปฏิสัมพันธ์ สมการที่เกิดขึ้นนั้นถูกใช้เพื่อบอกเล่าเรื่องราวที่ความเป็นหญิงของชื่อมีผลขนาดใหญ่

เพื่อดูวิธีการที่แปลกประหลาดก็คือการใช้NDAMเป็นตัวแปรที่อธิบายในการถดถอยที่ตัวแปรผลเป็นlog(E[deaths])พล็อตlog(deaths+0.5)หรือต่อต้านlog(deaths+1) NDAMจากนั้นทำซ้ำพล็อตที่มีในสถานที่ของlog(NDAM) NDAMความคมชัดยิ่งกว่านี้หากแคทรีนาและออเดรย์ซึ่งจองและอัลซึ่งไม่ได้รับการรวมไว้ในพล็อต โดยยืนยันที่จะใช้NDAMเป็นตัวแปรอธิบายแทนที่จะlog(NDAM)จองและคณะได้พบโอกาสในการหาความสัมพันธ์แบบถดถอยอย่างง่าย

NB ที่E[deaths]เป็นจำนวนผู้เสียชีวิตที่ทำนายโดยแบบจำลอง

ในข้อมูล Jung et al การแปลงที่ต้องการสามารถระบุได้จากเมทริกซ์กระจายของตัวแปรทั้งหมด ลองอาจจะเป็นฟังก์ชั่น R spm()ในรุ่นล่าสุดของแพคเกจรถสำหรับ R ด้วยtransform=TRUEและ (กับเป็นตัวแปร)deaths family="yjPower"หรือทดลองกับการแปลงที่แนะนำโดยเมทริกซ์การกระจายเริ่มต้น invTranPlot()โดยทั่วไปคำแนะนำที่แนะนำอาจจะดูครั้งแรกสำหรับการอธิบายตัวแปรที่ตอบสนองความต้องการทำนายเชิงเส้นแล้วเข้าร่วมกับตัวแปรผลที่ได้อาจจะใช้ฟังก์ชั่นรถ

ดูเพิ่มเติมจาก "การวิเคราะห์ข้อมูลและกราฟิกโดยใช้ R" ที่ผู้อ้างอิงอ้างถึง:

  • Weisberg: การถดถอยเชิงเส้นประยุกต์ 4th edn, Wiley 2014, pp.185-203
  • ฟ็อกซ์และไวส์เบิร์ก: คู่หูอาร์เพื่อการถดถอยประยุกต์ 2nd edn, Sage, 2011, pp.127-148

1

ฉันพบข้อความทั้งหมดนี้ค่อนข้างเป็นความลับหากไม่เป็นปัญหาอย่างจริงจัง ตามหลักการแล้วคุณต้องการให้ตัวแปรอิสระของคุณไม่ถูกแยกจากกันมากที่สุดเท่าที่จะทำได้เพื่อให้ข้อมูลที่เพิ่มขึ้นและเพิ่มเติมให้กับตัวแบบในการประมาณค่าตัวแปรตาม คุณยกประเด็นเรื่องความหลากสีผ่านความสัมพันธ์สูงระหว่างตัวแปรอิสระและคุณมีสิทธิ์อย่างเต็มที่ที่จะหยิบยกประเด็นนั้นขึ้นมาในสถานการณ์นี้

การตรวจสอบพล็อตกระจายและความสัมพันธ์เชิงเส้นที่เกี่ยวข้องระหว่างตัวแปรอิสระแต่ละตัวและตัวแปรตามนั้นมีความสำคัญมากกว่า แต่ไม่ได้อยู่ระหว่างตัวแปรอิสระ เมื่อดูที่แผนการกระจายดังกล่าว (เป็นอิสระในแกน X และขึ้นอยู่กับแกน Y) ในเวลาดังกล่าวอาจมีโอกาสที่จะเปลี่ยนตัวแปรอิสระเพื่อสังเกตแบบที่ดีขึ้นไม่ว่าจะผ่านบันทึกหรือเลขชี้กำลังหรือรูปแบบพหุนาม


1
ในประโยคที่ 2 ของคุณ: หากตัวแปรอิสระไม่มีการเชื่อมโยงกันอย่างสมบูรณ์เหตุผลในการถดถอยจะกลายเป็นสิ่งที่สงสัย ความสัมพันธ์แบบแยกคู่ของผู้ทำนายกับ Y จะปรากฏขึ้นเช่นเดียวกับความสัมพันธ์เมื่อมีการควบคุมตัวทำนายอื่นทั้งหมด ในกรณีนั้นทำไมต้องมีการควบคุม
rolando2
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.