คุณควรทำการวินิจฉัยการถดถอยเชิงเส้นในลำดับใด


24

ในการวิเคราะห์การถดถอยเชิงเส้นเราวิเคราะห์ค่าผิดปกติตรวจสอบความสัมพันธ์หลายระดับทดสอบความแตกต่าง

คำถามคือ: มีคำสั่งให้ใช้สิ่งเหล่านี้หรือไม่? ฉันหมายความว่าเราต้องวิเคราะห์ค่าผิดปกติก่อนแล้วจึงตรวจสอบค่าความสัมพันธ์หลายระดับ? หรือย้อนกลับ

มีกฎของหัวแม่มือเกี่ยวกับเรื่องนี้หรือไม่?


2
กฎง่ายๆของข้อคร่าวๆบางข้อ: คุณควรตรวจสอบ collinearity ก่อนทำการปรับแต่งใด ๆ หากคุณพบว่ามีอยู่คุณควร (a) ใช้วิธีการที่ใช้ในการจัดการ collinearity (b) ลบคุณลักษณะ collinear หรือ (c) แปลงคุณสมบัติของคุณ (เช่นการใช้ PCA) เมื่อคุณติดตั้งแบบจำลองแล้วคุณสามารถมองหาความแตกต่างแบบถาวรในส่วนที่เหลือ โดยทั่วไปหากคุณสร้างแบบจำลองการทำนายคุณไม่ควรลบค่าผิดปกติ ให้ใช้วิธีที่มีความทนทานต่อการผิดปกติแทน
Chris Taylor

1
วิธีใดวิธีหนึ่งที่ดีที่สุดในการตรวจสอบ collinearity ดูองค์ประกอบนอกแนวทแยงของเมทริกซ์สหสัมพันธ์ของตัวทำนายหรือไม่
miura

1
วิธีที่ดีที่สุดในการตรวจสอบความเป็นคู่คือดัชนีสภาพและสัดส่วนของความแปรปรวนที่อธิบายโดยพวกเขา ความสัมพันธ์สูงไม่ใช่เงื่อนไขที่จำเป็นหรือเงื่อนไขที่เพียงพอสำหรับ collinearity
Peter Flom - Reinstate Monica

คำตอบ:


28

กระบวนการซ้ำแล้วซ้ำอีกแต่มีคำสั่งตามธรรมชาติ:

  1. คุณต้องกังวลแรกที่เกี่ยวกับเงื่อนไขที่ก่อให้เกิดข้อผิดพลาดในการคำนวณทันที Multicollinearity เป็นหนึ่งในนั้นเพราะมันสามารถสร้างระบบที่ไม่เสถียรของสมการที่อาจทำให้เกิดคำตอบที่ไม่ถูกต้อง (ถึง 16 ตำแหน่งทศนิยม ... ) ปัญหาใด ๆ ที่นี่มักจะหมายความว่าคุณไม่สามารถดำเนินการต่อไปจนกว่าจะได้รับการแก้ไข Multicollinearity มักจะได้รับการวินิจฉัยโดยใช้ Variance Inflation Factors และการตรวจสอบคล้ายกันของ "หมวกเมทริกซ์" การตรวจสอบเพิ่มเติมในขั้นตอนนี้อาจรวมถึงการประเมินอิทธิพลของค่าที่หายไปในชุดข้อมูลและตรวจสอบการระบุตัวตนของพารามิเตอร์ที่สำคัญ (การรวมตัวแปรอิสระแยกกันบางครั้งอาจทำให้เกิดปัญหาได้ที่นี่)

  2. ถัดไปคุณต้องกังวลว่าผลลัพธ์จะสะท้อนข้อมูลส่วนใหญ่หรือมีความอ่อนไหวต่อชุดย่อยขนาดเล็ก ในกรณีหลังทุกอย่างที่คุณทำในภายหลังอาจทำให้เข้าใจผิดดังนั้นจึงควรหลีกเลี่ยง ขั้นตอนรวมถึงการตรวจสอบค่าผิดปกติและการใช้ประโยชน์ (ตัวเลขที่มีเลเวอเรจสูงอาจไม่ใช่ค่าผิดปกติ แต่อาจมีผลต่อผลลัพธ์ทั้งหมดอย่างไม่เหมาะสม) หากมีทางเลือกที่ดีในกระบวนการถดถอยอยู่นี่เป็นเวลาที่เหมาะสมที่จะใช้: ตรวจสอบว่ามันให้ผลลัพธ์ที่คล้ายคลึงกัน ใช้มันเพื่อตรวจจับค่าที่อยู่ภายนอก

  3. สุดท้ายมีความสำเร็จสถานการณ์ที่เป็นตัวเลขที่มีเสถียรภาพ (เพื่อให้คุณสามารถไว้วางใจการคำนวณ) และซึ่งสะท้อนให้เห็นถึงชุดเต็มคุณหันไปตรวจสอบสมมติฐานทางสถิติที่จำเป็นสำหรับการตีความที่ถูกต้องของการส่งออก ข้อกังวลเหล่านี้ส่วนใหญ่มุ่งเน้นไปที่ลำดับความสำคัญอย่างคร่าวๆ - เกี่ยวกับการแจกแจงของส่วนที่เหลือ (รวมถึง heteroscedasticity, แต่ยังขยายไปถึงสมมาตร, รูปร่างการกระจาย, ความสัมพันธ์ที่เป็นไปได้กับค่าคาดการณ์หรือตัวแปรอื่น ๆ ความต้องการที่เป็นไปได้สำหรับเงื่อนไขการโต้ตอบ) ไม่ว่าจะเป็นการแสดงตัวแปรที่ต้องพึ่งพาอีกครั้งและจะแสดงตัวแปรอิสระอีกครั้งหรือไม่

ในทุกขั้นตอนหากจำเป็นต้องแก้ไขสิ่งใดสิ่งหนึ่งก็ควรที่จะกลับไปสู่จุดเริ่มต้น ทำซ้ำหลาย ๆ ครั้งตามที่จำเป็น


2
ฉันชอบใช้ดัชนีสภาพมากกว่า VIF ฉันทำวิทยานิพนธ์ของฉันเกี่ยวกับสิ่งเหล่านี้ในขณะที่กลับ
Peter Flom - Reinstate Monica

1
@ Peter เป็นจุดที่ดี ฉันชอบดัชนีสภาพเช่นกัน แต่สำหรับฉันแล้ว VIF นั้นเป็นที่นิยมมากในตอนนี้
whuber

เมื่อวานนี้ฉันได้ติดตามความคิดเห็นของคุณที่นี่ก่อนหน้านี้ ฉันเคยปรึกษากับนักสถิติในช่วงที่ทำการไปรษณีย์ของฉันเกี่ยวกับข้อกังวลบางประการเกี่ยวกับความหลากหลายทางชีวภาพ เขายอมรับมุมมองที่ว่าทั้งนี้ขึ้นอยู่กับลักษณะของ IVs ในการถดถอย collinearity อาจถูกพิจารณาว่าเป็นส่วนหนึ่งของปรากฏการณ์ที่มีโครงสร้าง ฉันอาจ mangling ภาษาที่แม่นยำของเขาและฉันจะต้องขุดเพื่อหาชื่อของเขาอีกครั้ง แต่คุณรู้ข้อความใด ๆ ที่จะกระตุ้นให้เหตุผลที่เหมาะสมยิ่งเกี่ยวกับความหลากหลายทางเชื้อชาติตามสายเหล่านี้? เพียงแค่ถามถึงโอกาส :)
Alexis

@Alexis ดูเหมือนว่านักสถิตินั้นมีแนวคิดที่ซับซ้อนและซับซ้อนของความสัมพันธ์อันหลากหลาย ฉันไม่สามารถนึกถึงตำราเรียนใด ๆ ที่แสดงให้เห็นอย่างชัดเจน
whuber

ฉันจะต้องติดตามเขาและถามเขาเกี่ยวกับเรื่องนี้ :)
Alexis

3

ฉันคิดว่ามันขึ้นอยู่กับสถานการณ์. หากคุณไม่คาดหวังปัญหาใด ๆ คุณสามารถตรวจสอบสิ่งเหล่านี้ได้ตามลำดับ หากคุณคาดว่าค่าผิดปกติและอาจมีเหตุผลที่จะลบออกหลังจากตรวจพบแล้วให้ตรวจสอบค่าผิดปกติก่อน ปัญหาอื่น ๆ ของตัวแบบอาจเปลี่ยนแปลงได้หลังจากลบข้อสังเกตออกไปแล้ว หลังจากนั้นลำดับความสัมพันธ์ระหว่างความหลากหลายทางชีวภาพและความสัมพันธ์แบบเฮเทอโรเซดนั้นไม่สำคัญ ฉันเห็นด้วยกับคริสว่าคนนอกไม่ควรถูกลบโดยพลการ คุณต้องมีเหตุผลที่จะคิดว่าการสังเกตนั้นผิด

แน่นอนว่าถ้าคุณสังเกตความหลากสีหรือความแตกต่างแบบเฮตโตคุณอาจต้องเปลี่ยนวิธีการของคุณ ปัญหาพหุเป็นที่สังเกตในเมทริกซ์ความแปรปรวน แต่มีการทดสอบการวินิจฉัยที่เฉพาะเจาะจงสำหรับการตรวจสอบพหุและปัญหาอื่น ๆ เช่นจุดงัดดูที่ถดถอยวินิจฉัยหนังสือโดยBelsley, Kuh และ Welschหรือหนึ่งในหนังสือถดถอยเดนนิสแม่ครัว


9
Michael ในอนาคตคุณสามารถใช้ตัวเลือกการจัดรูปแบบได้หรือไม่? (คีย์ที่ถูกต้องในการแทรกลิงก์คือ ctrl-l ไม่ใช่ ctrl-c)
603
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.