ฉันกำลังอ่านบทการถดถอยหลายบทของการวิเคราะห์ข้อมูลและกราฟิกโดยใช้ R: วิธีการแบบอิงตัวอย่างและสับสนเล็กน้อยที่พบว่ามันแนะนำให้ตรวจสอบความสัมพันธ์เชิงเส้นระหว่างตัวแปรอธิบาย (ใช้แบบกระจาย) และในกรณีที่เกิดขึ้น ' t ใด ๆ เปลี่ยนพวกเขาจึงไม่กลายเป็นที่เกี่ยวข้องกับเส้นตรง นี่คือข้อความที่ตัดตอนมาบางส่วนของนี้:
6.3 กลยุทธ์สำหรับการปรับโมเดลการถดถอยหลายแบบ
( ... )
ตรวจสอบ scatterplot matrix ที่เกี่ยวข้องกับตัวแปรอธิบายทั้งหมด (รวมถึงตัวแปรตามคือ ณ ตอนนี้ทางเลือก ) มองหาหลักฐานของการไม่เป็นเชิงเส้นในแปลงของตัวแปรอธิบายซึ่งกันและกัน
( ... )
จุดนี้จะระบุกลยุทธ์รูปแบบการค้นหา - แสวงหารูปแบบซึ่งในความสัมพันธ์ระหว่างตัวแปรถดถอยอธิบายตาม "ง่าย" รูปแบบเชิงเส้น ดังนั้นถ้าบางแปลงคู่แสดงหลักฐานของการไม่เชิงเส้นพิจารณาการใช้ของการเปลี่ยนแปลง (s) เพื่อให้มากขึ้นเกือบเชิงเส้นความสัมพันธ์ แม้ว่ามันอาจจะไม่สามารถพิสูจน์ได้ว่าเป็นไปได้ตามกลยุทธ์นี้เพื่อสร้างแบบจำลองความสัมพันธ์การถดถอยอย่างเพียงพอ แต่นี่เป็นกลยุทธ์ที่ดีสำหรับเหตุผลที่ให้ไว้ด้านล่างเพื่อติดตามในการเริ่มการค้นหา
( ... )
หากความสัมพันธ์ระหว่างตัวแปรอธิบายเป็นเส้นตรงประมาณบางทีหลังจากการเปลี่ยนแปลงมันก็เป็นไปได้ที่จะตีความแปลงของตัวแปรทำนายกับตัวแปรตอบสนองด้วยความมั่นใจ
( ... )
อาจไม่สามารถค้นหาการเปลี่ยนแปลงของตัวแปรอธิบายอย่างน้อยหนึ่งตัวที่รับรองความสัมพันธ์ (คู่) ที่แสดงในพาเนลปรากฏเป็นเส้นตรง สิ่งนี้สามารถสร้างปัญหาได้ทั้งสำหรับการตีความแผนการวินิจฉัยสำหรับสมการการถดถอยที่เหมาะสมและการตีความสัมประสิทธิ์ในสมการที่พอดี ดู Cook และ Weisberg (1999)
ฉันไม่ควรกังวลเกี่ยวกับความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรตาม (เพราะความเสี่ยงต่อความหลากสี) แทนที่จะติดตามพวกเขาอย่างกระตือรือร้น? อะไรคือข้อดีของการมีตัวแปรที่เกี่ยวข้องเชิงเส้นประมาณ?
ผู้เขียนจะจัดการกับปัญหาของความหลากสีในภายหลังในบทนี้ แต่คำแนะนำนี้ดูเหมือนจะขัดแย้งกับการหลีกเลี่ยงความไม่ลงรอยกัน