เราควรกังวลเกี่ยวกับความหลากหลายเชิงเส้นเมื่อใช้โมเดลที่ไม่ใช่เชิงเส้นหรือไม่?


13

สมมติว่าเรามีปัญหาการจำแนกเลขฐานสองที่มีคุณสมบัติการจัดหมวดหมู่เป็นส่วนใหญ่ เราใช้โมเดลที่ไม่ใช่เชิงเส้น (เช่น XGBoost หรือ Random Forests) เพื่อเรียนรู้

  • หนึ่งควรยังคงกังวลเกี่ยวกับความหลากหลาย collinearity? ทำไม?
  • หากคำตอบข้างต้นเป็นจริงเราจะต่อสู้กับมันอย่างไรเมื่อพิจารณาว่ามีการใช้โมเดลที่ไม่ใช่เชิงเส้นประเภทนี้อย่างไร

คำตอบ:


7

Multi-collinearity จะไม่เป็นปัญหาสำหรับบางรุ่น เช่นป่าสุ่มหรือต้นไม้ตัดสินใจ ตัวอย่างเช่นหากเรามีสองคอลัมน์ที่เหมือนกันต้นไม้การตัดสินใจ / ฟอเรสต์แบบสุ่มจะ "วาง" หนึ่งคอลัมน์ในแต่ละการแยกโดยอัตโนมัติ และรูปแบบจะยังคงทำงานได้ดี

นอกจากนี้การทำให้เป็นมาตรฐานเป็นวิธีหนึ่งในการ "แก้ไขปัญหา" ความหลากหลายเชิงเส้น คำตอบของฉันวิธีการทำให้เป็นมาตรฐานสำหรับการถดถอยโลจิสติกให้รายละเอียด


5
ฉันคิดว่าสิ่งนี้จะได้รับการปรับปรุงถ้าคุณทำอย่างละเอียดในสิ่งที่เป็นปัญหา "แก้ไข" โดย normalization คือ
แมทธิวดรูรี่

2

ไปงานปาร์ตี้สาย แต่นี่คือคำตอบของฉันต่อไปและเป็น "ใช่" เราควรคำนึงถึงความเสมอภาคโดยไม่คำนึงถึงรูปแบบ / วิธีการเป็นแบบเชิงเส้นหรือไม่หรืองานหลักคือการทำนายหรือการจำแนก

สมมติจำนวนโควาเรียต / คุณลักษณะที่สัมพันธ์เชิงเส้นในชุดข้อมูลและฟอเรสต์แบบสุ่มเป็นวิธีการ เห็นได้ชัดว่าการเลือกแบบสุ่มต่อโหนดอาจเลือกเฉพาะคุณลักษณะ collinear (หรือส่วนใหญ่) ซึ่งอาจ / จะส่งผลให้เกิดการแยกที่ไม่ดีและสิ่งนี้อาจเกิดขึ้นซ้ำ ๆ ดังนั้นจึงส่งผลเสียต่อประสิทธิภาพการทำงาน

ตอนนี้ฟีเจอร์คอลลิเนียร์อาจให้ข้อมูลน้อยกว่าฟีเจอร์ (ไม่ใช่คอลลิเออร์) อื่น ๆ และควรพิจารณาให้ตัดออกจากฟีเจอร์ที่ตั้งไว้ต่อไป อย่างไรก็ตามสมมติว่าฟีเจอร์นั้นมีการจัดอันดับสูงในรายการ 'ฟีเจอร์สำคัญ' ที่สร้างขึ้นโดย RF เช่นนี้จะถูกเก็บไว้ในชุดข้อมูลเพื่อเพิ่มมิติข้อมูลโดยไม่จำเป็น ดังนั้นในทางปฏิบัติฉันมักจะเป็นขั้นตอนเชิงสำรวจ (จากหลายเรื่องที่เกี่ยวข้อง) ตรวจสอบการเชื่อมโยงแบบคู่ของคุณลักษณะรวมถึงความสัมพันธ์เชิงเส้น


ฉันเชื่อว่ามีหลายกรณีที่สามารถเพิกเฉยต่อความหลากหลายทาง
Dr Nisha Arora

0
  1. หนึ่งควรยังคงกังวลเกี่ยวกับความหลากหลาย collinearity? ทำไม?

หากโมเดลที่ไม่ใช่เชิงเส้นเป็นโมเดลที่มีโครงสร้างเป็นต้นไม้คุณไม่ควรมองข้ามโมเดลนั้น แบบจำลองต้นไม้ที่แตกต่างกันจะมีวิธีการแจกแจงที่แตกต่างกันเช่นป่าสุ่มจะเก็บไว้ทั้งคู่ (เพราะพวกเขาสร้างต้นไม้อย่างอิสระและสุ่มเลือกคุณลักษณะสำหรับต้นไม้ทุกต้น) แต่ไม่มีผลต่อประสิทธิภาพการทำนายแม้คุณจะลบ หนึ่งที่ซ้ำซ้อน แต่สำหรับ xgboost มันจะเลือกใครก็ได้และใช้มันจนถึงต้นสุดท้ายที่สร้าง

  1. หากคำตอบข้างต้นเป็นจริงเราจะต่อสู้กับมันอย่างไรเมื่อพิจารณาว่ามีการใช้โมเดลที่ไม่ใช่เชิงเส้นประเภทนี้อย่างไร

มันเกี่ยวกับความหมายในการตีความดังนั้นแนะนำให้นำตัวแปรที่มีความสัมพันธ์สูงออก


-3

ความหลากหลายของสีเป็นปัญหาที่เป็นไปได้เสมอ ตัวแปรที่เป็นตัวทำนายในตัวแบบจะส่งผลต่อการทำนายเมื่อพวกมันสัมพันธ์กันเป็นเส้นตรง (เช่นเมื่อมี collinearity)


1
ขอบคุณถ้า (1) การโฟกัสคือประสิทธิภาพการทำนาย (และไม่ใช่การตีความ) และ (2) โมเดลไม่ใช่เชิงเส้นคุณจะอธิบายอย่างละเอียดว่าทำไมสิ่งนี้ถึงยังคงเป็นปัญหาได้หรือไม่ (และมันจะประจักษ์เองอย่างไร?)
Josh

ตัวแปรเหล่านี้ที่เป็นตัวทำนายในตัวแบบจะส่งผลกระทบต่อการทำนายเมื่อพวกมันสัมพันธ์กันเป็นเส้นตรง
Michael R. Chernick

1
ส่งผลกระทบต่อการทำนายอย่างไร BTW, stats.stackexchange.com/a/138082/99274ใส่ลิงค์บางส่วนในคำตอบของคุณหรือเผชิญกับความโกรธแค้นของฝูงชน "เคยไปทำมาแล้ว"
Carl

7
ตั้งแต่การจัดหมวดหมู่เพื่อให้ที่เกี่ยวข้องอย่างใกล้ชิดกับการคาดการณ์และการคาดการณ์แนวโน้มที่จะไม่ต้องทนทุกข์ทรมานจากพหุมันเป็นสิ่งสำคัญที่จะสนับสนุนการต่อสู้ของคุณว่ามันเป็นเสมอเป็น "ปัญหาเป็นไปได้" โดยเฉพาะอย่างยิ่งสำหรับรุ่นโดยเฉพาะอย่างยิ่งการกล่าวถึงในคำถาม ปัญหาลักษณะใดที่จะใช้สำหรับการจำแนกประเภทและเพราะเหตุใด
whuber

12
ฉันค่อนข้างแน่ใจว่าคุณกำลังขอร้องคำถาม Whuber ถามว่าเหตุใดการทำนายจึงเกิดจากความหลากหลายของสีและคุณตอบกลับโดยทั่วไปว่า "การทำนายนั้นเกิดจากความหลากหลายทางสี
Matthew Drury
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.