เมื่อใดที่จะลบตัวแปรที่เกี่ยวข้อง


11

ใครก็ได้ช่วยแนะนำขั้นตอนที่ถูกต้องในการลบตัวแปรที่มีความสัมพันธ์กันก่อนวิศวกรรมฟีเจอร์หรือหลังจากคุณสมบัติวิศวกรรม

คำตอบ:


8

คุณไม่ต้องการลบตัวแปรที่เกี่ยวข้องทั้งหมด มันก็ต่อเมื่อความสัมพันธ์นั้นแข็งแกร่งมากจนพวกเขาไม่ได้นำเสนอข้อมูลเพิ่มเติม นี่เป็นทั้งฟังก์ชั่นของความแข็งแกร่งของสหสัมพันธ์เท่าไหร่ข้อมูลที่คุณมีและความแตกต่างเล็กน้อยระหว่างตัวแปรที่มีความสัมพันธ์บอกอะไรคุณเกี่ยวกับผลลัพธ์หลังจากทั้งหมด

สองคนแรกที่คุณสามารถบอกได้ก่อนที่คุณจะทำแบบจำลองใด ๆ คนสุดท้ายไม่ได้ ดังนั้นจึงอาจสมเหตุสมผลในการลบตัวแปรตามการรวมกันของข้อควรพิจารณาสองข้อแรก (เช่นแม้ว่าตัวแปรเสริมในหลักการอาจมีข้อมูลที่มีประโยชน์บางอย่างคุณจะไม่สามารถบอกได้ว่ามีความสัมพันธ์กันมากน้อยเพียงใด คุณมี) ก่อนที่คุณจะทำแบบจำลอง / วิศวกรรมฟีเจอร์ จุดสุดท้ายสามารถประเมินได้จริงหลังจากทำแบบจำลองบางอย่าง


2

แปลกที่ไม่มีใครกล่าวถึงinterpretability

ถ้าหากคุณมีความกังวลกับเป็นผลการดำเนินงานแล้วมันทำให้รู้สึกไม่ที่จะเอาตัวแปรทั้งสองมีความสัมพันธ์เว้นแต่ความสัมพันธ์ = 1 หรือ -1 ซึ่งเป็นหนึ่งในกรณีของตัวแปรซ้ำซ้อน

แต่ถ้ามีความกังวลเกี่ยวกับความสามารถในการตีความมันอาจทำให้รู้สึกถึงการลบตัวแปรตัวใดตัวหนึ่งแม้ว่าความสัมพันธ์นั้นจะไม่รุนแรงก็ตาม นี่เป็นเรื่องจริงสำหรับโมเดลเชิงเส้น หนึ่งในข้อสันนิษฐานของการถดถอยเชิงเส้นคือการขาดความสมบูรณ์แบบหลายค่าสัมพัทธ์ในตัวทำนาย

ถ้า A สัมพันธ์กับ B คุณจะไม่สามารถตีความค่าสัมประสิทธิ์ของทั้ง A และ B เพื่อดูว่าทำไมให้จินตนาการถึงกรณีสุดขั้วเมื่อ A = B (ความสัมพันธ์ที่สมบูรณ์แบบ) จากนั้นโมเดล y = 100 * A + 50 * B จะเหมือนกับโมเดล y = 5 * A + 10 * B หรือ y = -2000 * A + 4000 * B มีหลายดุลยภาพในการแก้ปัญหาที่เป็นไปได้สำหรับปัญหา minimzation กำลังสองน้อยที่สุดดังนั้นคุณจึงไม่สามารถ "เชื่อใจ" ได้

สิ่งที่คล้ายกันสามารถเกิดขึ้นได้กับรุ่นอื่น ๆ ตัวอย่างเช่นถ้า A มีความสัมพันธ์กับ B มากดังนั้นถ้าต้นไม้ตัดสินใจเลือก A สองเท่าของเวลาเป็น B คุณจะไม่สามารถพูดได้ว่า A สำคัญกว่า B ถ้าคุณฝึกรูปแบบใหม่สิ่งที่ตรงกันข้ามอาจเกิดขึ้นได้


2

คุณควรพิจารณาตรวจสอบVIF (Variance Inflation Factor) ลองลบฟีเจอร์ด้วย VIF ที่สูงขึ้น โดยทั่วไปเป็นที่ต้องการว่า VIF ต่ำกว่า 10


นี้ค่อนข้างคล้ายกับคำตอบของฉันในdatascience.stackexchange.com/questions/36634/ …
Siddhi Kiran Bajracharya


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.