ความเข้าใจของฉันคือในการเรียนรู้ของเครื่องมันอาจเป็นปัญหาหากชุดข้อมูลของคุณมีคุณสมบัติที่มีความสัมพันธ์สูงเนื่องจากจะเข้ารหัสข้อมูลเดียวกันได้อย่างมีประสิทธิภาพ
เมื่อเร็ว ๆ นี้มีคนบางคนชี้ให้เห็นว่าเมื่อคุณทำการเข้ารหัสแบบร้อนแรงบนตัวแปรเด็ดขาดคุณจะต้องจบลงด้วยฟีเจอร์ที่สัมพันธ์กันดังนั้นคุณควรวางหนึ่งในนั้นเป็น "อ้างอิง"
ตัวอย่างเช่นการเข้ารหัสเพศเป็นตัวแปรสองตัวis_male
และis_female
สร้างคุณสมบัติสองอย่างที่มีความสัมพันธ์เชิงลบอย่างสมบูรณ์ดังนั้นพวกเขาจึงแนะนำให้ใช้เพียงหนึ่งตัวตั้งค่าพื้นฐานให้พูดว่าเป็นเพศชายได้อย่างมีประสิทธิภาพแล้วดูว่าคอลัมน์ is_female มีความสำคัญ .
นั่นทำให้รู้สึกถึงฉัน แต่ฉันไม่ได้พบอะไรออนไลน์เพื่อแนะนำนี้อาจเป็นกรณีดังนั้นผิดหรือฉันขาดอะไรบางอย่าง?
เป็นไปได้ (ยังไม่ได้รับคำตอบ) ซ้ำซ้อน: การเชื่อมโยงกันของคุณสมบัติที่เข้ารหัสร้อนแรงมีความสำคัญสำหรับ SVM และ LogReg หรือไม่
Does keeping all k values theoretically make them weaker features
. ไม่ (แม้ว่าฉันจะไม่แน่ใจ 100% ว่าคุณหมายถึง "อ่อนแอ") using something like PCA
หมายเหตุในกรณีที่ PCA ในชุดของ Dummies ที่เป็นตัวแทนของตัวแปรเด็ดขาดเดียวมีจุดปฏิบัติน้อยเพราะความสัมพันธ์ภายในชุดของ Dummies สะท้อนให้เห็นถึงความสัมพันธ์ระหว่างความถี่หมวดหมู่เท่านั้น (ดังนั้นถ้าความถี่ทั้งหมดเท่ากันทั้งหมด ถึง 1 / (k-1))
is_male
ตัวแปรเมื่อเทียบกับตัวเลือกทั้งสอง? อาจไม่เหมาะสมในบริบทนี้และอาจเป็นปัญหาเมื่อคุณมีตัวแปรที่แตกต่างกันสองตัวที่เข้ารหัสข้อมูลเดียวกันจริง ๆ (เช่นความสูงเป็นนิ้วและความสูงเป็นเซนติเมตร)
you end up with correlated features, so you should drop one of them as a "reference"
ตัวแปรดัมมี่หรือตัวแปรตัวบ่งชี้ (นี่คือสองชื่อที่ใช้ในสถิติ, คำพ้องความหมาย "การเข้ารหัสแบบร้อนแรงหนึ่ง" ในการเรียนรู้ของเครื่อง) มีความสัมพันธ์แบบจับคู่กันทุกคู่ไม่ว่าจะเป็นตัวแปร k หรือ k-1 ทั้งหมด ดังนั้นคำที่ดีกว่าคือ "ซ้ำซ้อนเชิงสถิติ / ให้ข้อมูล" แทนที่จะเป็น "สหสัมพันธ์"