ฉันตระหนักถึงความจริงที่ว่าตัวแปรเด็ดขาดที่มีระดับ k ควรถูกเข้ารหัสด้วยตัวแปร k-1 ในการเข้ารหัสดัมมี่ (คล้ายกับตัวแปรเด็ดขาดหลายค่า) ฉันสงสัยว่าปัญหาหนึ่งเกิดขึ้นกับการเข้ารหัสแบบร้อนแรงเพียงใด (เช่นการใช้ตัวแปร k แทน) ผ่านการเข้ารหัสแบบจำลองสำหรับวิธีการถดถอยที่แตกต่างกันส่วนใหญ่เป็นการถดถอยเชิงเส้นการถดถอยเชิงเส้นที่ถูกลงโทษ (Lasso, Ridge, ElasticNet) เครื่องเร่งการไล่ระดับสี)
ฉันรู้ว่าในการถดถอยเชิงเส้นปัญหาความหลากหลายเชิงเส้นเกิดขึ้น (แม้ว่าในทางปฏิบัติฉันได้ติดตั้งการถดถอยเชิงเส้นโดยใช้ OHE โดยไม่มีปัญหาใด ๆ )
อย่างไรก็ตามการเข้ารหัสแบบจำลองไม่จำเป็นต้องใช้ในพวกเขาทั้งหมดและผลลัพธ์ที่ได้จะผิดไปอย่างไรหากใช้การเข้ารหัสแบบร้อนแรง?
การมุ่งเน้นของฉันอยู่ที่การคาดการณ์ในตัวแบบการถดถอยที่มีตัวแปรหมวดหมู่ (ความสำคัญสูง) จำนวนมากดังนั้นฉันจึงไม่สนใจช่วงความมั่นใจ