1
การเข้ารหัสดัมมี่เทียบกับหนึ่งใน Scikit เรียนรู้
มีวิธีการเข้ารหัสตัวแปรเด็ดขาดสองวิธี กล่าวว่าหนึ่งตัวแปรเด็ดขาดมีค่าn การเข้ารหัสแบบ one-hotจะแปลงเป็นตัวแปรnในขณะที่การเข้ารหัสแบบจำลองจะแปลงเป็นตัวแปรn-1 ถ้าเรามีตัวแปรเด็ดขาดkแต่ละตัวมีค่าn การเข้ารหัสฮอตหนึ่งจบลงด้วยตัวแปรknในขณะที่การเข้ารหัสดัมมี่ลงท้ายด้วยตัวแปรkn-k ฉันได้ยินมาว่าสำหรับการเข้ารหัสที่ร้อนแรงเพียงครั้งเดียวการสกัดกั้นอาจนำไปสู่ปัญหา collinearity ซึ่งทำให้ตัวแบบไม่ดัง บางคนเรียกมันว่า " กับดักตัวแปรจำลอง " คำถามของฉัน: โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์ เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?