โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์
สำหรับโมเดลเชิงเส้นแบบไม่สม่ำเสมอที่มีการเข้ารหัสแบบร้อนแรงใช่คุณต้องตั้งค่าการดักฟังให้เป็นเท็จ sklearn
ยังช่วยให้มีการลงโทษการหดตัวสันเขาและในกรณีที่มันไม่จำเป็นและในความเป็นจริงคุณควรรวมทั้งการสกัดกั้นและทุกระดับ สำหรับการเข้ารหัสดัมมี่คุณควรรวมการสกัดกั้นเว้นแต่คุณจะสร้างมาตรฐานให้กับตัวแปรทั้งหมดของคุณซึ่งในกรณีนี้การสกัดกั้นจะเป็นศูนย์
เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?
การสกัดกั้นนั้นเป็นการเพิ่มระดับของอิสรภาพดังนั้นในรูปแบบที่ระบุไว้อย่างดีมันก็เท่ากับ
สำหรับอันที่สองจะเกิดอะไรขึ้นถ้ามีตัวแปรเด็ดขาด k? ตัวแปร k จะถูกลบออกในการเข้ารหัสแบบจำลอง ระดับของเสรีภาพยังคงเหมือนเดิมหรือไม่?
คุณไม่สามารถจัดวางโมเดลที่คุณใช้ทุกระดับของตัวแปรเด็ดขาดทั้งการสกัดกั้นหรือไม่ สำหรับทันทีที่คุณมีการเข้ารหัสแบบร้อนทุกระดับในตัวแปรเดียวในแบบจำลองให้พูดด้วยตัวแปรไบนารีจากนั้นคุณมีการผสมเชิงเส้นของตัวทำนายเท่ากับเวกเตอร์คงที่x1,x2,…,xn
x1+x2+⋯+xn=1
ถ้าคุณลองป้อนทุกระดับของหมวดหมู่อีกอันลงในแบบจำลองคุณจะได้ชุดแบบเส้นตรงที่แตกต่างกันเท่ากับเวกเตอร์คงที่x′
x′1+x′2+⋯+x′k=1
และคุณได้สร้างการอ้างอิงเชิงเส้น
x1+x2+⋯xn−x′1−x′2−⋯−x′k=0
ดังนั้นคุณต้องออกจากระดับในตัวแปรที่สองและทุกอย่างเรียงกันอย่างถูกต้อง
บอกว่าฉันมีตัวแปรเด็ดขาด 3 ตัวซึ่งแต่ละตัวมี 4 ระดับ ในการเข้ารหัสแบบจำลองนั้นตัวแปร 3 * 4-3 = 9 จะถูกสร้างขึ้นโดยมีจุดตัดหนึ่งจุด ในการเข้ารหัสแบบ one-hot ตัวแปร 3 * 4 = 12 ถูกสร้างขึ้นโดยไม่มีการสกัดกั้น ฉันถูกไหม?
สิ่งที่สองใช้งานไม่ได้จริง คอลัมน์เมทริกซ์การออกแบบที่คุณสร้างจะเป็นเอกพจน์ คุณต้องลบสามคอลัมน์ออกจากการเข้ารหัสตามหมวดหมู่ที่แตกต่างกันสามแบบเพื่อกู้คืนการออกแบบที่ไม่เป็นเอกเทศ3×4=12