ความแตกต่างระหว่างการเข้ารหัสแบบร้อนและการเข้ารหัสแบบครั้งเดียวคืออะไร


13

ฉันกำลังอ่านงานนำเสนอและไม่แนะนำให้ใช้การเข้ารหัสการลาแบบหนึ่งครั้ง แต่ก็โอเคกับการเข้ารหัสแบบร้อนเพียงครั้งเดียว ฉันคิดว่าพวกเขาทั้งสองเหมือนกัน ใครสามารถอธิบายความแตกต่างระหว่างพวกเขาคืออะไร?


1
ยังไม่ชัดเจน (จากคำถามของคุณ) สิ่งที่เหลืออยู่คืออะไร คุณควรแก้ไขสิ่งนี้เพื่อให้ตัวชี้และอธิบายสั้น ๆ เกี่ยวกับความเข้าใจของคุณทั้งสองและทำไมคุณถึงคิดว่ามันเหมือนกัน
Sean Owen

คำตอบ:


15

พวกเขาอาจใช้ "ปล่อยการเข้ารหัสหนึ่งครั้ง" เพื่ออ้างถึงกลยุทธ์ของโอเว่นจาง

จาก: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

คอลัมน์ที่เข้ารหัสไม่ใช่ตัวแปรดัมมี่ทั่วไป แต่เป็นการตอบกลับค่าเฉลี่ยของแถวทั้งหมดสำหรับระดับหมวดหมู่นี้ แต่ไม่รวมแถวเอง สิ่งนี้จะช่วยให้คุณได้ประโยชน์จากการมีหมวดหมู่แบบคอลัมน์เดียวในขณะที่หลีกเลี่ยงการรั่วไหลของการตอบสนองโดยตรง

ภาพนี้แสดงความคิดได้ดี ป้อนคำอธิบายรูปภาพที่นี่


คำอธิบายของคุณดีกว่า wacax ในลิงค์ที่แนะนำขอบคุณ
Allan Ruin

สวัสดี @Dex Groves ดังนั้นการเข้ารหัส leave_one_out สำหรับการทดสอบจึงเป็น 0.5 เสมอ?
user7117436

3
Hi! อย่างที่เห็นจากภาพตัวอย่าง paticular นี้เกี่ยวข้องกับปัญหาการจำแนก ใครบ้างมีประสบการณ์กับการเข้ารหัส LOO ภายในปัญหาการถดถอยหรือไม่? คำถามหลักคือวิธีการรวมตัวแปรเป้าหมาย ตอนนี้ฉันกำลังทำการทดลองและรับ overfitting อย่างมากด้วยค่าเฉลี่ย (y)
Alexey Trofimov

1
สำหรับปัญหาการจัดกลุ่ม (unsupervised) เป็นไปได้ไหมที่จะใช้การเข้ารหัสชนิดนี้
enneppi

@AlexeyTrofimov - ลองรวมกับความแปรปรวนที่ต่ำกว่า ฉันจะเริ่มต้นด้วยการ binning ที่แตกต่างกัน (เช่น 1K, 2K, 2M, .. สำหรับค่า y int จำนวนมากหรือการปัดเศษเป็นทศนิยมสำหรับค่า y float) => ค่าเฉลี่ย (bin_f (y))
mork
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.