ปล่อยคอลัมน์ใดคอลัมน์หนึ่งเมื่อใช้การเข้ารหัสแบบร้อนแรง


22

ความเข้าใจของฉันคือในการเรียนรู้ของเครื่องมันอาจเป็นปัญหาหากชุดข้อมูลของคุณมีคุณสมบัติที่มีความสัมพันธ์สูงเนื่องจากจะเข้ารหัสข้อมูลเดียวกันได้อย่างมีประสิทธิภาพ

เมื่อเร็ว ๆ นี้มีคนบางคนชี้ให้เห็นว่าเมื่อคุณทำการเข้ารหัสแบบร้อนแรงบนตัวแปรเด็ดขาดคุณจะต้องจบลงด้วยฟีเจอร์ที่สัมพันธ์กันดังนั้นคุณควรวางหนึ่งในนั้นเป็น "อ้างอิง"

ตัวอย่างเช่นการเข้ารหัสเพศเป็นตัวแปรสองตัวis_maleและis_femaleสร้างคุณสมบัติสองอย่างที่มีความสัมพันธ์เชิงลบอย่างสมบูรณ์ดังนั้นพวกเขาจึงแนะนำให้ใช้เพียงหนึ่งตัวตั้งค่าพื้นฐานให้พูดว่าเป็นเพศชายได้อย่างมีประสิทธิภาพแล้วดูว่าคอลัมน์ is_female มีความสำคัญ .

นั่นทำให้รู้สึกถึงฉัน แต่ฉันไม่ได้พบอะไรออนไลน์เพื่อแนะนำนี้อาจเป็นกรณีดังนั้นผิดหรือฉันขาดอะไรบางอย่าง?

เป็นไปได้ (ยังไม่ได้รับคำตอบ) ซ้ำซ้อน: การเชื่อมโยงกันของคุณสมบัติที่เข้ารหัสร้อนแรงมีความสำคัญสำหรับ SVM และ LogReg หรือไม่


8
you end up with correlated features, so you should drop one of them as a "reference"ตัวแปรดัมมี่หรือตัวแปรตัวบ่งชี้ (นี่คือสองชื่อที่ใช้ในสถิติ, คำพ้องความหมาย "การเข้ารหัสแบบร้อนแรงหนึ่ง" ในการเรียนรู้ของเครื่อง) มีความสัมพันธ์แบบจับคู่กันทุกคู่ไม่ว่าจะเป็นตัวแปร k หรือ k-1 ทั้งหมด ดังนั้นคำที่ดีกว่าคือ "ซ้ำซ้อนเชิงสถิติ / ให้ข้อมูล" แทนที่จะเป็น "สหสัมพันธ์"
ttnphns

ชุดของหุ่น k ทั้งหมดคือชุดหลายค่าหลายค่าเพราะถ้าคุณรู้ค่าของหุ่น k-1 ในข้อมูลคุณจะทราบค่าของหุ่นจำลองตัวสุดท้ายนั้นโดยอัตโนมัติ วิธีการวิเคราะห์ข้อมูลหรืออัลกอริทึมบางอย่างต้องการให้คุณลบหนึ่งใน k อื่น ๆ สามารถรับมือได้กับทุกคน
ttnphns

@ttnphns: ขอบคุณที่เหมาะสม การรักษาค่า k ทั้งหมดตามหลักวิชาทำให้คุณสมบัติอ่อนแอลงซึ่งควร / กำจัดได้ด้วยการลดขนาด หนึ่งในข้อโต้แย้งสำหรับการใช้บางอย่างเช่น PCA มักจะลบคุณลักษณะที่สัมพันธ์กัน / ซ้ำซ้อนฉันสงสัยว่าการรักษาตัวแปร k ทั้งหมดให้อยู่ในหมวดนั้น
dasboth

Does keeping all k values theoretically make them weaker features. ไม่ (แม้ว่าฉันจะไม่แน่ใจ 100% ว่าคุณหมายถึง "อ่อนแอ") using something like PCAหมายเหตุในกรณีที่ PCA ในชุดของ Dummies ที่เป็นตัวแทนของตัวแปรเด็ดขาดเดียวมีจุดปฏิบัติน้อยเพราะความสัมพันธ์ภายในชุดของ Dummies สะท้อนให้เห็นถึงความสัมพันธ์ระหว่างความถี่หมวดหมู่เท่านั้น (ดังนั้นถ้าความถี่ทั้งหมดเท่ากันทั้งหมด ถึง 1 / (k-1))
ttnphns

สิ่งที่ฉันหมายถึงคือเมื่อคุณใช้แบบจำลองของคุณเพื่อประเมินความสำคัญของคุณลักษณะ (เช่นกับฟอเรสต์แบบสุ่ม) มันจะประเมินความสำคัญของตัวแปรนั้นต่ำไปหรือไม่ถ้าคุณรวมค่า k ทั้งหมด เช่นเดียวกับในคุณได้รับการประเมิน "truer" ของความสำคัญของเพศหากคุณใช้is_maleตัวแปรเมื่อเทียบกับตัวเลือกทั้งสอง? อาจไม่เหมาะสมในบริบทนี้และอาจเป็นปัญหาเมื่อคุณมีตัวแปรที่แตกต่างกันสองตัวที่เข้ารหัสข้อมูลเดียวกันจริง ๆ (เช่นความสูงเป็นนิ้วและความสูงเป็นเซนติเมตร)
dasboth

คำตอบ:


23

ขึ้นอยู่กับรุ่น (และอาจเป็นซอฟต์แวร์) ที่คุณต้องการใช้ ด้วยการถดถอยเชิงเส้นหรือแบบจำลองเชิงเส้นทั่วไปที่ประเมินโดยความน่าจะเป็นสูงสุด (หรือกำลังสองน้อยที่สุด) (ใน R หมายถึงการใช้ฟังก์ชั่นlmหรือglm) คุณจะต้องออกไปหนึ่งคอลัมน์ มิฉะนั้นคุณจะได้รับข้อความเกี่ยวกับคอลัมน์บางคอลัมน์ "ออกเนื่องจากความแปลกประหลาด"

แต่ถ้าคุณประเมินโมเดลดังกล่าวด้วยการทำให้เป็นมาตรฐานเช่นสันหลัง, เชือกยางยืด, คุณไม่ควรปล่อยคอลัมน์ใด ๆ ออกมา การทำให้เป็นมาตรฐานจะดูแลความเป็นเอกเทศและที่สำคัญกว่านั้นการคาดการณ์ที่ได้รับอาจขึ้นอยู่กับคอลัมน์ที่คุณออกไป สิ่งนี้จะไม่เกิดขึ้นเมื่อคุณไม่ได้ใช้การทำให้เป็นมาตรฐาน

สำหรับรุ่นอื่นให้ใช้หลักการเดียวกัน หากการคาดการณ์ที่ได้รับขึ้นอยู่กับคอลัมน์ที่คุณออกไปอย่าทำเช่นนั้น ไม่งั้นมันก็โอเค

จนถึงตอนนี้คำตอบนี้กล่าวถึงแบบจำลองเชิงเส้น (และแบบจำลองที่ไม่ใช่เชิงเส้นบางอย่าง) เท่านั้น แต่สิ่งที่เกี่ยวกับโมเดลที่ไม่ใช่เชิงเส้นเช่นต้นไม้และการสุ่ม แนวคิดเกี่ยวกับการเข้ารหัสหมวดหมู่เช่นเดียวร้อนเกิดขึ้นส่วนใหญ่มาจากแบบจำลองเชิงเส้นและส่วนขยาย มีเหตุผลเล็กน้อยที่จะคิดว่าความคิดที่ได้จากบริบทนั้นควรนำไปใช้โดยไม่มีการดัดแปลงสำหรับต้นไม้และป่า! สำหรับความคิดของบางคนเห็นสุ่มป่าถดถอยกับข้อมูลที่กระจัดกระจายในหลาม

β,β2,β3β1=0β2β1,β3β1


ฉันสามารถยอมรับได้ว่าการเลือกตัวแปรอ้างอิงจะมีผลต่อผลลัพธ์ของการถดถอยแบบปกติ แต่ฉันไม่แน่ใจว่าถ้าปล่อยตัวแปรทั้งหมดตามที่ดีกว่าการปล่อย คุณมีเหตุผลไหม?
โกตาโมริ

ทางเลือกเพียงสองทางเท่านั้น ... การรักษาระดับทั้งหมดให้คงที่และไม่มีความเด็ดขาด หากคุณมีสมาชิกคนอื่น ๆ ต้องการลดจำนวนระดับเช่นมากเกินไปคุณควรบอกเราเกี่ยวกับสิ่งนั้น
kjetil b halvorsen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.