ความสำคัญของคุณลักษณะที่มีคุณลักษณะหมวดหมู่ที่มีความสำคัญสูงสำหรับการถดถอย (ตัวแปร depdendent ที่เป็นตัวเลข)


12

ฉันพยายามใช้ความสำคัญของคุณลักษณะจาก Random Forests เพื่อทำการเลือกคุณลักษณะเชิงประจักษ์สำหรับปัญหาการถดถอยที่คุณสมบัติทั้งหมดเป็นหมวดหมู่และส่วนใหญ่มีหลายระดับ (ตามลำดับที่ 100-1,000) เนื่องจากการเข้ารหัสแบบ one-hot สร้างตัวแปรดัมมี่สำหรับแต่ละระดับความสำคัญของคุณลักษณะสำหรับแต่ละระดับและไม่ใช่แต่ละฟีเจอร์ (คอลัมน์) วิธีที่ดีในการรวมความสำคัญของคุณลักษณะเหล่านี้คืออะไร

ฉันคิดเกี่ยวกับการสรุปหรือรับความสำคัญโดยเฉลี่ยสำหรับทุกระดับของคุณลักษณะ (อาจเป็นไปได้ว่าในอดีตจะมีอคติต่อคุณลักษณะเหล่านั้นที่มีระดับมากขึ้น) มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่?

เราสามารถทำอะไรได้อีกเพื่อลดจำนวนคุณสมบัติ ฉันตระหนักถึงกลุ่มเชือกไม่สามารถหาอะไรที่ง่ายต่อการใช้งานสำหรับการเรียนรู้ Scikit


ทุกคนสามารถตอบคำถามว่าการรวมความสำคัญของตัวแปรในแต่ละระดับของตัวแปรเด็ดขาดเหมาะสมหรือไม่?
See24

@ see24 ไม่มีคุณก็ไม่สามารถรวมพวกเขา: stats.stackexchange.com/questions/314567/...
แดน

คำตอบ:


5

ขึ้นอยู่กับว่าคุณจะเข้ารหัสได้อย่างไร โซลูชันอัตโนมัติจำนวนมากสำหรับสิ่งนั้นจะตั้งชื่อบูลีนที่แปลงทั้งหมดด้วยรูปแบบเพื่อให้ตัวแปรหมวดหมู่ที่เรียกว่า "ตัวอักษร" ที่มีค่า AZ น่าจะเป็นดังนี้:

จดหมาย _A, จดหมาย _B, จดหมาย _C, จดหมาย _D, ....

หากหลังจากที่คุณทราบความสำคัญของคุณลักษณะแล้วคุณจะได้รับคุณสมบัติและน้ำหนัก / ความสำคัญที่เกี่ยวข้องฉันจะวิเคราะห์แถวลำดับและอาจสรุปน้ำหนักความสำคัญของคุณลักษณะสำหรับสิ่งที่เริ่มต้นด้วย "จดหมาย%"


3
ยอดรวมไม่ได้ให้ประโยชน์กับคุณลักษณะเหล่านั้นที่มีระดับมากกว่าหรือไม่
user90772

อืมจุดดี อาจสรุปแล้วหารด้วยจำนวนระดับ / ตัวแปรที่เข้ารหัสหนึ่งร้อนเพื่อรับความสำคัญ "เฉลี่ย"
CalZ

2
ฉันคิดเกี่ยวกับเรื่องนี้มากกว่านี้และขึ้นอยู่กับความสำคัญของการทำคะแนน ในบางกรณีค่าสำหรับแต่ละคุณสมบัติคือน้ำหนักสัมพัทธ์ซึ่งทั้งชุดรวมเป็น 1 ในกรณีนั้นฉันคิดว่ามันจะสมเหตุสมผลที่จะสรุปคุณลักษณะที่เป็นที่นิยม หากคะแนนสำหรับคุณลักษณะนั้นมากขึ้นเช่นสัมประสิทธิ์การถดถอยและไม่ได้ถ่วงน้ำหนักสัมพันธ์กับผลกระทบสุทธิการเฉลี่ยก็น่าจะดีกว่า
CalZ

ขอบคุณสำหรับการตอบกลับ. เนื่องจากฉันค่อนข้างใหม่ในพื้นที่ฉันคิดว่านี่เป็นสิ่งมาตรฐานสำหรับคนในศาสตร์ข้อมูล แต่ไม่ว่าฉันควรทำอะไรเพื่อประเมินความสำคัญของคอลัมน์หรือโพสต์นี้ไม่ได้รับมุมมองที่เพียงพอ ไม่ว่าในกรณีใด ๆ ขอขอบคุณ!
user90772

1
หลายคนสนับสนุนให้มองว่าโมเดลภายในเป็นกล่องดำและประเมินประสิทธิภาพแทน ในบางกรณี (เช่นเครือข่ายประสาท) นี่เป็นเพราะคุณไม่สามารถตรวจสอบได้อย่างลึกซึ้ง สำหรับบางที่ที่คุณสามารถดูว่าคุณลักษณะใดมีความสำคัญ (เช่นการถดถอยเชิงเส้น) คุณสามารถทำให้เข้าใจผิดได้ง่าย (ดู: stats.stackexchange.com/questions/105114/ … ) ฉันคิดว่านั่นเป็นเหตุผลที่บางครั้งผู้คนอายห่างจากการดูความสำคัญของคุณลักษณะแต่ละตัว
CalZ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.