การลดจำนวนระดับของตัวแปรทำนายการจัดหมวดหมู่แบบไม่เรียงลำดับ


11

ฉันต้องการฝึกอบรมลักษณนามพูด SVM หรือฟอเรสต์แบบสุ่มหรือลักษณนามอื่น ๆ หนึ่งในคุณสมบัติในชุดข้อมูลเป็นตัวแปรเด็ดขาดที่มี 1,000 ระดับ เป็นวิธีที่ดีที่สุดในการลดจำนวนระดับในตัวแปรนี้คืออะไร ใน R มีฟังก์ชั่นที่เรียกว่าcombine.levels()ในแพ็คเกจHmiscซึ่งรวมระดับที่ไม่บ่อยนัก แต่ฉันกำลังมองหาคำแนะนำอื่น ๆ


ตัวแปรเด็ดขาดไม่มีการจัดเรียงหรือไม่? คุณมีประมาณกี่กรณี การกระจายความถี่ข้ามตัวแปรเด็ดขาดคืออะไร?
Jeromy Anglim

ระดับจะไม่ได้รับคำสั่ง ฉันมีการสังเกตประมาณ 10,000 ครั้ง การแจกแจงความถี่มีดังนี้ระดับ A ปรากฏขึ้นประมาณ 11% ของการสำรวจ ระดับ B ปรากฏเป็น 8% ระดับ c ปรากฏเป็น 5% ประมาณ 15 ระดับเหล่านี้ครอบคลุม 50% ของการสังเกตในชุดข้อมูล
Sabunime

คำตอบ:


9

วิธีที่ดีที่สุดในการทำเช่นนี้จะแตกต่างกันอย่างมากขึ้นอยู่กับงานที่คุณกำลังแสดงอยู่ดังนั้นจึงเป็นไปไม่ได้ที่จะบอกว่าอะไรจะดีที่สุดในแบบที่ไม่ขึ้นกับงาน

มีสองสิ่งง่าย ๆ ที่จะลองถ้าระดับของคุณเป็นอันดับ:

  1. ถังขยะพวกเขา เช่น 0 = (0 250), 1 = (251 500), ฯลฯ คุณอาจต้องการเลือกข้อ จำกัด เพื่อให้แต่ละถังมีจำนวนรายการเท่ากัน
  2. นอกจากนี้คุณยังสามารถบันทึกการเปลี่ยนแปลงของระดับ นี่จะเป็นการกดช่วงลง

หากระดับไม่ใช่ลำดับคุณสามารถจัดกลุ่มระดับตามคุณลักษณะ / ตัวแปรอื่น ๆ ในชุดข้อมูลของคุณและแทนที่รหัสคลัสเตอร์สำหรับระดับก่อนหน้า มีหลายวิธีในการทำเช่นนี้เนื่องจากมีอัลกอริธึมการจัดกลุ่มดังนั้นฟิลด์จึงเปิดกว้าง ขณะที่ฉันอ่านนี่คือสิ่งที่combine.levels()กำลังทำอยู่ คุณสามารถทำในทำนองเดียวกันการใช้หรือkmeans() prcomp()(คุณสามารถ / ควรฝึกตัวแยกประเภทเพื่อทำนายกลุ่มสำหรับดาต้าพอยน์ใหม่)


3
ฉันไม่รู้วิธีที่ดีจริง ๆ ในการจัดการสิ่งนี้นอกเหนือจากการรักษาตัวแปรเด็ดขาดเป็นผลแบบสุ่ม คุณสามารถเลียนแบบสิ่งนั้นได้โดยใช้กระบวนการลงโทษแบบสมการกำลังสอง (สันเขา) บนตัวแปร หนังสือกลยุทธ์การสร้างแบบจำลองการถดถอย ของฉันและบันทึกของหลักสูตรจะกล่าวถึง
Frank Harrell

1
@FrankHarrell มีสองวิธีที่ต้องคำนึงถึง: ตัวแปร POlytomous การวิเคราะห์ระดับแฝงจะเป็นหนึ่ง (cran.r-project.org/web/packages/poLCA/poLCA.pdf) การวิเคราะห์การติดต่ออีกทางหนึ่ง (เช่น HTML)
Mike Hunter
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.