วิธีจัดการกับ SVM ด้วยคุณลักษณะที่เป็นหมวดหมู่


18

ฉันมีช่องว่าง 35 มิติ (คุณลักษณะ) ปัญหาการวิเคราะห์ของฉันคือการจำแนกอย่างง่าย

จาก 35 มิติมากกว่า 25 รายการเป็นหมวดหมู่และแต่ละแอตทริบิวต์มีค่ามากกว่า 50 ประเภท

ในสถานการณ์สมมตินั้นการแนะนำตัวแปรตัวจำลองก็ไม่ได้ผลสำหรับฉันเช่นกัน

ฉันจะเรียกใช้ SVM บนพื้นที่ซึ่งมีแอตทริบิวต์ที่กำหนดไว้มากมายได้อย่างไร

คำตอบ:


22
  1. หากคุณแน่ใจว่าแอตทริบิวต์แน่ชัดนั้นเป็นจริงลำดับแล้วให้ถือว่าเป็นแอตทริบิวต์ตัวเลข
  2. ถ้าไม่ใช้เคล็ดลับการเข้ารหัสเพื่อเปลี่ยนเป็นแอตทริบิวต์ตัวเลข ตามคำแนะนำของผู้เขียน libsvm เราสามารถใช้การเข้ารหัส 1-of-K ตัวอย่างเช่นสมมติว่า 1 มิติหมวดค่าแอตทริบิวต์การซักจาก\} เพียงแค่ทำให้มันกลายเป็นหมายเลข 3 มิติดังกล่าวว่า , ,(0,0,1) แน่นอนว่าสิ่งนี้จะทำให้เกิดมิติเพิ่มเติมอย่างมากในปัญหาของคุณ แต่ฉันคิดว่านั่นไม่ใช่ปัญหาร้ายแรงสำหรับตัวแก้ไข SVM ที่ทันสมัย ​​(ไม่ว่าจะเป็น Linear หรือ Kernel type ที่คุณนำมาใช้){A,B,}A=(1,0,0)B=(0,1,0)=(0,0,1)

+1 นี่คือสิ่งที่ฉันจะพูดเช่นกัน! นอกจากนี้ฉันยังเพิ่มว่าการแบ่งพาร์ทิชันแบบเรียกซ้ำบางครั้งใช้เพื่อระบุตำแหน่งที่จะทำการตัดในคุณลักษณะที่มีมูลค่าอย่างต่อเนื่องเพื่อแบ่งพาร์ติชันเหล่านั้นลงในถังขยะ
ไคล์

! ที่น่าสนใจ "การแบ่งพาร์ทิชันซ้ำ" ส่งเสียงต้นไม้ (ไบนารี) ให้ฉัน ความแตกต่างระหว่างสองแนวคิดนี้มีอะไรบ้าง? นอกจากนี้ SVM สามารถจัดการกับฟีเจอร์ที่ต่อเนื่องได้แล้วทำไมเราต้องเปลี่ยนมันเป็นถังขยะ (อีกครั้งคือข้อมูลที่จัดหมวดหมู่)?
pengsun.thu

3
การสร้างตัวแปรจำลอง k-1 ไม่เพียงพอสำหรับตัวแปรเด็ดขาดระดับ ak หรือไม่ เช่น A = (1,0,0), B = (0,1,0) ที่นี่กระโดดข้าม (0,0,1)?
ขอบเขต

คำถามการติดตาม: ไม่จำเป็นต้องมีการปรับสเกลเพิ่มเติมของข้อมูล 0-1 ที่ซ้ำซาก
AZhao
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.