การผสมข้อมูลอย่างต่อเนื่องและไบนารีกับ Linear SVM หรือไม่


15

ดังนั้นฉันจึงได้เล่นรอบกับ SVM และฉันสงสัยว่านี่เป็นสิ่งที่ดีที่จะทำ:

ฉันมีชุดคุณสมบัติแบบต่อเนื่อง (0 ถึง 1) และชุดคุณสมบัติแบบหมวดหมู่ที่ฉันแปลงเป็นตัวแปรจำลอง ในกรณีพิเศษนี้ฉันเข้ารหัสวันที่ของการวัดในตัวแปรจำลอง:

มี 3 ช่วงเวลาที่ฉันมีข้อมูลจากและฉันจองหมายเลขฟีเจอร์ 3 หมายเลขสำหรับพวกเขา:

20: 21: 22:

ดังนั้นขึ้นอยู่กับช่วงเวลาที่ข้อมูลมาคุณสมบัติที่แตกต่างจะได้รับ 1 กำหนด; คนอื่นจะได้รับ 0

SVM จะทำงานอย่างถูกต้องกับสิ่งนี้หรือสิ่งนี้เป็นสิ่งที่ไม่ดีที่ต้องทำหรือไม่?

ฉันใช้ SVMLight และเคอร์เนลเชิงเส้น


มันใช้งานได้ดี
Marc Claesen

สิ่งที่คุณทำดีพอ ฉันได้รับคำตอบโดยละเอียดเล็กน้อยที่นี่ - quora.com/Machine-Learning/…
TenaliRaman

@TenaliRaman โปรดอย่าโพสต์ลิงก์ไปยังเว็บไซต์ที่ต้องใช้เพื่อเข้าสู่ระบบก่อนที่จะสามารถอ่านอะไรได้จริง
Marc Claesen

@MarcClaesen ฉันได้จำลองคำตอบด้านล่างแล้ว
TenaliRaman

คำตอบ:


8

SVM จะจัดการกับทั้งไบนารีและตัวแปรต่อเนื่องตราบใดที่คุณทำการประมวลผลล่วงหน้า: คุณสมบัติทั้งหมดควรถูกปรับขนาดหรือทำให้เป็นมาตรฐาน หลังจากขั้นตอนนั้นจากมุมมองของอัลกอริธึมมันไม่สำคัญว่าฟีเจอร์จะต่อเนื่องหรือเป็นไบนารี่: สำหรับไบนารี่มันจะเห็นตัวอย่างที่อยู่ห่างออกไปหรือคล้ายกันมาก สำหรับต่อเนื่องนอกจากนี้ยังมีในระหว่างค่า เคอร์เนลไม่สำคัญกับชนิดของตัวแปร


1
และเทคนิคการทำให้เป็นมาตรฐานที่ดีที่สุดคืออะไร?
Shlomi Schwartz

23

ทำซ้ำคำตอบของฉันจากhttp://www.quora.com/Machine-Learning/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together/answer/Arun-Iyer-1

  • [1,1]x=2xmaxminmaxmin
  • μσx=xμσ
  • Binarize คุณสมบัติเด็ดขาด / ไม่ต่อเนื่อง:สำหรับคุณสมบัติเด็ดขาดทั้งหมดแสดงให้พวกเขาเป็นคุณสมบัติบูลีนหลาย ตัวอย่างเช่นแทนที่จะมีหนึ่งคุณลักษณะที่เรียกว่าการแต่งงาน _status มี 3 คุณลักษณะบูลีน - แต่งงานแล้ว _status_single, แต่งงาน _status_married, แต่งงาน _status_divorced และตั้งค่าคุณสมบัติเหล่านี้อย่างเหมาะสมให้เป็น 1 หรือ -1 อย่างที่คุณเห็นในทุก ๆ คุณลักษณะของหมวดหมู่คุณจะเพิ่มคุณสมบัติเลขฐานสอง k โดยที่ k คือจำนวนของค่าที่คุณสมบัติเชิงหมวดหมู่ใช้

Rn

Rn


ดีบทความนี้ค่อนข้างน่าสนใจเกี่ยวกับคุณสมบัติเด็ดขาด ไม่ได้กล่าวว่าการเข้ารหัสแบบร้อนแรงเป็นตัวเลือกที่ดีที่สุดสำหรับคุณสมบัติที่เป็นหมวดหมู่คือสิ่งที่ฉันได้รับจากมัน
displayname

1
นี่เป็นคำตอบที่ยอดเยี่ยมฉันอ่านลิงก์ในความคิดเห็น @displayname และเป็นการเปรียบเทียบที่มีประโยชน์ จากบทความปรากฏว่าการเข้ารหัสแบบไบนารีนั้นดีที่สุด (ไม่ใช่แบบที่อธิบายไว้ในคำตอบนี้) และค่อนข้างง่ายเช่นกัน) จากลิงก์ "Binary: ขั้นแรกจะเข้ารหัสหมวดหมู่ตามลำดับจากนั้นจำนวนเต็มจะถูกแปลงเป็นเลขฐานสอง รหัสจากนั้นตัวเลขจากสตริงไบนารี่นั้นจะถูกแบ่งออกเป็นคอลัมน์แยกกันการเข้ารหัสข้อมูลในมิติที่น้อยลงที่ร้อนแรง แต่มีการบิดเบือนระยะทาง "
shelbypereira

บทความที่ได้รับจาก @displayname เป็นบทความที่ดี แต่ไม่ควรนำมาเป็นมูลค่า สิ่งแรกที่ต้องจำคือวิธีการ ML เกือบทั้งหมดทำงานร่วมกับการวัดระยะทางหรือความคล้ายคลึงกัน การเลือกวิธีการเข้ารหัสมีผลโดยตรงต่อการวัดระยะทางหรือความคล้ายคลึงกันระหว่างสองจุด การเข้ารหัสที่ร้อนแรง 1 บอกว่าวัตถุของหมวดหมู่หนึ่งนั้นมีความคล้ายคลึงกับตัวของมันเองหรือเท่า ๆ กันมันทำให้ทุกหมวดหมู่อยู่ในระยะทางที่เท่ากัน อย่างไรก็ตามมีบางกรณีที่หมวดหมู่บางหมวดใกล้กว่าหมวดหมู่อื่น ๆ ในกรณีนี้การเข้ารหัสที่แตกต่างกันสามารถช่วยได้
TenaliRaman
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.