เคอร์เนล SVM ใดที่จะใช้สำหรับปัญหาการจำแนกประเภทไบนารี


9

ฉันเป็นผู้เริ่มต้นเมื่อพูดถึงการสนับสนุนเครื่องเวกเตอร์ มีแนวทางบางอย่างที่บอกว่าเคอร์เนลใด (เช่นเส้นตรงพหุนาม) เหมาะที่สุดสำหรับปัญหาเฉพาะหรือไม่? ในกรณีของฉันฉันต้องจำแนกหน้าเว็บตามว่ามีข้อมูลเฉพาะหรือไม่เช่นฉันมีปัญหาการจำแนกเลขฐานสอง

คุณสามารถพูดโดยทั่วไปว่าเคอร์เนลใดเหมาะที่สุดสำหรับงานนี้? หรือฉันต้องลองหลายชุดในชุดข้อมูลเฉพาะของฉันเพื่อค้นหาชุดที่ดีที่สุด โดยวิธีการที่ฉันใช้ห้องสมุดหลามscikit เรียนรู้ที่ใช้ประโยชน์จากห้องสมุด libSVM


คุณเป็นตัวแทนหน้าเว็บของคุณอย่างไร ถุงของคำ? ตัวเลือกของเคอร์เนลขึ้นอยู่กับการวัดความคล้ายคลึงกันที่คุณต้องการในพื้นที่อินพุตของคุณ
Memming

@Memming ใช่ฉันใช้ตัวแทนถุงคำ คุณหมายถึงอะไรโดยการวัดความคล้ายคลึงกัน? ฉันกำลังตรวจสอบว่าหน้าเว็บมีข้อมูลบางประเภทหรือไม่
pemistahl

คุณอาจพบนี้กวดวิชาประโยชน์ถ้าคุณยังไม่ได้ตรวจสอบแล้ว ( csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf ) Libsvm มีรูปแบบการตรวจสอบความถูกต้องในตัว k-fold เพื่อเลือกระหว่างรุ่นและพารามิเตอร์รุ่น
Zoran

@ PeterStahl นอกจากนี้ยังขึ้นอยู่กับขอบเขตของชั้นเรียนที่คุณคาดหวัง ฉันไม่ได้มีประสบการณ์กับพื้นที่ถุงคำดังนั้นฉันไม่สามารถช่วยคุณได้มาก
Memming

คำตอบ:


10

คุณได้ตีคำถามที่เปิดกว้างในวรรณคดี ดังที่คุณกล่าวว่ามีความหลากหลายของเมล็ด (เช่นเชิงเส้นฟังก์ชันพื้นฐานรัศมี, sigmoid, พหุนาม) และจะทำงานการจำแนกของคุณในพื้นที่ที่กำหนดโดยสมการของพวกเขา ตามความรู้ของฉันไม่มีใครแสดงให้เห็นอย่างชัดเจนว่าเคอร์เนลตัวใดตัวหนึ่งทำงานได้ดีที่สุดในงานการจำแนกข้อความประเภทหนึ่งเมื่อเทียบกับงานประเภทอื่น

สิ่งหนึ่งที่ควรพิจารณาคือฟังก์ชันเคอร์เนลแต่ละตัวมีพารามิเตอร์อย่างน้อย 1 พารามิเตอร์ซึ่งจะต้องปรับให้เหมาะสมสำหรับชุดข้อมูลของคุณซึ่งหมายความว่าหากคุณทำอย่างถูกต้องคุณควรมีชุดการฝึกอบรมแบบที่สองซึ่งคุณสามารถทำได้ ตรวจสอบค่าที่ดีที่สุดสำหรับพารามิเตอร์เหล่านี้ (ฉันพูดชุดสะสมที่สองเนื่องจากคุณควรมีชุดที่คุณกำลังใช้เพื่อหาคุณสมบัติอินพุตที่ดีที่สุดสำหรับตัวจําแนกของคุณ) ฉันได้ทำการทดลองชั่วขณะหนึ่งซึ่งฉันได้ทำการเพิ่มประสิทธิภาพขนาดใหญ่ของแต่ละรายการ พารามิเตอร์เหล่านี้สำหรับงานการจัดหมวดหมู่ข้อความอย่างง่ายและพบว่าเคอร์เนลแต่ละตัวทำงานได้ดีพอสมควร แต่ทำได้ในรูปแบบที่แตกต่างกัน ถ้าฉันจำผลลัพธ์ของฉันได้อย่างถูกต้อง sigmoid ทำงานได้ดีที่สุด แต่ทำอย่างนั้นในการปรับพารามิเตอร์ที่เฉพาะเจาะจง - อันที่ใช้เวลากว่าหนึ่งเดือนเพื่อให้เครื่องของฉันค้นหา


ขอบคุณมากสำหรับความคิดของคุณ ขอโทษที่ตอบกลับมาช้า ฉันกำลังเขียนวิทยานิพนธ์หลักของฉันในขณะนี้ซึ่งฉันจำเป็นต้องประเมินผลลัพธ์สำหรับตัวแยกประเภทหลายตัวไม่ใช่เฉพาะ SVM น่าเสียดายที่ฉันไม่มีเวลาในการทดสอบชุดพารามิเตอร์หลายชุด นั่นเป็นเหตุผลที่ฉันอาจจะติดเคอร์เนลเชิงเส้น
pemistahl

โชคดี! ฉันคิดว่านั่นเป็นการโทรที่ดี
ไคล์

7

ลองใช้เคอร์เนลเกาส์เซียน

เคอร์เนลเกาส์เซียนมักจะถูกลองใช้ก่อนและกลายเป็นเคอร์เนลที่ดีที่สุดในหลาย ๆ แอปพลิเคชั่น (พร้อมด้วยคุณสมบัติถุงคำศัพท์ของคุณด้วย) คุณควรลองเคอร์เนลเชิงเส้นด้วย อย่าคาดหวังว่ามันจะให้ผลลัพธ์ที่ดีปัญหาการจำแนกข้อความมักจะไม่ใช่เชิงเส้น แต่มันให้ความรู้สึกกับข้อมูลของคุณและคุณสามารถมีความสุขกับการที่ไม่ใช่เชิงเส้นปรับปรุงผลลัพธ์ของคุณ

ตรวจสอบให้แน่ใจว่าคุณได้ตรวจสอบความกว้างของเคอร์เนลอย่างถูกต้องและคิดว่าคุณต้องการทำให้ฟีเจอร์ของคุณเป็นปกติ (tf-idf และอื่น ๆ )

ฉันจะบอกว่าคุณสามารถปรับปรุงผลลัพธ์ของคุณด้วยการปรับสภาพคุณลักษณะให้ดีขึ้นมากกว่าการเลือกเคอร์เนลอื่น (เช่นไม่ใช่แบบเกาส์เซียน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.