คาดว่าจะมีประสิทธิภาพที่ดีที่สุดในชุดข้อมูล


9

ว่าฉันมีปัญหาการเรียนรู้เครื่องอย่างง่ายเช่นการจำแนกประเภท ด้วยเกณฑ์มาตรฐานบางอย่างในการมองเห็นหรือการรับรู้เสียงฉันในฐานะมนุษย์นั้นเป็นตัวจําแนกที่ดีมาก ฉันจึงมีสัญชาตญาณว่าลักษณนามจะดีแค่ไหน

แต่ด้วยจุดข้อมูลจำนวนมากจุดหนึ่งคือฉันไม่รู้ว่าตัวจําแนกฉันฝึกได้ดีเพียงใด นี่คือข้อมูลที่ฉันไม่ใช่ลักษณนามที่ดีมาก (พูดแยกแยะอารมณ์ของบุคคลจากข้อมูล EEG) มันเป็นไปไม่ได้จริงๆที่จะได้รับปรีชาว่าปัญหาของฉันคืออะไร

ตอนนี้ถ้าฉันถูกนำเสนอด้วยปัญหาการเรียนรู้ของเครื่องฉันอยากจะรู้ว่าฉันทำได้ดีแค่ไหน มีวิธีการใด ๆ ที่หลักการนี้ คุณจะทำอย่างไร

เห็นภาพข้อมูลหรือไม่ เริ่มด้วยแบบง่าย ๆ ? เริ่มต้นด้วยโมเดลที่ซับซ้อนมาก ๆ และดูว่าฉันสามารถใช้งานได้มากเกินไปหรือไม่? คุณกำลังค้นหาอะไรหากคุณต้องการตอบคำถามนี้ คุณหยุดพยายามเมื่อไหร่

คำตอบ:


6

ฉันไม่ทราบว่านับเป็นคำตอบ ...

นี่คือปัญหาหนึ่งที่ทำให้คุณตื่นขึ้นมาในตอนกลางคืน คุณสามารถสร้างแบบจำลองที่ดีกว่าได้หรือไม่? phd-comics สรุปมันอย่างดี (ฉันไม่รู้ว่าฉันได้รับอนุญาตให้อัพโหลดการ์ตูนหรือไม่ดังนั้นฉันเพิ่งเชื่อมโยงพวกเขา)

จากประสบการณ์ส่วนตัวของฉันที่ได้รับจากการเข้าร่วมการแข่งขัน Machine Learning นี่คือกฎง่ายๆ

ลองนึกภาพคุณจะได้รับงานการจัดหมวดหมู่ นั่งระดมสมองประมาณหนึ่งชั่วโมงหรือน้อยกว่าว่าคุณจะเข้าถึงปัญหาได้อย่างไรและดูสถานะของศิลปะในพื้นที่นี้ สร้างแบบจำลองจากการวิจัยนี้โดยเฉพาะอย่างยิ่งแบบจำลองที่มีความเสถียรโดยไม่ต้องปรับพารามิเตอร์มากเกินไป ประสิทธิภาพที่ได้จะอยู่ที่ประมาณ 80% ของประสิทธิภาพสูงสุดที่ทำได้

กฎนี้ใช้หลักการ Pareto ที่เรียกว่าซึ่งใช้กับการปรับให้เหมาะสม เมื่อได้รับปัญหาคุณสามารถสร้างโซลูชันที่ทำงานได้อย่างรวดเร็วและเหมาะสม แต่จากจุดนั้นอัตราส่วนของการปรับปรุงต่อเวลาจะลดลงอย่างรวดเร็ว

คำบางคำสุดท้าย: เมื่อฉันอ่านเอกสารเกี่ยวกับอัลกอริธึมการจัดหมวดหมู่ใหม่ฉันคาดว่าผู้เขียนจะเปรียบเทียบสายพันธุ์ใหม่ของพวกเขาด้วยวิธี "pareto-optimization" เช่นฉันคาดว่าพวกเขาจะใช้เวลาพอสมควรเพื่อทำให้งานศิลปะทันสมัย (บางคนต้องการการปรับพารามิเตอร์ให้เหมาะสมมากขึ้นหรือน้อยลง) น่าเสียดายที่หลายคนไม่ทำเช่นนั้น


0

วิธีการทั่วไปคือการพิจารณา ROC และพื้นที่ภายใต้มัน (AUC) เหตุผลที่อยู่เบื้องหลังวิธีการนี้คือยิ่งอัตราการบวกที่แท้จริงสำหรับอัตราการบวกที่ผิดพลาดยิ่งสูง การผสานรวมกับอัตราบวกที่เป็นเท็จทั้งหมดที่เป็นไปได้ช่วยให้คุณสามารถทำการวัดโดยรวม


3
เท่าที่ฉันเข้าใจ OP แล้วปัญหาของเขาไม่ใช่การวัดประสิทธิภาพของตัวจําแนก (ซึ่งหวังว่าเป็นการคาดการณ์ที่ดีสำหรับการคาดการณ์ในอนาคต) แต่สิ่งที่ดีที่สุดที่จะได้รับคือทั้งหมดนั่นคือค่าสูงสุด ต่อเมตริกตัน (AUC 1 ที่สูงสุดหรือสิ่งที่ต้องการ) แต่สำหรับปัญหาที่กำหนด)
สเตฟเฟ

ใช่นั่นคือสิ่งที่ฉันหมายถึง
bayerj

0

หากมีวิธีให้คุณเห็นภาพข้อมูลของคุณนั่นเป็นสถานการณ์ที่ดีที่สุด แต่ไม่มีข้อมูลทั้งหมดที่สามารถมองเห็นได้ในลักษณะเดียวกันดังนั้นคุณอาจต้องหาวิธีของคุณเองในการฉายข้อมูลที่สามารถช่วยให้คุณเข้าใจข้อมูลของคุณ ดีกว่า

อย่างไรก็ตามโดยทั่วไปแล้วฉันมักจะนำตัวอย่างข้อมูลขนาดเล็กมาแปลงเป็น ARFF และลองใช้อัลกอริทึมการจัดกลุ่มที่แตกต่างจาก WEKA จากนั้นฉันเพิ่งเห็นว่าอัลกอริทึมใดให้ความสับสนได้ดีกว่า มันให้คำแนะนำแก่ฉันเกี่ยวกับวิธีการแยกชั้นเรียนได้ดีและช่วยให้ฉันสามารถตรวจสอบสาเหตุที่อัลกอริทึมเฉพาะนั้นทำได้ดีกว่าสำหรับข้อมูลนี้ ฉันยังเปลี่ยนจำนวนกลุ่ม (เช่นฉันไม่เพียงแค่ใช้ k = 2 ฉันใช้ k = 3, 4 ฯลฯ ) มันทำให้ฉันมีความคิดว่ามีการแตกแฟรกเมนต์ในข้อมูลหรือว่าคลาสหนึ่งมีการแยกส่วนมากกว่าคลาสอื่น ๆ หากคุณผสมคะแนนการฝึกอบรมและการทดสอบเข้าด้วยกันสำหรับการจัดกลุ่มคุณยังสามารถวัดได้ว่ากลุ่มการฝึกอบรมใดของคุณ บางกลุ่มอาจเป็นตัวแทนมากเกินไปและบางกลุ่มอาจอยู่ภายใต้ตัวแทนทั้งคู่อาจทำให้เกิดปัญหาซึ่งการเรียนรู้ตัวจําแนก

ตรวจสอบความถูกต้องในการฝึกอบรมของคุณเสมอ หากความแม่นยำในการฝึกของคุณดูไม่ดีคะแนนการฝึกที่จำแนกผิด ๆ ก็เป็นคำแนะนำที่สำคัญเช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.