ลักษณนามใดที่มีความแม่นยำมากกว่าสำหรับการจำแนกประเภท SVM


10

ฉันกำลังเรียนรู้การจำแนกประเภท SVM และพบปัญหา ฉันไม่แน่ใจว่าภาวะที่กลืนไม่เข้าคายไม่ออกนี้มีคำศัพท์สำหรับมัน

สมมติว่าเราต้องการจำแนกผู้ป่วยโดย SVM เนื่องจากกลุ่มตัวอย่างของคนที่มีสุขภาพ (ทั้งเพศชาย) และคนที่เป็นมะเร็งตับ (ทั้งสองเพศ) ถ้าเราติดป้ายกลุ่มคนที่มีสุขภาพเป็นคลาส 1 และผู้ที่เป็นโรคมะเร็งเป็นคลาส 2 เราสามารถฝึก SVM แบบไบนารีและรับลักษณนาม 1 เพื่อทำนายผู้ป่วยรายใหม่ ตอนนี้ภาพสถานการณ์อื่น สมมติว่าเราแบ่งตัวอย่างทั้งหมดตามเพศก่อนการจำแนกประเภท SVM สำหรับแต่ละเพศเรายังติดป้ายชื่อผู้ป่วยที่มีสุขภาพดีและผู้ป่วยมะเร็งออกเป็น 2 ชั้นและฝึกไบนารี SVM เพื่อรับตัวแยกประเภท 2 และตัวแยกประเภท 3 สำหรับตัวอย่างหญิงและชายตามลำดับ คำถามคือหากมีผู้ป่วยเพศหญิงใหม่ซึ่งตัวจําแนกประเภท 1 หรือ 2 ควรใช้เพื่อให้ได้การทำนายที่แม่นยำมากขึ้นหรือไม่ นี่คือภาวะที่กลืนไม่เข้าคายไม่ออกสำหรับข้อโต้แย้งที่ฉันมี

(1) เมื่อจำนวนตัวอย่างมีขนาดใหญ่การคาดการณ์ควรแม่นยำยิ่งขึ้น จากการโต้แย้งนี้ลักษณนาม 1 ดูเหมือนจะเป็นตัวเลือกที่ดี

(2) อย่างไรก็ตามหากเราแบ่งกลุ่มตัวอย่างออกเป็นกลุ่มหญิงและชายกลุ่มแรกตัวจําแนก 2 ดูเหมือนจะเป็นทางเลือกที่ดีกว่าเนื่องจากผู้ป่วยรายใหม่ (ตัวอย่างทดสอบที่ไม่รู้จัก) เป็นเพศหญิง

ภาวะที่กลืนไม่เข้าคายไม่ออกแบบนี้มีคำศัพท์หรือไม่มีใครรู้ข้อมูลเพิ่มเติมหรือวิธีการแก้ปัญหาเช่นนี้? ฉันไม่แน่ใจด้วยซ้ำว่านี่เป็นคำถามที่ถูกกฎหมายและขออภัยสำหรับคำถามที่ไร้เดียงสาล่วงหน้า ขอบคุณ


4
โดยทั่วไปไม่สามารถตอบได้ บางทีถ้าเรารู้ว่าจำนวนเพศมีอิทธิพลต่อโรคมะเร็งและจำนวนตัวอย่างที่คุณมีซึ่งฟังก์ชั่นการสูญเสียที่คุณใช้ ฯลฯ อาจจะง่ายกว่าการทดสอบโดยใช้การตรวจสอบข้าม
adrianN

ขอบคุณ มันสมเหตุสมผลแล้ว ฉันเดาว่าไม่ควรมีกฎทั่วไป
Cassie

1
ดูเหมือนว่าคำถาม ML ทั่วไปเกี่ยวกับ "ฉันจะใช้ ML เพื่อแก้ปัญหานี้ได้อย่างไร" ไม่มีคำตอบมาตรฐาน มีความสำคัญ / ได้รับการยอมรับ / มาตรฐานเพื่อลองวิธีการที่แตกต่างกันและดูว่ากลยุทธ์ใดที่นำไปสู่ผลลัพธ์การทำนายที่แม่นยำที่สุด หัวเรื่องทั่วไปเป็นบางอย่างเช่น "การแสดงปัญหาโลกแห่งความเป็นจริงในกรอบนามธรรม ML" หรือ "การสร้างแบบจำลอง" คร่าวๆ & ครอบคลุมในการอ้างอิงมาตรฐานที่ดี .... ดูstats.se
vzn

คำตอบ:


3

คุณควรดูที่การเลือกคุณสมบัติและอัลกอริทึมที่ทำให้กระบวนการนี้เป็นไปโดยอัตโนมัติ ไม่เป็นไรถ้าคุณยังใหม่กับ ML และไม่เข้าใจกระบวนการเลือกคุณลักษณะทั้งหมดเพียงแค่รับสัญชาตญาณที่เหมาะสมจากนั้นคุณสามารถใช้ไลบรารีเพื่อทำให้กระบวนการเป็นไปโดยอัตโนมัติ

ความคิดที่สำคัญของการมีขั้นตอนวิธีการเรียนรู้เพื่อให้มันสามารถหารูปแบบ ... มากที่สุดที่คุณสามารถทำได้คือช่วยเหลือเขาออกโดยการให้ข้อมูลจำนวนมาก (ที่ไม่ซ้ำซ้อน) และมีขั้นตอนที่ดี preprocessing ที่มักจะเกี่ยวข้องกับสิ่งที่ เช่นการเลือกคุณลักษณะและการฟื้นฟู

ในโน้ตที่เป็นมิตรเมื่อใช้อัลกอริทึมการเรียนรู้คุณไม่ควรพยายามที่จะปรับเปลี่ยนชุดข้อมูลของคุณเพียงแค่ 'ดู' เว้นแต่ว่าคุณจะมีตัวชี้วัดที่เป็นรูปธรรมที่เป็นพยานว่าจำเป็นต้องมีการปรับเปลี่ยนหลายครั้ง อัลกอริทึมทำให้มีอคติสูงต่อคุณลักษณะที่ดูเหมือนจะไม่เกี่ยวข้องกับกระบวนการจำแนกประเภท พยายามทำตามขั้นตอนการเลือกคุณสมบัติก่อนที่จะลองแก้ไขข้อมูลของคุณ


1

หัวข้อทั่วไปหนึ่งขั้นตอนสำหรับกระบวนการเรียนรู้ของเครื่องนี้คือการประมวลผลข้อมูลล่วงหน้าซึ่งวิกิพีเดียกล่าวว่ารวมถึง "การทำความสะอาดการทำให้เป็นมาตรฐานการแปลงการแยกคุณลักษณะและการเลือก ฯลฯ "

อีกแง่มุมของการเรียนรู้ของเครื่องคือ "การสร้างแบบจำลอง" สิ่งนี้เกี่ยวข้องกับการตัดสินใจเช่นเกี่ยวกับจำนวนชั้นที่จะตรวจพบสิ่งที่ "ขนาด" หรือ "ขนาด" ของโครงสร้าง ML จะเป็นเช่น ("จำนวนเมล็ด SVM จะรวมจำนวน" ฯลฯ คล้าย ๆ กับการเลือกจำนวนของเซลล์ประสาทใน NN รูปแบบ) น่าเสียดายที่ผู้อ้างอิงบางคนมีแนวโน้มที่จะข้ามหรือ "ปัดเศษ" ขั้นตอนนี้ แต่โปรดทราบว่าการใช้สถิติร่วมกันและหนังสือสถิติบางเล่มจะมีคำอธิบายที่ดี

ในรูปแบบ ML นั้นเป็นวิธีการทั่วไปที่มีกระบวนการวนซ้ำ / ข้อเสนอแนะ / วิวัฒนาการที่แข็งแกร่ง ผู้ทดลองใช้พยายามประมวลผลล่วงหน้าและสร้างแบบจำลองแนวคิดต่าง ๆ และเคลื่อนไปในทิศทางที่ประสบความสำเร็จมากกว่า กฎทั่วไปของหัวแม่มือคือ "ที่ดีกว่าการทำนายอีกอย่างถูกต้อง [และสันนิษฐานว่ายังสมจริง ] preprocessing และแบบจำลอง" แต่ยังได้รับการปกครองอย่างระมัดระวัง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.