จำนวนคุณสมบัติเทียบกับจำนวนการสังเกต


26

มีกระดาษ / หนังสือ / แนวคิดเกี่ยวกับความสัมพันธ์ระหว่างจำนวนของคุณสมบัติและจำนวนการสังเกตที่เราต้องใช้ในการฝึกอบรมลักษณนาม "ที่มีประสิทธิภาพ" หรือไม่?

ตัวอย่างเช่นสมมติว่าฉันมีคุณสมบัติ 1,000 รายการและการสังเกต 10 ครั้งจากสองคลาสเป็นชุดฝึกอบรมและอีก 10 ข้อสังเกตเป็นชุดทดสอบ ฉันฝึกตัวแยกประเภท X และให้ความไว 90% และความจำเพาะ 90% ในชุดทดสอบ สมมติว่าฉันมีความสุขกับความแม่นยำนี้และฉันสามารถบอกได้ว่ามันเป็นลักษณนามที่ดี ในทางกลับกันฉันได้ประมาณฟังก์ชั่นของตัวแปร 1,000 ตัวโดยใช้ 10 คะแนนเท่านั้นซึ่งอาจดูเหมือนว่าไม่แข็งแกร่งมาก ...

คำตอบ:


20

สิ่งที่คุณได้รับจากที่นี่คือการสาปแช่งของมิติข้อมูลหรือปัญหา p >> n (โดยที่ p คือตัวทำนายและสังเกต n) มีการพัฒนาเทคนิคมากมายในช่วงหลายปีที่ผ่านมาเพื่อแก้ปัญหานี้ คุณสามารถใช้AICหรือBICเพื่อลงโทษโมเดลที่มีตัวทำนายมากกว่า คุณสามารถเลือกชุดแบบสุ่มของตัวแปรและลาสำคัญของพวกเขาโดยใช้การตรวจสอบข้าม คุณสามารถใช้สันเขาถดถอย , เชือกหรือสุทธิยืดหยุ่นสำหรับกู หรือคุณสามารถเลือกเทคนิคเช่นเครื่องสนับสนุนเวกเตอร์หรือฟอเรสต์แบบสุ่มที่จัดการกับตัวทำนายจำนวนมากได้ดี

วิธีแก้ปัญหานั้นขึ้นอยู่กับลักษณะเฉพาะของปัญหาที่คุณพยายามแก้ไข


9

ฉันสงสัยว่าจะไม่มีกฎทั่วไปของกฎดังกล่าวบังคับ พิจารณาปัญหาที่มีสองชั้นเรียนเป็นศูนย์กลางในการเกาส์และทั้งที่มีเมทริกซ์ความแปรปรวนของ{I} ในกรณีนี้คุณต้องการเพียงสองตัวอย่างหนึ่งจากทั้งสองคลาสเพื่อให้ได้การจำแนกที่สมบูรณ์แบบเกือบจะไม่คำนึงถึงจำนวนคุณสมบัติ อีกด้านหนึ่งของสเปกตรัมถ้าทั้งสองเรียนมีศูนย์กลางอยู่ที่จุดกำเนิดด้วยความแปรปรวน- 1 0.000001I I+110.000001IIไม่มีข้อมูลการฝึกอบรมใด ๆ ที่จะให้ตัวจําแนกที่มีประโยชน์ ในตอนท้ายของวันจำนวนตัวอย่างที่คุณต้องการสำหรับจำนวนคุณลักษณะที่กำหนดนั้นขึ้นอยู่กับวิธีการแจกจ่ายข้อมูลโดยทั่วไปคุณลักษณะเพิ่มเติมที่คุณมีข้อมูลที่คุณจะต้องอธิบายการกระจายของข้อมูลอย่างเพียงพอ (เลขยกกำลังในจำนวนของคุณสมบัติถ้าคุณโชคไม่ดี - ดูคำสาปของมิติที่กล่าวถึงโดย Zach)

หากคุณใช้การทำให้เป็นมาตรฐานดังนั้นในหลักการ (ข้อ จำกัด ด้านบน) ข้อผิดพลาดในการวางนัยทั่วไปนั้นขึ้นอยู่กับจำนวนของคุณสมบัติ (ดูการทำงานของ Vapnik บนเครื่องเวกเตอร์สนับสนุน) อย่างไรก็ตามนั่นทำให้เกิดปัญหาในการค้นหาค่าที่ดีสำหรับพารามิเตอร์ normalization (การตรวจสอบความถูกต้องข้ามมีประโยชน์)


9

คุณอาจประทับใจกับการสร้างแบบจำลองแบบคลาสสิกซึ่งมีความเสี่ยงต่อปัญหาที่คล้ายกับRunge Paradoxจึงต้องมีการปรับแต่งค่า parsimony ในการโพสต์โพรเซสซิง
อย่างไรก็ตามในกรณีของการเรียนรู้ของเครื่องความคิดในการรวมความทนทานเป็นเป้าหมายของการเพิ่มประสิทธิภาพแบบจำลองเป็นเพียงส่วนสำคัญของโดเมนทั้งหมด (มักแสดงเป็นความแม่นยำในข้อมูลที่มองไม่เห็น) ดังนั้นตราบใดที่คุณรู้ว่าแบบจำลองของคุณใช้งานได้ดี (เช่นจาก CV) อาจไม่มีเหตุผลใดที่จะน่ารำคาญ

ปัญหาที่แท้จริงของในกรณีของ ML เป็นคุณลักษณะที่ไม่เกี่ยวข้องส่วนใหญ่เป็นเพราะชุดบางชุดอาจใช้งานได้ดีกว่าสำหรับการตัดสินใจการสร้างซ้ำ เห็นได้ชัดว่าปัญหานี้ไม่มีอะไรเกี่ยวข้องกับความประหยัด แต่เหมือนกับในกรณีคลาสสิกจบลงด้วยการสูญเสียอำนาจทั่วไป วิธีแก้มันเป็นเรื่องราวที่แตกต่างเรียกว่าการเลือกคุณสมบัติ - แต่ความคิดทั่วไปคือการประมวลผลข้อมูลล่วงหน้าเพื่อขจัดเสียงรบกวนแทนที่จะวางข้อ จำกัด ลงในโมเดลpn


1

หนึ่งในหนังสืออย่างมีคุณค่ามากที่สุดของฉันมากกว่าปีที่ได้รับTinsley สีน้ำตาลและคู่มือ มีหลายสถานที่ในหนังสือที่กล่าวถึงหัวข้อนี้โดยผู้เขียนที่มีส่วนร่วมต่างกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.