"กฏเกณฑ์ง่ายๆ" ในจำนวนของคุณสมบัติกับจำนวนอินสแตนซ์? (ชุดข้อมูลขนาดเล็ก)


17

ฉันสงสัยว่าถ้ามีฮิวริสติกเกี่ยวกับคุณลักษณะหลายอย่างกับจำนวนการสังเกต เห็นได้ชัดว่าถ้าคุณสมบัติจำนวนหนึ่งเท่ากับจำนวนการสังเกตแบบจำลองจะพอดี โดยใช้วิธีการกระจัดกระจาย (LASSO, elastic net) เราสามารถลบคุณลักษณะต่าง ๆ เพื่อลดแบบจำลองได้

คำถามของฉันคือ (ในทางทฤษฎี): ก่อนที่เราจะใช้ตัวชี้วัดเพื่อประเมินการเลือกแบบจำลองจะมีข้อสังเกตเชิงประจักษ์ใดบ้างที่เกี่ยวข้องกับจำนวนคุณลักษณะที่เหมาะสมที่สุดกับจำนวนการสังเกต?

ตัวอย่างเช่น: สำหรับปัญหาการจำแนกเลขฐานสองที่มี 20 อินสแตนซ์ในแต่ละชั้นจะมีขีด จำกัด บนของจำนวนคุณสมบัติที่จะใช้หรือไม่?

คำตอบ:


13

เอกสารหลายฉบับมีความเห็นว่า

เฉพาะในกรณีที่หายากมีการกระจายข้อผิดพลาดที่รู้จักกันเป็นฟังก์ชั่นของจำนวนคุณสมบัติและขนาดตัวอย่าง

พื้นผิวข้อผิดพลาดสำหรับชุดอินสแตนซ์และฟีเจอร์ที่กำหนดเป็นฟังก์ชันของสหสัมพันธ์ (หรือขาด) ระหว่างฟีเจอร์

กระดาษนี้แนะนำต่อไปนี้:

  • ยังไม่มีข้อความ-1ยังไม่มีข้อความ
  • ยังไม่มีข้อความ

อีกวิธีหนึ่ง (ประจักษ์) ที่สามารถทำได้คือการวาดเส้นโค้งการเรียนรู้สำหรับขนาดตัวอย่างที่แตกต่างจากชุดข้อมูลเดียวกันและใช้เพื่อทำนายประสิทธิภาพการจำแนกประเภทที่ขนาดตัวอย่างที่แตกต่างกัน นี่คือการเชื่อมโยงกับกระดาษ


2
ฉันพบว่าคำตอบนี้ค่อนข้างเข้าใจผิดว่าเป็นข้อสันนิษฐานที่สำคัญของบทความ Hua ที่ขาดหายไป: ฟีเจอร์ Hua et al. พิจารณาในเอกสารที่เชื่อมโยงเป็นข้อมูลทั้งหมดซึ่งไม่ใช่สิ่งที่คุณคาดหวังว่าจะมีในทางปฏิบัติ ควรระบุไว้อย่างชัดเจนว่า IMHO นี้เป็น "คุณลักษณะ" ที่ไม่เกี่ยวข้องที่พบมากที่สุดของ IMHO เป็นช่องทางในการวัดที่ผิดปกติ
cbeleites รองรับ Monica

Wrt เส้นโค้งการเรียนรู้: OP อาจจะไม่สามารถใช้กับกรณี 2 × 20 เนื่องจากไม่สามารถวัดได้ด้วยความแม่นยำที่มีประโยชน์จากบางกรณี หัวหินกล่าวสั้น ๆ นี้และเราพูดถึงความยากลำบากนี้ค่อนข้างละเอียดในเอกสารที่ฉันเชื่อมโยงในคำตอบของฉันด้านล่าง
cbeleites รองรับ Monica

8

จากประสบการณ์ของฉัน: ในกรณีหนึ่งฉันได้ทำงานกับฐานข้อมูลจริงที่มีขนาดเล็กมาก (300 ภาพ) ที่มีหลายคลาสปัญหาความไม่สมดุลของข้อมูลที่รุนแรงและฉันสิ้นสุดด้วยการใช้คุณสมบัติ 9 ประการ: SIFT, HOG, บริบทบริบท SSIM, GM และ 4 คุณสมบัติที่ใช้ DNN ในอีกกรณีหนึ่งฉันทำงานกับฐานข้อมูลขนาดใหญ่มาก (> รูปภาพ 1 M) และจบลงด้วยการใช้คุณลักษณะ HOG เท่านั้น ฉันคิดว่าไม่มีความสัมพันธ์โดยตรงระหว่างจำนวนอินสแตนซ์และจำนวนฟีเจอร์ที่จำเป็นเพื่อให้ได้ความแม่นยำสูง แต่: จำนวนคลาสความคล้ายคลึงกันระหว่างคลาสและรูปแบบภายในคลาสเดียวกัน (พารามิเตอร์ทั้งสามนี้) อาจส่งผลต่อจำนวนของคุณสมบัติ เมื่อมีฐานข้อมูลขนาดใหญ่ที่มีหลายคลาสและมีความคล้ายคลึงกันมากระหว่างคลาสและรูปแบบขนาดใหญ่ภายในคลาสเดียวกันคุณต้องการคุณสมบัติเพิ่มเติมเพื่อให้ได้ความแม่นยำสูง โปรดทราบ:


@Bashar Haddad: แก้ไขฉันถ้าฉันผิด (เพราะฉันใหม่ทั้งคอมพิวเตอร์วิสัยทัศน์และ ML) ไม่ใช่คุณสมบัติ HOG จริง ๆ แล้วเป็นเวกเตอร์มิติสูง (ในกรณีของฉันฉันได้รับคุณลักษณะ HOG มิติ 1764) ดังนั้นเมื่อคุณพูดถึงฟีเจอร์ 9 รายการและหนึ่งในนั้นคือ HOG คุณไม่ได้รับพื้นที่คุณลักษณะมิติสูงสำหรับ HOG เพียงอย่างเดียวใช่หรือไม่
Mathmath

1
ในวรรณกรรมพวกเขาใช้คุณลักษณะคำเพื่อระบุประเภทสถานที่หรือดัชนีส่วนข้อมูล ดังนั้นเมื่อฉันบอกว่าฉันใช้ฟีเจอร์ 6 อย่างนี่หมายความว่าฉันใช้ฟีเจอร์ 6 แบบแต่ละประเภทคือเวกเตอร์ (1 x D) ถ้าฉันกำลังพูดถึงประเภทคุณลักษณะ Hog แต่ละมิติสามารถเป็นคุณลักษณะได้
Bashar Haddad

2

มันขึ้นอยู่กับ ... แต่แน่นอนว่าคำตอบช่วยให้คุณไม่มีที่ใด

เขาเป็นกฎง่ายๆสำหรับความซับซ้อนของแบบจำลอง: การเรียนรู้จากข้อมูล - มิติ VC

"คร่าวๆ" คุณต้องมี 10 จุดข้อมูลสำหรับพารามิเตอร์แต่ละรุ่น และจำนวนพารามิเตอร์รุ่นสามารถคล้ายกับจำนวนคุณสมบัติ


2

ปาร์ตี้ช้าไปหน่อย แต่นี่คือฮิวริสติก

ปัญหาการจำแนกเลขฐานสองที่มี 20 อินสแตนซ์ในแต่ละชั้นมีขีด จำกัด บนของจำนวนคุณสมบัติที่จะใช้หรือไม่

  • สำหรับการฝึกอบรมเกี่ยวกับลักษณนามเชิงเส้นแนะนำให้ใช้เคส 3 - 5 ตัวต่อคลาสและฟีเจอร์ ขีด จำกัด นี้ช่วยให้คุณมีรูปแบบที่เสถียรได้อย่างน่าเชื่อถือไม่รับประกันแบบจำลองที่ดี (เป็นไปไม่ได้: คุณอาจมีข้อมูลที่ไม่มีข้อมูลโดยที่ไม่มีตัวแบบใดที่สามารถทำให้ประสิทธิภาพการทำงานทั่วไปดีขึ้น)

  • อย่างไรก็ตามสำหรับขนาดตัวอย่างที่มีขนาดเล็กตามสถานการณ์ของคุณการตรวจสอบ (การตรวจสอบความถูกต้อง)แทนที่จะเป็นการฝึกอบรมคือคอขวดและการตรวจสอบขึ้นอยู่กับจำนวนกรณีทดสอบแน่นอนมากกว่ากรณีที่สัมพันธ์กับความซับซ้อนของโมเดล: ตามกฎทั่วไป กรณีในตัวหารเพื่อประมาณสัดส่วนด้วยช่วงความมั่นใจที่ไม่กว้างกว่า 10% ของคะแนน

    น่าเสียดายที่นี่ยังหมายความว่าโดยทั่วไปคุณไม่สามารถรับเส้นโค้งการเรียนรู้เชิงประจักษ์สำหรับแอปพลิเคชันของคุณได้: คุณไม่สามารถวัดได้อย่างแม่นยำเพียงพอและในทางปฏิบัติคุณยังมีปัญหามากมายในการประเมินเพราะการฝึกอบรม ความซับซ้อน - และคุณจะผ่อนคลายด้วยการเพิ่มขนาดตัวอย่าง

    ดูกระดาษของเราสำหรับรายละเอียด: Beleites, C. และ Neugebauer, U. และ Bocklitz, T. และ Krafft, C. และ Popp, J: การวางแผนขนาดตัวอย่างสำหรับแบบจำลองการจำแนกประเภท Anal Chim Acta, 2013, 760, 25-33
    DOI: 10.1016 / j.aca.2012.11.007

    ต้นฉบับที่ยอมรับใน arXiv: 1211.1323

  • ฉันไม่เคยมีอะไรใกล้เคียงกับคำแนะนำเหล่านี้ (ข้อมูลสเปกโทรสโกปีสำหรับการใช้งานทางการแพทย์) สิ่งที่ฉันทำคือ: ฉันวัดความมั่นคงของแบบจำลองอย่างใกล้ชิดเป็นส่วนหนึ่งของแบบจำลองและกระบวนการตรวจสอบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.