ฉันจะหาชุดข้อมูลที่มีประโยชน์สำหรับการทดสอบการใช้งานการเรียนรู้ด้วยตนเองได้อย่างไร [ปิด]


9

ฉันกำลังพยายามใช้อัลกอริทึมการเรียนรู้ด้วยตนเองบางอย่างด้วยตัวเอง หลายคนมีคุณสมบัติที่น่ารังเกียจในการแก้ไขข้อบกพร่องบางข้อไม่ทำให้โปรแกรมขัดข้อง แต่ทำงานไม่ได้ตามที่ต้องการและดูเหมือนว่าอัลกอริธึมให้ผลลัพธ์ที่อ่อนแอกว่า

ฉันต้องการเพิ่มความมั่นใจในการใช้งานเช่นถ้าฉันมีชุดข้อมูลขนาดเล็กบางส่วนพร้อมข้อมูลเพิ่มเติม "อัลกอริทึม X ทำงานสำหรับการทำซ้ำ Y และให้ผลลัพธ์ Z ในชุดข้อมูลนี้" ซึ่งจะเป็นประโยชน์จริง ๆ มีใครเคยได้ยินชุดข้อมูลดังกล่าวบ้างไหม


คุณทำวิจัยอะไรในการตรวจสอบคำถามนี้ ในตอนแรกหน้าแดงคนอื่นคิดว่าวรรณกรรมที่คุณใช้เพื่อค้นหาอัลกอริทึมเหล่านี้จะเป็นชุดข้อมูลที่เต็มไปด้วยตัวอย่าง
whuber

1
ฉันรู้ ML ส่วนใหญ่มาจากหลักสูตรมหาวิทยาลัย Coursea วิดีโอการบรรยายทางอินเทอร์เน็ตและเอกสารสองสามเรื่องที่ฉันได้อ่านในหัวข้อที่เฉพาะเจาะจง ฉันรู้ว่ามีชุดข้อมูลตัวอย่างจำนวนมากในทุกที่ แต่ฉันกำลังมองหาบางอย่างพร้อมด้วยข้อมูลว่าอัลกอริธึม ML ที่แตกต่างกันนั้นมีผลกับพวกเขาอย่างไร
sjm.majewski

เมื่อไม่นานมานี้ ICML มีบทความที่ดีเกี่ยวกับปัญหาของชุดข้อมูลที่เป็นมาตรฐานซึ่งจะหยุดคุณจากการคิดหนักเกินไปเกี่ยวกับปัญหาในโลกแห่งความเป็นจริงและความยุ่งเหยิงที่ปัญหาในโลกแห่งความเป็นจริงเกี่ยวข้อง โดยส่วนตัวเมื่อฉันเริ่มใช้ข้อมูลในโลกแห่งความจริงความสามารถของฉันในฐานะที่เป็นผู้ฝึกหัดเริ่มเบ่งบาน ดังนั้นในขณะที่ฉันจะไม่กีดกันคุณจากการใช้สิ่งต่าง ๆ เช่น UCI เป็นหินก้าวหรือการทดสอบให้จับตาดูรางวัล!
Patrick Caldon

1
คุณควรระบุประเภทของการเรียนรู้ของเครื่องที่คุณกำลังทำ ชุดข้อมูลการจำแนกไบนารีจะแตกต่างจากชุดข้อมูลการประมาณฟังก์ชั่น (การถดถอย)
Douglas Zare

คำตอบ:


10

จากที่เก็บการเรียนรู้ของเครื่อง Irvine ของ UC :

ขณะนี้เรามีชุดข้อมูล 223 ชุดเป็นบริการสำหรับชุมชนการเรียนรู้ของเครื่อง คุณสามารถดูชุดข้อมูลทั้งหมดผ่านอินเทอร์เฟซที่ค้นหาได้ของเรา เว็บไซต์เก่าของเรายังคงมีให้บริการสำหรับผู้ที่ชื่นชอบรูปแบบเก่า ... หากคุณต้องการบริจาคชุดข้อมูลโปรดอ่านนโยบายการบริจาคของเรา ... เราได้ตั้งค่าไซต์มิเรอร์สำหรับที่เก็บ

นอกจากนี้ชุดข้อมูล MIASต่อไปนี้ยังใช้กันอย่างแพร่หลายและศึกษา:

เมื่อทำการเปรียบเทียบอัลกอริธึมแนะนำให้ใช้ฐานข้อมูลทดสอบมาตรฐาน (ชุดข้อมูล) เพื่อให้นักวิจัยสามารถเปรียบเทียบผลลัพธ์ได้โดยตรง ฐานข้อมูลแมมโมแกรมส่วนใหญ่ไม่เปิดเผยต่อสาธารณะ ฐานข้อมูลที่เข้าถึงได้ง่ายที่สุดและฐานข้อมูลที่ใช้บ่อยที่สุดคือฐานข้อมูล Mammographic Image Analysis Society (MIAS) และฐานข้อมูลดิจิตอลสำหรับการคัดกรอง Mammography (DDSM) นอกจากนี้ยังมีโครงการไม่กี่แห่งที่พัฒนาฐานข้อมูลภาพสัตว์เลี้ยงลูกด้วยนมใหม่เช่นเดียวกับโครงการเก่าหลายโครงการ


2
+1 หากคุณหาแหล่งข้อมูลเพิ่มเติมต่อโปรดเพิ่มคำตอบนี้
whuber

5

ที่เก็บ UCI ที่กล่าวถึงโดย Bashar น่าจะเป็นที่ใหญ่ที่สุดอย่างไรก็ตามฉันต้องการเพิ่มคอลเล็กชันขนาดเล็กสองสามตัวที่ฉันพบ:

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.