ชุดข้อมูลที่ดีในการเรียนรู้อัลกอริทึมการเรียนรู้เครื่องพื้นฐานคืออะไรและเพราะอะไร


19

ฉันยังใหม่กับการเรียนรู้ของเครื่องและกำลังมองหาชุดข้อมูลบางอย่างที่ฉันสามารถเปรียบเทียบและตัดกันความแตกต่างระหว่างอัลกอริทึมการเรียนรู้ของเครื่องที่แตกต่างกัน (Decision Trees, Boosting, SVM และ Neural Networks)

ฉันจะหาชุดข้อมูลเหล่านี้ได้จากที่ไหน? ฉันควรมองหาอะไรขณะพิจารณาชุดข้อมูล

มันจะดีถ้าคุณสามารถชี้ไปที่ชุดข้อมูลที่ดีและบอกฉันว่าอะไรทำให้พวกเขาเป็นชุดข้อมูลที่ดี?


6
ฉันสงสัยว่าคำถามนี้ไม่เหมาะสำหรับopendata.stackexchange.com ... เกี่ยวกับชุดข้อมูลตำราเรียนส่วนใหญ่พูดถึงชุดข้อมูลดังกล่าวและทำให้พร้อมใช้งานส่วนใหญ่มีอยู่แล้วในซอฟต์แวร์สถิติหรือในห้องสมุดสำหรับซอฟต์แวร์ดังกล่าว คุณสามารถดูarchive.ics.uci.edu/ml/datasets.html แน่นอนคำถามอื่นคือสิ่งที่ทำให้ชุดข้อมูลบางอย่าง "ดี" สำหรับการเรียนรู้และบางส่วน "ไม่ดี" - เป็นคำถามที่น่าสนใจ
ทิม

คุณจะพบชุดข้อมูลบางส่วนเป็นแพ็คเกจบน CRAN เช่น: ElemStatLearn และอื่น ๆ
kjetil b halvorsen

2
@Tim เนื่องจากมีมุมมองการสอนสำหรับคำถามนี้ (ตัวอย่างหนึ่งตัวอย่างของชุดข้อมูล "ดี" สำหรับการเรียนรู้คือสิ่งที่แสดงให้เห็นว่าอัลกอริธึมที่แตกต่างกันให้ผลลัพธ์ที่แตกต่างกันมาก) ฉันคิดว่ามันเหมาะกว่า CV
Silverfish


@Silverfish: สิ่งนี้ถูกกล่าวถึงใน Meta - “ คำถามเกี่ยวกับชุดข้อมูล”: ข้อยกเว้นที่เป็นไปได้? - & ดูเหมือนจะมีข้อตกลงทั่วไปกับมุมมองของคุณ แต่ฉันก็ยังคิดว่าคำถามนี้ ค่อนข้างกว้าง - อะไรคือความแตกต่างอย่างชัดเจนจากการหาตัวอย่างข้อมูลที่หาได้อย่างอิสระ ?
Scortchi - Reinstate Monica

คำตอบ:


16

ชุดข้อมูลในเว็บไซต์ต่อไปนี้ให้บริการฟรี ชุดข้อมูลเหล่านี้ถูกใช้เพื่อสอนอัลกอริธึม ML ให้กับนักเรียนเพราะส่วนใหญ่มีคำอธิบายเกี่ยวกับชุดข้อมูล นอกจากนี้ยังได้รับการกล่าวถึงว่าอัลกอริทึมประเภทใดที่ใช้งานได้

  1. UCI- คลังเก็บการเรียนรู้ของเครื่อง
  2. บริษัท ML
  3. รูปภาพ Mammo
  4. มู่หลาน

11

Kaggleมีชุดข้อมูลทั้งหมดที่คุณสามารถใช้เพื่อฝึกหัดได้

(ฉันประหลาดใจที่ไม่ได้พูดถึง!)

มีสองสิ่ง (ในจำนวนอื่น ๆ ) ที่ทำให้เป็นทรัพยากรที่มีค่าสูง:

  • ชุดข้อมูลที่สะอาดจำนวนมาก ในขณะที่ชุดข้อมูลที่ปราศจากเสียงรบกวนนั้นไม่ได้เป็นตัวแทนของชุดข้อมูลในโลกแห่งความเป็นจริง แต่ก็มีความเหมาะสมอย่างยิ่งสำหรับจุดประสงค์ของคุณนั่นคือการปรับใช้อัลกอริทึม ML
  • นอกจากนี้คุณยังสามารถดู ML รุ่นอื่น ๆ สำหรับชุดข้อมูลเดียวกันซึ่งอาจเป็นวิธีที่สนุกในการรับแฮ็กไปพร้อมกัน มันไปโดยไม่บอกว่าการได้รับประสบการณ์จากการเรียนรู้จากผู้ปฏิบัติที่ดีที่สุดนั้นเป็นประโยชน์อย่างยิ่ง

1
นี่ควรเป็นคำตอบที่ดีที่สุดเพราะนอกเหนือจากชุดข้อมูลที่หลากหลายฟอรัมสำหรับความท้าทายแต่ละครั้งยังเป็นทรัพยากรที่มีค่ายิ่งสำหรับการเก็บเทคนิคและลูกเล่นพร้อมด้วยตัวอย่างโค้ด
Alex R.

2

อันดับแรกฉันขอแนะนำให้เริ่มต้นด้วยข้อมูลตัวอย่างที่ให้มาพร้อมกับซอฟต์แวร์ การแจกแจงซอฟต์แวร์ส่วนใหญ่มีข้อมูลตัวอย่างที่คุณสามารถใช้เพื่อทำความคุ้นเคยกับอัลกอริทึมโดยไม่ต้องเกี่ยวข้องกับชนิดข้อมูลและมวยปล้ำข้อมูลในรูปแบบที่ถูกต้องสำหรับอัลกอริทึม แม้ว่าคุณกำลังสร้างอัลกอริธึมจากศูนย์คุณสามารถเริ่มต้นด้วยตัวอย่างจากการนำไปใช้ที่คล้ายกันและเปรียบเทียบประสิทธิภาพ

ประการที่สองฉันขอแนะนำให้ทดลองชุดข้อมูลสังเคราะห์เพื่อให้เข้าใจถึงวิธีการทำงานของอัลกอริทึมเมื่อคุณทราบว่าข้อมูลถูกสร้างขึ้นและอัตราส่วนสัญญาณต่อเสียงรบกวนอย่างไร

ใน R คุณสามารถแสดงรายการชุดข้อมูลทั้งหมดในแพ็คเกจที่ติดตั้งในปัจจุบันด้วยคำสั่งนี้:

data(package = installed.packages()[, 1])

R แพ็คเกจmlbenchมีชุดข้อมูลจริงและสามารถสร้างชุดข้อมูลสังเคราะห์ที่มีประโยชน์สำหรับการศึกษาประสิทธิภาพของอัลกอริทึม

Scikit-Learnของ Python มีข้อมูลตัวอย่างและสร้างชุดข้อมูลสังเคราะห์ / ของเล่นด้วย

SAS มีชุดข้อมูลการฝึกอบรมสำหรับดาวน์โหลดและติดตั้งข้อมูลตัวอย่าง SPSS พร้อมซอฟต์แวร์ที่ C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples

ท้ายสุดฉันจะดูข้อมูลในป่า ฉันจะเปรียบเทียบประสิทธิภาพของอัลกอริทึมที่แตกต่างกันและพารามิเตอร์การปรับแต่งกับชุดข้อมูลจริง ซึ่งมักจะต้องใช้งานมากกว่านี้เพราะคุณจะไม่ค่อยพบชุดข้อมูลที่มีชนิดข้อมูลและโครงสร้างที่คุณสามารถวางลงในอัลกอริทึมของคุณได้

สำหรับข้อมูลในป่าฉันอยากจะแนะนำ:

ชุดข้อมูลของ Reddit

รายการของ KDnugget


1
สำหรับผู้ที่ไม่ได้มีการวิจัยและไม่ต้องการที่จะดาวน์โหลดได้เพียงเพื่อให้ได้รับการเข้าถึงชุดข้อมูลเหล่านี้ชุดข้อมูลและรายละเอียดที่มีอยู่ทั่วไปที่นี่
gung - Reinstate Monica

0

Irisชุดข้อมูลมือลง มันอยู่ในฐาน R เช่นกัน


1
โปรดตอบคำถามสำคัญ: "... บอกฉันหน่อยว่าอะไรทำให้พวกเขาเป็นชุดข้อมูลที่ดี?"
whuber

0

ในความคิดของฉันคุณควรเริ่มต้นด้วยชุดข้อมูลขนาดเล็กที่ไม่มีคุณสมบัติมากเกินไป

ตัวอย่างหนึ่งจะเป็นชุดข้อมูลของ Iris (สำหรับการจำแนก) มันมี 3 คลาส 50 ตัวอย่างสำหรับแต่ละคลาสรวม 150 จุดข้อมูล แหล่งข้อมูลหนึ่งที่ยอดเยี่ยมที่จะช่วยคุณสำรวจชุดข้อมูลนี้คือชุดวิดีโอของ Data School

ชุดข้อมูลอื่นสำหรับการชำระเงินคือชุดข้อมูลคุณภาพไวน์จากที่เก็บ UCI -ML มีจุดข้อมูล 4898 พร้อมคุณลักษณะ 12 อย่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.