อันดับแรกฉันขอแนะนำให้เริ่มต้นด้วยข้อมูลตัวอย่างที่ให้มาพร้อมกับซอฟต์แวร์ การแจกแจงซอฟต์แวร์ส่วนใหญ่มีข้อมูลตัวอย่างที่คุณสามารถใช้เพื่อทำความคุ้นเคยกับอัลกอริทึมโดยไม่ต้องเกี่ยวข้องกับชนิดข้อมูลและมวยปล้ำข้อมูลในรูปแบบที่ถูกต้องสำหรับอัลกอริทึม แม้ว่าคุณกำลังสร้างอัลกอริธึมจากศูนย์คุณสามารถเริ่มต้นด้วยตัวอย่างจากการนำไปใช้ที่คล้ายกันและเปรียบเทียบประสิทธิภาพ
ประการที่สองฉันขอแนะนำให้ทดลองชุดข้อมูลสังเคราะห์เพื่อให้เข้าใจถึงวิธีการทำงานของอัลกอริทึมเมื่อคุณทราบว่าข้อมูลถูกสร้างขึ้นและอัตราส่วนสัญญาณต่อเสียงรบกวนอย่างไร
ใน R คุณสามารถแสดงรายการชุดข้อมูลทั้งหมดในแพ็คเกจที่ติดตั้งในปัจจุบันด้วยคำสั่งนี้:
data(package = installed.packages()[, 1])
R แพ็คเกจmlbenchมีชุดข้อมูลจริงและสามารถสร้างชุดข้อมูลสังเคราะห์ที่มีประโยชน์สำหรับการศึกษาประสิทธิภาพของอัลกอริทึม
Scikit-Learnของ Python มีข้อมูลตัวอย่างและสร้างชุดข้อมูลสังเคราะห์ / ของเล่นด้วย
SAS มีชุดข้อมูลการฝึกอบรมสำหรับดาวน์โหลดและติดตั้งข้อมูลตัวอย่าง SPSS พร้อมซอฟต์แวร์ที่ C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
ท้ายสุดฉันจะดูข้อมูลในป่า ฉันจะเปรียบเทียบประสิทธิภาพของอัลกอริทึมที่แตกต่างกันและพารามิเตอร์การปรับแต่งกับชุดข้อมูลจริง ซึ่งมักจะต้องใช้งานมากกว่านี้เพราะคุณจะไม่ค่อยพบชุดข้อมูลที่มีชนิดข้อมูลและโครงสร้างที่คุณสามารถวางลงในอัลกอริทึมของคุณได้
สำหรับข้อมูลในป่าฉันอยากจะแนะนำ:
ชุดข้อมูลของ Reddit
รายการของ KDnugget