กำลังมองหาข้อมูลประดิษฐ์ 2D เพื่อแสดงคุณสมบัติของอัลกอริทึมการจัดกลุ่ม


9

ฉันกำลังมองหาชุดข้อมูลของ 2 มิติดาต้าพอยน์ (แต่ละดาต้าพอยน์เป็นเวกเตอร์ของสองค่า (x, y)) ตามการแจกแจงและรูปแบบที่แตกต่างกัน รหัสเพื่อสร้างข้อมูลดังกล่าวก็จะเป็นประโยชน์ ฉันต้องการใช้พวกเขาเพื่อพล็อต / เห็นภาพว่าอัลกอริทึมการจัดกลุ่มทำงานอย่างไร นี่คือตัวอย่างบางส่วน:


ฉันลงคะแนนให้ cw;)
steffen

คำถามที่คล้ายกันในบรรทัดของชุดข้อมูลที่เฉพาะเจาะจงถูกปิดที่นี่: stats.stackexchange.com/questions/38928/…
hearse

สำหรับ SPSS ฉันได้เขียนมาโครสร้างคลัสเตอร์ (เยี่ยมชมหน้าของฉันดู "สร้างกลุ่ม") อย่างไรก็ตามมันไม่ได้สร้างรูปทรงที่น่าเกรงขามเช่นวงแหวนหรือเกลียว
ttnphns

คำตอบ:


11

Rมาพร้อมกับชุดข้อมูลจำนวนมากและดูเหมือนว่าจะไม่ใช่เรื่องใหญ่ที่จะทำซ้ำตัวอย่างส่วนใหญ่ที่คุณอ้างถึงด้วยโค้ดไม่กี่บรรทัด นอกจากนี้คุณยังอาจพบmlbenchmlbench.*แพคเกจที่มีประโยชน์ในชุดข้อมูลที่สังเคราะห์โดยเฉพาะอย่างยิ่งที่เริ่มต้นด้วย ภาพประกอบบางอย่างได้รับด้านล่าง

ป้อนคำอธิบายรูปภาพที่นี่

คุณจะพบตัวอย่างเพิ่มเติมโดยดูที่Cluster Task View บน CRAN ตัวอย่างเช่นแพคเกจfpcมีเครื่องกำเนิดไฟฟ้าในตัวสำหรับชุดข้อมูลเบนช์มาร์กมาตรฐาน "รูปหน้า" ( rFace)

ป้อนคำอธิบายรูปภาพที่นี่

การพิจารณาที่คล้ายกันนำไปใช้กับงูหลามที่คุณจะได้พบกับการทดสอบมาตรฐานชุดข้อมูลที่น่าสนใจและสำหรับการจัดกลุ่มกับscikit เรียนรู้

UCI Machine Learning Repository เป็นโฮสต์ของชุดข้อมูลจำนวนมากเช่นกัน แต่คุณควรจำลองข้อมูลด้วยภาษาที่คุณเลือก



2

นี้มาตรฐานการจัดกลุ่มของเล่นมีชุดข้อมูลต่างๆในรูปแบบ ARFF (สามารถแปลงได้อย่างง่ายดายเพื่อ CSV) ส่วนใหญ่ที่มีป้ายชื่อจริงพื้นดิน มาตรฐานควรตรวจสอบคุณสมบัติพื้นฐานที่ต้องการของอัลกอริทึมการจัดกลุ่ม ชุดข้อมูลส่วนใหญ่มาจากเอกสารการทำคลัสเตอร์เช่น:

  • เบิร์ช - จาง, เทียน, Raghu Ramakrishnan และ Miron Livny "เบิร์ช: วิธีจัดกลุ่มข้อมูลที่มีประสิทธิภาพสำหรับฐานข้อมูลขนาดใหญ่มาก" ACM SIGMOD Record ฉบับ 25. ลำดับที่ 2 พลอากาศเอก 2539
  • การรักษา - Guha, Sudipto, Rajeev Rastogi และ Kyuseok Shim "CURE: อัลกอริทึมการจัดกลุ่มที่มีประสิทธิภาพสำหรับฐานข้อมูลขนาดใหญ่" ACM SIGMOD Record ฉบับ 27. ลำดับที่ 2 พลอากาศเอก 2541
  • Chameleon - Karypis, George, Eui-Hong Han และ Vipin Kumar "Chameleon: การจัดกลุ่มลำดับชั้นโดยใช้การสร้างแบบจำลองแบบไดนามิก" คอมพิวเตอร์ 32.8 (1999): 68-75
  • ชุดปัญหาการจัดกลุ่มพื้นฐาน - Ultsch, A .: การทำคลัสเตอร์กับ SOM: U * C ใน Proc การประชุมเชิงปฏิบัติการเกี่ยวกับแผนที่ที่จัดระเบียบตนเอง, ปารีส, ฝรั่งเศส, (2005), pp. 75-82
  • MOCK - Handl, Julia และ Joshua Knowles "วิธีการวิวัฒนาการเพื่อการจัดกลุ่มแบบหลายจุด" การคำนวณเชิงวิวัฒนาการ, ธุรกรรม IEEE เมื่อวันที่ 11.1 (2007): 56-76
  • การจัดกลุ่มสเปกตรัมตามเส้นทางที่แข็งแกร่ง - Chang, Hong และ Dit-Yan Yeung "การจัดกลุ่มสเปกตรัมตามเส้นทางที่แข็งแกร่ง" การจดจำรูปแบบ 41.1 (2008): 191-203

ข้อมูล karypis ข้อมูล cluto


1

ELKIมาพร้อมกับชุดข้อมูลสองสามชุด (ตรวจสอบการทดสอบหน่วยพวกเขามีมากกว่าชุดข้อมูลบนเว็บไซต์พร้อมกับการตั้งค่าพารามิเตอร์)

นอกจากนี้ยังมีตัวสร้างข้อมูลที่ยืดหยุ่นพอสมควร


1

นี่คือตัวสร้างคลัสเตอร์ที่ปรับแต่งได้ มันระบุที่อยู่ของคลาสชุดข้อมูลเท่านั้น แต่สามารถใช้สำหรับการตรวจสอบอัลกอริทึมคลัสเตอร์ได้อย่างแน่นอน

นี่คือตัวอย่างของชนิดของคลัสเตอร์ที่สามารถสร้าง:

http://i.stack.imgur.com/vrCG5.png

การเข้าร่วมของคลัสเตอร์จะถูกบันทึกในไฟล์ข้อความ รหัสนี้เป็นโอเพ่นซอร์สภายใต้ลิขสิทธิ์ของ MIT


1

สคริปต์ Matlabนี้สร้างข้อมูล 2D สำหรับการทำคลัสเตอร์ ยอมรับพารามิเตอร์หลายตัวเพื่อให้ข้อมูลที่สร้างอยู่ภายในข้อกำหนดของผู้ใช้


0

ฉันไม่อยากจะเชื่อเลยว่าไม่มีใครพูดถึงข้อมูล Iris ของ Fisher

ฉันไม่คิดว่าฉันเคยเห็นเทคนิคการจัดกลุ่มที่ไม่ได้ใช้ข้อมูลม่านตาเป็นตัวอย่าง

ใน r เพียงพิมพ์ "iris" เพื่อเข้าถึงข้อมูล

นี่คือตัวอย่างของพล็อตไอริส (และทั่วไป) ที่ดี: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.