ซอฟต์แวร์สร้างภาพข้อมูลสำหรับการทำคลัสเตอร์


14

ฉันต้องการรวมกลุ่ม ~ 22,000 คะแนน อัลกอริทึมการจัดกลุ่มจำนวนมากทำงานได้ดีขึ้นด้วยการเดาเริ่มต้นที่มีคุณภาพสูงขึ้น มีเครื่องมืออะไรบ้างที่สามารถให้ความคิดที่ดีเกี่ยวกับรูปทรงคร่าวๆของข้อมูล

ฉันต้องการเลือกการวัดระยะทางของฉันเองดังนั้นโปรแกรมที่ฉันสามารถป้อนรายการระยะทางตามเข็มคู่เพื่อให้ใช้ได้ ฉันต้องการที่จะทำบางสิ่งบางอย่างเช่นไฮไลต์ภูมิภาคหรือคลัสเตอร์บนจอแสดงผลและรับรายการจุดข้อมูลที่อยู่ในพื้นที่นั้น

ต้องการซอฟต์แวร์ฟรี แต่ฉันมี SAS และ MATLAB อยู่แล้ว

คำตอบ:


11

GGobi (http://www.ggobi.org/) พร้อมกับแพ็คเกจ rggobi นั้นเหมาะสมที่สุดสำหรับงานนี้

ดูงานนำเสนอที่เกี่ยวข้องสำหรับตัวอย่าง: http://www.ggobi.org/book/2007-infovis/05-clustering.pdf


ขอบคุณสำหรับคำแนะนำ @Shane ggobi ดูมีความหวังฉันกำลังติดตั้งตอนนี้และจะลองทำ :)

1
ทำงานได้ดีบนแพลตฟอร์มอื่น ๆ แต่ gtk เล่นได้ไม่ดีกับ OSX

3
gtk ใช้ได้บน OSX
hadley

5

การสำรวจผลการจัดกลุ่มในมิติที่สูงสามารถทำได้ในRใช้แพคเกจclusterflyและgcExplorer ดูเพิ่มเติมที่นี่


ขอบคุณ แต่มีประโยชน์ในการใช้ clusterfly แทนที่จะเรียก ggobi โดยตรงหรือไม่ เว็บไซต์กล่าวถึงวิธีการจัดกลุ่มที่น่าสนใจ แต่ยังไม่ใช่เป้าหมายหลักของฉัน gcexplorer มีเว็บไซต์ที่ให้ข้อมูลน้อย แต่ดูเหมือนว่าจะแสดงข้อมูลเป็นภาพหลังจากแบ่งเป็นกลุ่มแล้ว ฉันจะให้พวกเขาลองเมื่อฉันไปถึงจุดนั้น แต่ไม่ใช่สิ่งที่ฉันต้องการในตอนนี้

4

(เดือนต่อมา) วิธีที่ดีในการถ่ายภาพกลุ่ม k และการเห็นเอฟเฟกต์ของ k ต่างๆคือการสร้าง ต้นไม้ Spanning ต่ำสุด และดูที่ขอบที่ยาวที่สุด ตัวอย่างเช่น,

ข้อความแสดงแทน

ที่นี่มี 10 กลุ่มมี 9 ขอบที่ยาวที่สุด 855 899 942 954 1003 1005 1069 1134 1267
สำหรับ 9 กลุ่มยุบขอบฟ้า 855; สำหรับ 8, 899 สีม่วง; และอื่น ๆ

อัลกอริทึมการจัดกลุ่ม k-link เดียว ... เป็นอัลกอริทึมของ Kruskal อย่างแม่นยำ ... เทียบเท่ากับการค้นหา MST และลบขอบที่แพงที่สุดของ k-1

- เวย์น โลภอัลกอริทึม

22,000 คะแนน, ระยะทาง 242M คู่, ใช้เวลา ~ 1 กิกะไบต์ (ลอย 32): อาจพอดี

หากต้องการดูต้นไม้หรือกราฟมิติสูงในแบบ 2 มิติดูมาตราส่วนแบบหลายมิติ (เช่นจาก Kruskal) และวรรณกรรมขนาดใหญ่เกี่ยวกับการลดขนาด อย่างไรก็ตามในความมืด> 20 บอกว่าระยะทางส่วนใหญ่จะอยู่ใกล้ค่ามัธยฐานดังนั้นฉันเชื่อว่าการลดขนาดไม่สามารถทำได้ที่นั่น


2

ฉันมีประสบการณ์ที่ดีกับKNIMEในช่วงหนึ่งในโครงการของฉัน เป็นโซลูชั่นที่ยอดเยี่ยมสำหรับการขุดและกราฟแบบสำรวจอย่างรวดเร็ว ยิ่งไปกว่านั้นยังให้การรวมโมดูล R และ Weka ได้อย่างราบรื่น


ดูเหมือนโปรแกรมที่มีประโยชน์ แต่หน้าเว็บของพวกเขาทำงานได้ไม่ดีในการโน้มน้าวฉันว่ามันจะแก้ปัญหานี้ได้แน่นอน ดูเหมือนว่ามันอาจจะกว้างเกินไปคุณสมบัติหลายอย่างที่ฉันไม่สนใจทำให้มันยากที่จะทำสิ่งง่าย ๆ ฉันจะให้มันดูอีกถ้าตัวเลือกอื่นไม่ได้ผล


1

ลองดูที่คลัสเตอร์ 3.0 ฉันไม่แน่ใจว่ามันจะทำทุกอย่างที่คุณต้องการ แต่มันเป็นเอกสารที่ค่อนข้างดีและให้คุณเลือกจากตัวชี้วัดระยะทางสองสามระยะ การสร้างภาพข้อมูลคือผ่านโปรแกรมแยกต่างหากที่เรียกว่าJava TreeView ( ภาพหน้าจอ )


ขอบคุณสำหรับข้อเสนอแนะ แต่ความสามารถในการเลือกการวัดระยะทางของฉันเองเป็นสิ่งสำคัญดังนั้นสิ่งนี้จะไม่ได้ผลสำหรับฉัน คนอื่นอาจพบว่ามีประโยชน์แม้ว่า

1

GGobi ดูน่าสนใจสำหรับเรื่องนี้ อีกวิธีหนึ่งคือการรักษาเมทริกซ์ระยะทางที่เหมือนกัน / ผกผันของคุณในฐานะเมทริกซ์ adjacency เครือข่ายและป้อนเข้าไปในรูทีนการวิเคราะห์เครือข่าย (เช่น igraph ใน R หรือ Pajek) ด้วยวิธีการนี้ฉันจะทดลองตัดการตัดระยะทางของโหนดเป็นเน็คไทแบบไบนารีที่จุดตัดต่าง ๆ


ฉันคิดเกี่ยวกับเรื่องนี้ แต่ดูเหมือนจะไม่เป็นจุดตัดที่สมเหตุสมผลและผู้เชี่ยวชาญด้านโดเมนก็ไม่สามารถพิสูจน์ได้เช่นกัน

ฉันคิดว่านี่อาจเป็นเรื่องที่ยุติธรรมสำหรับจุดประสงค์ของคุณ - โดยสุจริตคุณอาจไม่จำเป็นต้องตัดเป็นไบนารี่จริง ๆ เพียงแค่เขียนฉลากค่าเสมอในระดับ 1 ถึงจำนวนที่สามารถจัดการได้แล้วค่อยซ่อน / แสดงความสัมพันธ์ที่ ระดับต่าง ๆ (เลือกที่จะซ่อน / กำจัดจี้และเด็กกำพร้าไปพร้อมกันด้วย) ไม่ตอบสนองคำขอของคุณโดยตรงเป็นลายลักษณ์อักษร แต่ทำไมไม่ลองใช้วิธีการทั่วไปมากขึ้นและใช้วิธีการจัดกลุ่มแบบไฮบริดที่ไม่ใช้ centroids เริ่มต้นเพื่อระบุกลุ่มเบื้องต้นจากนั้นป้อน Centroid จากผลลัพธ์นั้นเป็นการวิเคราะห์ใหม่ของคุณ
Shelby

ฉันเดาว่าคุณหมายถึงการลองตัดที่แตกต่างกันมากมายจนกว่าฉันจะเห็นผลลัพธ์ที่ดีบ้างไหม? ฉันต้องการหลีกเลี่ยงปัญหานี้ด้วยเหตุผลการเปรียบเทียบหลายมาตรฐาน Re: ข้อเสนอแนะที่สองของคุณฉันคิดว่าฉันเชื่อมั่นในตัวเองดีกว่าอัลกอริทึม ฉันใช้คอมพิวเตอร์เพื่อประมวลผลข้อมูลจำนวนมากที่น่าเบื่อเกินกว่าที่จะทำด้วยมือไม่ใช่เพื่อแทนที่ความคิดของฉัน

1
คุณกำลังใช้ภาษาทดสอบสมมติฐาน แต่ยังพูดถึงวิธีการแบบสำรวจความรู้เมื่อคุณเห็นมันในเวลาเดียวกันดังนั้นจึงไม่ชัดเจนว่าเป้าหมายของคุณคืออะไรสำหรับการวิเคราะห์ในส่วนนี้ หากคุณมีสมมติฐานที่คุณกำลังทดสอบในภายหลัง (เช่นการคาดการณ์ความเป็นสมาชิกคลัสเตอร์หรือใช้การเป็นสมาชิก clust เป็นตัวทำนาย) คุณสามารถเลือกที่จะไม่ทำสิ่งต่าง ๆ ที่จะมีอคติได้ แต่ปัญหา "การเปรียบเทียบหลายรายการ" ไม่ได้หมายถึงปัญหาเชิงสำรวจที่คุณกำลังอธิบาย การตัดสั้น ๆ มีไว้เพื่อช่วยให้คุณเห็นว่ามีอะไร - แต่ความไว้วางใจของคุณอาจยังคงหายไป
Shelby

1

Wekaเป็นโปรแกรมโอเพนซอร์ซสำหรับการทำดาต้า (น่ากลัวและขยายได้ใน Java), ออเรนจ์เป็นโปรแกรมโอเพ่นซอร์สและห้องสมุดสำหรับการขุดข้อมูลและการเรียนรู้ของเครื่อง (เขียนด้วย Python) พวกเขาทั้งสองช่วยให้การสำรวจข้อมูลหลายมิติที่มองเห็นได้สะดวกและมีประสิทธิภาพ


หน้าคุณสมบัติของออเรนจ์ระบุว่า 'กำลังก่อสร้าง' และพวกเขาไม่ได้จัดทำภาพหน้าจอเหมือนที่ฉันทำ weka ไม่มีรายการคุณสมบัติเลย พวกเขาอาจทำสิ่งที่ฉันต้องการ แต่ถ้าพวกเขาไม่ส่งเสริมคุณสมบัติฉันจะบอกได้อย่างไร ฉันมั่นใจมากขึ้นโดยตัวเลือกอื่น ๆ

0

ซอฟต์แวร์ตัวเลข DataMelt ฟรีรวมถึงไลบรารี Java ที่เรียกว่า JMinHep โปรดดูคู่มือภายใต้หัวข้อ "การจัดกลุ่มข้อมูล" มันมี GUI เพื่อแสดงจุดข้อมูลหลายมิติใน XY และเรียกใช้อัลกอริทึมการจัดกลุ่มข้อมูลจำนวนมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.