ให้ผมโดยไม่ต้องไปไกลเพียงเพื่อคัดลอกวางรายการของตัวเลือกจากฟังก์ชั่นของตัวเอง!kmini
(แมโครสำหรับโปรแกรม SPSS) พบในคอลเลกชัน "กลุ่ม" ที่นี่
วิธีการสร้างหรือเลือกศูนย์คลัสเตอร์เริ่มต้น เลือก:
- RGC - centroids ของ subsamples ข้อมูลจะถูกแบ่งแบบสุ่มโดย
k
nonoverlapping โดยการเป็นสมาชิกกลุ่มและ centroids ของกลุ่มเหล่านี้ได้รับการแต่งตั้งให้เป็นศูนย์กลางเริ่มต้น ดังนั้นศูนย์จะถูกคำนวณไม่ได้เลือกจากกรณีชุดข้อมูลที่มีอยู่ วิธีนี้ให้ผลศูนย์ที่อยู่ใกล้กันและ centroid ทั่วไปของข้อมูล
- RP - จุดสุ่มเลือก
k
กรณีที่แตกต่างกันของข้อมูลจะถูกสุ่มเลือกให้เป็นศูนย์เริ่มต้น
- RUNFP -
จุดที่ไกลที่สุด (การเลือกวิ่ง)
k
กรณีแรกจะถูกนำมาเป็นศูนย์กลางแล้วในระหว่างการดำเนินการผ่านส่วนที่เหลือของชุดข้อมูลที่มีการเปลี่ยนอย่างต่อเนื่องระหว่างศูนย์จะทำ; จุดมุ่งหมายของการเปลี่ยนคือการได้รับในk
จุดสิ้นสุดที่ไกลที่สุดจากกันในพื้นที่ตัวแปร จุดเหล่านี้ (กรณี) ที่ครอบครองตำแหน่งอุปกรณ์ต่อพ่วงในคลาวด์ข้อมูลเป็นศูนย์เริ่มต้นที่สร้างขึ้น (วิธีนี้ใช้เป็นค่าเริ่มต้นในโพรซีเดอร์ SPSS k-mean QUICK CLUSTER
ดูรายละเอียดในอัลกอริธึม SPSS ดูเพิ่มเติมที่นี่ )
- SIMFP - จุดที่ไกลที่สุด (ตัวเลือกง่าย) ศูนย์แรกถูกเลือกเป็นกรณีสุ่มจากชุดข้อมูล ศูนย์ที่ 2 ถูกเลือกให้เป็นเคสที่อยู่ห่างจากศูนย์กลางมากที่สุด ศูนย์ที่ 3 ถูกเลือกเป็นกรณีที่อยู่ไกลสุดจากทั้งสอง (จากที่ใกล้ที่สุดของทั้งสอง) - และอื่น ๆ
- KMPP - คะแนนที่สุ่มมากที่สุดหรือ k- mean ++ ศูนย์แรกถูกเลือกเป็นกรณีสุ่มจากชุดข้อมูล จุดศูนย์กลางที่ 2 จะถูกเลือกแบบสุ่ม แต่ความน่าจะเป็นของการเลือกเคสเป็นสัดส่วนกับระยะทาง จุดศูนย์กลางที่ 3 จะถูกเลือกแบบสุ่มด้วยความน่าจะเป็นของการเลือกตามสัดส่วนของระยะทางของคดีไปจนถึงจุดศูนย์กลางที่ใกล้ที่สุดของทั้งสองศูนย์ - และอื่น ๆ (Arthur, D. , Vassilvitskii, S .. K-หมายถึง ++: ข้อดีของการเพาะอย่างระมัดระวัง // การดำเนินการของการประชุมวิชาการ ACM-SIAM ประจำปีครั้งที่ 18 บนอัลกอริทึมแบบแยกส่วน 2007. , 1027–1035)
- GREP - จุดตัวแทนกลุ่ม แนวคิดวิธี - เพื่อรวบรวมเป็นศูนย์
k
ตัวแทนส่วนใหญ่ "รอง" กรณี ศูนย์ที่ 1 จะถูกนำมาเป็นกรณีที่ใกล้เคียงกับข้อมูลทั่วไป จากนั้นส่วนที่เหลือของศูนย์จะถูกเลือกจากจุดข้อมูลในลักษณะที่แต่ละจุดนั้นพิจารณาว่ามันใกล้ชิดกันมากขึ้น (และเท่าใดในแง่ของระยะทางแบบยุคลิดปริภูมิสแควร์) กับชุดของคะแนนมากกว่าจุดหลังแต่ละจุด คือศูนย์ใด ๆ ที่มีอยู่แล้ว คือแต่ละจุดถูก examed เป็นผู้สมัครเพื่อเป็นตัวแทนของกลุ่มบางจุดยังไม่ดีพอโดยศูนย์รวบรวมแล้ว จุดตัวแทนส่วนใหญ่ในแง่นี้ถูกเลือกเป็นศูนย์ต่อไป (Kaufman, L. Rousseeuw, PJ การค้นหากลุ่มในข้อมูล: รู้เบื้องต้นเกี่ยวกับการวิเคราะห์กลุ่ม, 1990. ดูเพิ่มเติมที่: Pena, JM et al. การเปรียบเทียบเชิงประจักษ์ของวิธีการเริ่มต้นสี่วิธีสำหรับ K-หมายถึงอัลกอริทึมการรู้จำ Lett 20 (10), 1999,
- [นอกจากนี้ยังมีวิธีการที่ดีที่ฉันยังไม่ได้ใช้ในมาโครเพื่อสร้าง
k
คะแนนซึ่งมาจากชุดเครื่องแบบแบบสุ่ม แต่ "สุ่มน้อยกว่าแบบสุ่ม" อยู่ระหว่างการสุ่มและความโลภ ดูพื้นฐานทางทฤษฎีที่เป็นไปได้สำหรับวิธีการนั้น]
- อีกวิธีหนึ่งคือการทำคลัสเตอร์แบบลำดับชั้นโดยวิธีของ Ward คุณสามารถทำได้บนตัวอย่างย่อยของวัตถุหากตัวอย่างมีขนาดใหญ่เกินไป จากนั้นค่าเฉลี่ยของ
k
กระจุกที่ผลิตโดยมันคือเมล็ดเริ่มต้นสำหรับกระบวนงาน k-mean Ward ของดีกว่าวิธีการจัดกลุ่มแบบลำดับชั้นอื่น ๆ เพราะมันแบ่งปันวัตถุประสงค์เป้าหมายร่วมกับ k-mean
วิธีการ RGC, RP, SIMFP, KMPP ขึ้นอยู่กับตัวเลขสุ่มและอาจเปลี่ยนผลลัพธ์จากการวิ่งเป็นวิ่ง
เมธอด RUNFP อาจมีความอ่อนไหวต่อลำดับของเคสในชุดข้อมูล แต่วิธีการ GREP ไม่ได้ (นอกเหนือจากโอกาสที่มีหลายกรณีที่เหมือนกัน, ความสัมพันธ์, ในข้อมูล) วิธี GREP อาจล้มเหลวในการเก็บรวบรวมทั้งหมดk
ศูนย์ถ้าk
มีขนาดใหญ่ญาติจำนวนผู้ป่วยในข้อมูล (คนn
) k>n/2
โดยเฉพาะอย่างยิ่งเมื่อ [แมโครจะแจ้งให้ทราบหากข้อมูลไม่อนุญาตให้วิธีการรวบรวมk
ศูนย์] วิธีการ GREP เป็นวิธีที่ช้าที่สุดคำนวณค่าเมทริกซ์ของระยะทางระหว่างทุกกรณีดังนั้นมันจึงไม่เหมาะถ้ามีหลายกรณีเป็นหมื่นหรือหลายล้านกรณี อย่างไรก็ตามคุณสามารถทำได้โดยการสุ่มข้อมูลตัวอย่าง
ฉันไม่ได้พูดคุยกันในปัจจุบันว่าวิธีการใดที่ "ดีกว่า" และในสถานการณ์ใดเพราะฉันยังไม่ได้ทำการตรวจสอบคำถามอย่างละเอียด การแสดงผลเบื้องต้นและผิวเผินของฉันคือ GREP มีค่าอย่างยิ่ง (แต่แพง) และถ้าคุณต้องการวิธีการที่ราคาถูกจริงๆยังคงแข่งขันได้เพียงพอแล้วเพียงแค่สุ่มคะแนน k, RP เป็นตัวเลือกที่เหมาะสม