จะตีความค่าเฉลี่ยของพล็อต Silhouette ได้อย่างไร?


35

ฉันกำลังพยายามใช้รูปเงาดำเพื่อกำหนดจำนวนของคลัสเตอร์ในชุดข้อมูลของฉัน รับชุดข้อมูลTrainฉันใช้รหัส matlab ต่อไปนี้

Train_data = full(Train);  
Result = [];  
for num_of_cluster = 1:20  
    centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid');  
    s = silhouette(Train_data,centroid,'sqeuclid');  
    Result = [ Result; num_of_cluster mean(s)];  
end  
plot( Result(:,1),Result(:,2),'r*-.');`

พล็อตผลที่จะได้รับด้านล่างด้วย xaxis เป็นจำนวนคลัสเตอร์และ yaxis ค่าเฉลี่ยของความเงา

ฉันจะตีความกราฟนี้ได้อย่างไร ฉันจะกำหนดจำนวนของคลัสเตอร์จากสิ่งนี้ได้อย่างไร?

ป้อนคำอธิบายรูปภาพที่นี่


สำหรับการกำหนดจำนวนของกลุ่มให้ดูทอดขั้นต่ำต้นไม้ (MST) วิธีการภายใต้การสร้างภาพซอฟแวร์สำหรับการจัดกลุ่ม
เดนิส

@Learner: ฟังก์ชั่นภาพเงามีอยู่ในห้องสมุดบ้างไหม? ถ้าไม่คุณสามารถโพสต์ไว้ในคำถามของคุณถ้าคุณไม่รังเกียจ?
ตำนาน

@Legend: มีอยู่ในกล่องเครื่องมือ Matlab Statistics
ผู้เรียน

@Learner: อุ๊ปส์ ... ฉันคิดว่าคุณใช้ Python :) ขอบคุณที่แจ้งให้เราทราบ
ตำนาน

1
+1 สำหรับแสดงรหัส! นอกจากนี้เนื่องจากค่าเฉลี่ยสูงสุดของภาพเงาของคุณเกิดขึ้นเมื่อ k = 2 คุณอาจต้องการตรวจสอบว่าข้อมูลของคุณเป็นกลุ่มหรือไม่ซึ่งสามารถทำได้โดยใช้สถิติช่องว่าง ( ลิงก์อื่น)
Franck Dernoncourt

คำตอบ:


41

คำตอบของ Sergey มีจุดวิกฤติซึ่งก็คือค่าสัมประสิทธิ์ของเงานั้นจะทำการประเมินคุณภาพของการรวมกลุ่มเพื่อให้บรรลุดังนั้นคุณควรเลือกจำนวนของกลุ่มที่เพิ่มสัมประสิทธิ์ของเงาให้ได้มากที่สุด


คำตอบยาว ๆ คือวิธีที่ดีที่สุดในการประเมินผลลัพธ์ของความพยายามในการจัดกลุ่มของคุณคือเริ่มจากการตรวจสอบจริง - การตรวจสอบโดยมนุษย์ - กลุ่มที่เกิดขึ้นและการตัดสินใจบนพื้นฐานของความเข้าใจในสิ่งที่ข้อมูลแสดงถึง และสิ่งที่การจัดกลุ่มมีจุดประสงค์เพื่อให้บรรลุ

มีวิธีการเชิงปริมาณมากมายในการประเมินผลลัพธ์การจัดกลุ่มซึ่งควรใช้เป็นเครื่องมือโดยมีความเข้าใจอย่างเต็มที่ถึงข้อ จำกัด พวกเขามีแนวโน้มที่จะใช้งานง่ายในธรรมชาติและมีเสน่ห์ตามธรรมชาติ (เช่นปัญหาการจัดกลุ่มโดยทั่วไป)

ตัวอย่าง: มวล / รัศมี / ความหนาแน่นการรวมตัวหรือการแยกระหว่างกลุ่มเป็นต้นแนวคิดเหล่านี้มักจะรวมกันเช่นอัตราส่วนของการแยกต่อการรวมกันควรมีขนาดใหญ่ถ้าการจัดกลุ่มสำเร็จ

วิธีการวัดการจัดกลุ่มจะแจ้งให้ทราบตามประเภทของอัลกอริทึมการจัดกลุ่มที่ใช้ ตัวอย่างเช่นการวัดคุณภาพของอัลกอริธึมการจัดกลุ่มที่สมบูรณ์ (ซึ่งทุกจุดถูกใส่เข้าไปในกลุ่ม) อาจแตกต่างจากการวัดคุณภาพของอัลกอริทึมการจัดกลุ่มแบบฟัซซี่แบบอิงเกณฑ์ (ซึ่งในบางประเด็นอาจถูกยกเลิกการจัดกลุ่ม )


ค่าสัมประสิทธิ์เงาเป็นหนึ่งในมาตรการดังกล่าว มันทำงานได้ดังต่อไปนี้:

สำหรับแต่ละจุด p ก่อนอื่นให้หาระยะห่างเฉลี่ยระหว่าง p และจุดอื่น ๆ ทั้งหมดในกลุ่มเดียวกัน (นี่คือการวัดการเชื่อมโยงเรียกว่า A) จากนั้นหาระยะทางเฉลี่ยระหว่าง p และจุดทั้งหมดในคลัสเตอร์ที่ใกล้ที่สุด (นี่คือการวัดระยะห่างจากคลัสเตอร์อื่นที่ใกล้เคียงที่สุดเรียกมันว่า B) สัมประสิทธิ์ภาพเงาสำหรับ p ถูกกำหนดให้เป็นความแตกต่างระหว่าง B และ A หารด้วยค่าที่มากกว่าของทั้งสอง (สูงสุด (A, B))

เราประเมินค่าสัมประสิทธิ์กลุ่มของแต่ละจุดและจากนี้เราสามารถรับค่าสัมประสิทธิ์กลุ่มโดยรวมของ

โดยสังหรณ์ใจเราพยายามวัดช่องว่างระหว่างกลุ่ม หากการรวมกลุ่มเป็นสิ่งที่ดี (A มีขนาดเล็ก) และการแยกกลุ่มเป็นสิ่งที่ดี (B มีขนาดใหญ่) ตัวเศษจะมีขนาดใหญ่เป็นต้น

ฉันได้สร้างตัวอย่างที่นี่เพื่อแสดงให้เห็นถึงกราฟิกนี้

ค่าสัมประสิทธิ์การจัดกลุ่ม ผลลัพธ์ของการทำคลัสเตอร์สำหรับ nclusters = 2: 5

ในแปลงเหล่านี้ข้อมูลเดียวกันถูกพล็อตห้าครั้ง สีบ่งบอกถึงกลุ่มที่สร้างขึ้นโดยการจัดกลุ่ม k-mean ด้วย k = 1,2,3,4,5 นั่นคือฉันได้บังคับใช้อัลกอริทึมการจัดกลุ่มเพื่อแบ่งข้อมูลออกเป็น 2 กลุ่มจากนั้น 3 และอื่น ๆ และวาดกราฟตามสี

พล็อตภาพเงาแสดงให้เห็นว่าค่าสัมประสิทธิ์ภาพเงาสูงที่สุดเมื่อ k = 3 แสดงว่าเป็นจำนวนที่เหมาะสมที่สุดของกลุ่ม ในตัวอย่างนี้เราโชคดีที่สามารถเห็นภาพข้อมูลและเราอาจเห็นด้วยว่ากลุ่มที่สามจับการแบ่งส่วนของชุดข้อมูลนี้ได้ดีที่สุด

หากเราไม่สามารถมองเห็นข้อมูลอาจเป็นเพราะมิติที่สูงกว่าพล็อตภาพเงาจะยังคงให้คำแนะนำแก่เรา อย่างไรก็ตามฉันหวังว่าคำตอบที่ยืดเยื้อของฉันที่นี่ยังทำให้ประเด็นที่ "คำแนะนำ" นี้อาจไม่เพียงพอหรือผิดพลาดในบางสถานการณ์


5
ขอบคุณสำหรับคำตอบโดยละเอียดและโดยเฉพาะอย่างยิ่งแปลงที่มีประโยชน์มาก อย่างไรก็ตามฉันไม่เข้าใจว่าthe average silhouette witdh "suggestion" could be very insufficient or just plain wrong in certain scenarios.คุณอ้างสิทธิ์อย่างไร
Zhubarb

10

ดูที่กล่องเครื่องมือการ วิเคราะห์ความถูกต้องของคลัสเตอร์ (CVAP) และวัสดุบางส่วน (ลิงก์) จาก CVAP:

ดัชนีภาพเงา (ภาพเงาเฉลี่ยโดยรวม) ค่า Silhouette ที่ใหญ่กว่าบ่งบอกถึงคุณภาพที่ดีขึ้นของผลการจัดกลุ่ม[Chen et al. 2002]

  • N. Bolshakova, F. Azuaje 2003. เทคนิคการตรวจสอบคลัสเตอร์สำหรับข้อมูลการแสดงออกของจีโนม, การประมวลสัญญาณ V.83 N4, P.825-833
  • E. Dimitriadou, S. Dolnicar, A. Weingessel การตรวจสอบดัชนีสำหรับกำหนดจำนวนคลัสเตอร์ในชุดข้อมูลไบนารี Psychometrika, 67 (1): 137-160, 2002

นอกจากนี้คุณยังสามารถตรวจสอบเครื่องมือ (ง่าย) นี้สำหรับการประเมินจำนวนกลุ่ม

เพียงดูตัวอย่างของชุดเครื่องมือทั้งสอง (คุณสามารถใช้เทคนิคการตรวจสอบคลัสเตอร์อื่น ๆ ได้)


6

ฉันได้รับการมองเข้าไปในสิ่งเดียวกันในวันนี้และพบว่ามีการตีความที่นี่ มันสมเหตุสมผล แต่ฉันไม่แน่ใจว่าเราสามารถนำการตีความไปใช้กับชุดข้อมูลของเราได้หรือไม่ โดยสรุปบทความที่กล่าวถึงมีดังต่อไปนี้:

0.71-1.0
A strong structure has been found

0.51-0.70
A reasonable structure has been found

0.26-0.50
The structure is weak and could be artificial. Try additional methods of data analysis.

< 0.25
No substantial structure has been found

อย่างไรก็ตามดูเหมือนว่าเราสามารถใช้ความกว้างของรูปเงาดำเพื่อไล่จับค่าผิดปกติ ในภารกิจการจัดกลุ่มเอกสารที่ฉันกำลังจัดการอยู่ในขณะนี้สิ่งที่มีความกว้างของรูปเงาเชิงลบจะเป็นค่าผิดปกติที่แน่นอน ฉันไม่แน่ใจว่าความกว้างนี้จะดีขึ้นหรือไม่หลังจากลบค่าผิดปกติ (อีกครั้งสิ่งนี้สมเหตุสมผลแล้ว แต่ฉันยังไม่ได้ทำสิ่งนี้ด้วยตนเอง)


4
เพียงบันทึกประวัติศาสตร์ตารางเดิมมาจากซีเวลล์แกรนวิลล์และ PJ รูสโซส์ "การค้นหากลุ่มในข้อมูล: การวิเคราะห์คลัสเตอร์เบื้องต้น" (1990) img546.imageshack.us/img546/4523/cnfg.png (อาจตีพิมพ์ก่อนหน้านี้ในหนึ่งในบทความของผู้เขียน)
Franck Dernoncourt

ลิงก์ในคำตอบไม่สามารถใช้ได้อีก คุณช่วยกรุณาอ้างอิงอื่นได้ไหม?
BajajG

นี่คือลิงค์ไปยังบทความจากเว็บเก็บถาวร: web.archive.org/web/20111002220803/http://www.unesco.org:80/…
Justas

1

หากคุณกำลังพยายามเลือกจำนวนกลุ่มสำหรับการเรียนรู้ที่ไม่ได้รับการสำรองบางทีคุณอาจลองทำสิ่งที่ต้องการ -

http://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html

พวกเขาใช้มากกว่าคะแนนภาพเงา (พวกเขาใช้การกระจาย) แต่มันก็สมเหตุสมผล ดูเหมือนว่าจะชอบกลุ่มที่เล็กกว่า แต่บางทีคุณอาจลองกับข้อมูลที่สร้างขึ้นและดูว่าใช้ได้ไหม?

หรือคุณสามารถตรวจสอบกระดาษนี้ -

http://www.sciencedirect.com/science/article/pii/0377042787901257

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.