วิธีการเลือกวิธีการจัดกลุ่ม? วิธีการตรวจสอบวิธีการแก้ปัญหาของคลัสเตอร์ (เพื่อรับประกันทางเลือกวิธีการ)?


35

หนึ่งในปัญหาที่ใหญ่ที่สุดที่มีการวิเคราะห์กลุ่มคือเราอาจต้องได้ข้อสรุปที่แตกต่างกันเมื่อใช้วิธีการจัดกลุ่มที่แตกต่างกัน (รวมถึงวิธีการเชื่อมโยงที่แตกต่างกันในการจัดกลุ่มแบบลำดับชั้น)

ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับเรื่องนี้ - คุณจะเลือกวิธีการอย่างไรและอย่างไร บางคนอาจพูดว่า "วิธีที่ดีที่สุดในการทำคลัสเตอร์คือให้คำตอบที่ถูกต้อง"; แต่ฉันอาจถามเพื่อตอบสนองว่าการวิเคราะห์กลุ่มควรเป็นเทคนิคที่ไม่ได้รับการสำรอง - ดังนั้นฉันจะรู้ได้อย่างไรว่าวิธีการหรือการเชื่อมโยงใดเป็นคำตอบที่ถูกต้อง?

โดยทั่วไป: การจัดกลุ่มเพียงอย่างเดียวแข็งแกร่งเพียงพอที่จะพึ่งพาหรือไม่ หรือเราต้องการวิธีที่สองและรับผลการแบ่งปันเพื่อเป็นไปตามทั้งสองอย่าง?

คำถามของฉันไม่เพียงเกี่ยวกับวิธีที่เป็นไปได้ในการตรวจสอบ / ประเมินประสิทธิภาพการจัดกลุ่ม แต่ยังมีความกว้างกว่า - เราเลือก / ชอบวิธีการจัดกลุ่ม / อัลกอริทึมมากกว่าวิธีอื่น นอกจากนี้ยังมีคำเตือนทั่วไปที่เราควรพิจารณาเมื่อเราเลือกวิธีการจัดกลุ่มข้อมูลของเราหรือไม่

ฉันรู้ว่ามันเป็นคำถามทั่วไปและยากที่จะตอบ ฉันแค่อยากจะรู้ว่าถ้าคุณมีความคิดเห็นหรือคำแนะนำใด ๆ หรือข้อเสนอแนะสำหรับฉันที่จะเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้


ตรวจสอบคำถามที่คล้ายกันนี้ด้วย
ttnphns

และนี้อย่างใดอย่างหนึ่ง
ttnphns

2
บางส่วนเชื่อมโยงโดยเฉพาะเกี่ยวกับการตรวจสอบภายในและภายนอก: นี้ และนี้ และว่า และว่า และว่า และนี้ และที่โน่น และค้นหาเพิ่มเติม
ttnphns

คำตอบ:


50

บ่อยครั้งที่พวกเขาพูดว่าไม่มีเทคนิคการวิเคราะห์อื่น ๆ ที่มีความแข็งแกร่งของ "ตามที่คุณหว่านคุณจะตัดหญ้า" ตามที่การวิเคราะห์กลุ่มคือ

ฉันสามารถจินตนาการถึงมิติตัวเลขหรือแง่มุมของ "ความถูกต้อง" ของวิธีนี้หรือวิธีการจัดกลุ่มนั้น:

  1. อุปมาคลัสเตอร์ "ผมแนะนำวิธีนี้เพราะถือว่าเป็นกลุ่มดังกล่าว (หรือลักษณะ) ซึ่งตรงกับแนวคิดของฉันคลัสเตอร์ในโครงการโดยเฉพาะอย่างยิ่งของฉัน" แต่ละอัลกอริทึมการจัดกลุ่มหรืออัลกอริทึมย่อย / วิธีแสดงถึงโครงสร้าง / การสร้าง / รูปร่างที่สอดคล้องกันของคลัสเตอร์ ในเรื่องของวิธีการลำดับชั้นฉันได้สังเกตสิ่งนี้ในจุดใดจุดหนึ่งที่นี่และที่นี่ด้วย. เช่นวิธีการบางอย่างให้กลุ่มที่ "ต้นแบบ" ต้นแบบเป็นต้นอื่น ๆ ให้ "วงกลม [ตามความสนใจ]", ยังอื่น ๆ "แพลตฟอร์ม" [การเมือง] "," คลาส "," โซ่ "ฯลฯ เลือกวิธีการที่กลุ่มคำอุปมาเหมาะกับคุณ ตัวอย่างเช่นหากฉันเห็นกลุ่มลูกค้าของฉันเป็นประเภท - รูปร่างทรงกลมที่มีการบดอัดอยู่ตรงกลางมากขึ้นหรือน้อยลงฉันจะเลือกวิธีเชื่อมโยงของวอร์ดหรือ K- หมายถึง แต่ไม่มีวิธีเชื่อมโยงเดี่ยวอย่างชัดเจน หากฉันต้องการจุดผู้แทนโฟกัสฉันสามารถใช้วิธีการแบบ medoid ถ้าฉันต้องการคัดกรองจุดที่พวกเขาเป็นแกนหลักและตัวแทนต่อพ่วงฉันสามารถใช้วิธี DBSCAN

  2. ข้อมูล / วิธีการตั้งสมมติฐาน "ฉันชอบวิธีนี้เพราะลักษณะข้อมูลของฉันหรือรูปแบบที่กำหนดไว้ล่วงหน้า" จุดสำคัญและกว้างใหญ่นี้ถูกกล่าวถึงในลิงก์ของฉันด้านบน อัลกอริทึม / วิธีการที่แตกต่างกันอาจต้องการข้อมูลที่แตกต่างกันสำหรับพวกเขาหรือการวัดความใกล้เคียงที่แตกต่างกันเพื่อนำไปใช้กับข้อมูลและในทางกลับกันข้อมูลที่ต่างกันอาจต้องการวิธีการที่แตกต่างกัน มีวิธีการเชิงปริมาณและวิธีการสำหรับข้อมูลเชิงคุณภาพ คุณสมบัติเชิงปริมาณ + เชิงคุณภาพแบบผสมทำให้ขอบเขตการเลือกแคบลงอย่างมากระหว่างวิธีการต่างๆ Ward's หรือK-meanเป็นไปตาม - อย่างชัดเจนหรือโดยปริยาย - บน (กำลังสอง) การวัดความใกล้ชิดระยะทางแบบยูคลิดระยะทางเท่านั้นและไม่ได้อยู่ในการวัดตามอำเภอใจ ข้อมูลไบนารี่อาจเรียกร้องให้มีมาตรการความคล้ายคลึงกันพิเศษซึ่งในทางกลับกันจะตั้งคำถามอย่างมากโดยใช้วิธีการบางอย่างเช่นวอร์ดหรือ K-mean สำหรับพวกเขา ข้อมูลขนาดใหญ่อาจต้องการอัลกอริทึมพิเศษหรือการใช้งานพิเศษ

  3. ความถูกต้องภายใน "ผมแนะนำวิธีนี้เพราะมันทำให้ผมมากที่สุดชัดเจนกระจุกแน่นและแยก" เลือกอัลกอริทึม / วิธีการที่แสดงผลลัพธ์ที่ดีที่สุดสำหรับข้อมูลของคุณจากมุมมองนี้ แน่นมากขึ้นหนาแน่นเป็นกลุ่มภายในและความหนาแน่นน้อยกว่าอยู่ด้านนอกของพวกเขา (หรือแยกออกจากกันกว้างขึ้นเป็นกลุ่ม) - ยิ่งมีความถูกต้องภายใน เลือกและใช้เกณฑ์การจัดกลุ่มภายในที่เหมาะสม( ซึ่งมีมากมาย - Calinski-Harabasz, Silhouette ฯลฯ ฯลฯ บางครั้งเรียกว่า "กฎการหยุด") เพื่อประเมิน [ระวังการอิง: วิธีการจัดกลุ่มทั้งหมดพยายามที่จะเพิ่มรุ่นของความถูกต้องภายในบาง (มันเป็นสิ่งที่การจัดกลุ่มเป็น1เกี่ยวกับ) ความถูกต้องที่สูงมากอาจเป็นส่วนหนึ่งเนื่องจากชุดข้อมูลที่กำหนดแบบสุ่ม การมีชุดข้อมูลการทดสอบนั้นมีประโยชน์เสมอ]

  4. ความถูกต้องภายนอก "ผมแนะนำวิธีนี้เพราะมันทำให้ฉันกลุ่มที่แตกต่างกันโดยพื้นหลังหรือกลุ่มของพวกเขาที่ตรงกับคนที่จริงฉันรู้" หากพาร์ติชันการทำคลัสเตอร์แสดงกลุ่มที่แตกต่างกันอย่างชัดเจนบนพื้นหลังที่สำคัญบางอย่าง (เช่นไม่ได้มีส่วนร่วมในการวิเคราะห์กลุ่ม) คุณสมบัตินั้นเป็นสินทรัพย์สำหรับวิธีการที่ผลิตพาร์ทิชัน ใช้การวิเคราะห์ที่ใช้เพื่อตรวจสอบความแตกต่าง; นอกจากนี้ยังมีจำนวนเกณฑ์การจัดกลุ่มภายนอกที่มีประโยชน์(Rand, F-measure ฯลฯ ฯลฯ ) อีกกรณีหนึ่งของการตรวจสอบภายนอกคือเมื่อคุณรู้กลุ่มที่แท้จริงในข้อมูลของคุณ (รู้จัก "ความจริงพื้นฐาน") เช่นเมื่อคุณสร้างกลุ่มด้วยตัวเอง ดังนั้นวิธีการจัดกลุ่มที่แม่นยำของคุณในการเปิดเผยกลุ่มจริงคือการวัดความถูกต้องภายนอก

  5. ข้ามความถูกต้อง "ผมแนะนำวิธีนี้เพราะมันจะให้ฉันกระจุกคล้ายกันมากกับตัวอย่างเทียบเท่าของข้อมูลหรือค่าตัวแปรได้ดีบนตัวอย่างเช่น" มีวิธีการต่าง ๆ และลูกผสมของพวกเขาบางวิธีที่เป็นไปได้ด้วยวิธีการจัดกลุ่มบางอย่างในขณะที่วิธีอื่น ๆ สองวิธีหลักคือการตรวจสอบความเสถียรและความสามารถทั่วไปตรวจสอบ การตรวจสอบความเสถียรของวิธีการจัดกลุ่มหนึ่งการแยกหรือสุ่มข้อมูลในชุดข้อมูลที่ตัดกันหรือแยกส่วนอย่างสมบูรณ์แบบสุ่มและทำการจัดกลุ่มบนแต่ละส่วน จากนั้นจับคู่และเปรียบเทียบโซลูชัน wrt คุณลักษณะคลัสเตอร์ฉุกเฉินบางอย่าง (ตัวอย่างเช่นที่ตั้งแนวโน้มกลางของคลัสเตอร์) ว่ามีความเสถียรในชุดต่าง ๆ หรือไม่ การตรวจสอบความกว้างทั่วไปหมายถึงการทำคลัสเตอร์บนชุดรถไฟจากนั้นใช้ลักษณะหรือกฎกลุ่มฉุกเฉินเพื่อกำหนดวัตถุของชุดทดสอบรวมถึงการทำคลัสเตอร์บนชุดทดสอบ การเปรียบเทียบผลการมอบหมายและการเป็นสมาชิกของผลการจัดกลุ่มของวัตถุชุดทดสอบจะถูกเปรียบเทียบ

  6. การตีความ "ผมแนะนำวิธีนี้เพราะมันทำให้ฉันกลุ่มซึ่งอธิบายว่ามีการโน้มน้าวใจมากที่สุดที่มีความหมายในโลก" มันไม่ใช่เชิงสถิติ แต่เป็นการตรวจสอบทางจิตวิทยาของคุณ ผลลัพธ์มีความหมายกับคุณโดเมนและผู้ชม / ลูกค้าอย่างไร เลือกวิธีการที่ให้ผลการแปลที่เผ็ดที่สุด

  7. การชอบอยู่เป็นกลุ่ม งานวิจัยบางอย่างสม่ำเสมอและงานวิจัยทั้งหมดในบางครั้งก็จะพูดว่า"ผมแนะนำวิธีนี้เพราะมันทำให้กับข้อมูลของฉันผลที่คล้ายกันกับจำนวนของวิธีการอื่น ๆ ในหมู่ทุกคนที่ผมตรวจสอบ" นี่เป็นกลยุทธ์แบบแก้ปัญหาได้ แต่น่าสงสัยซึ่งสันนิษฐานว่ามีข้อมูลที่เป็นสากลหรือมีวิธีการที่ค่อนข้างเป็นสากล

คะแนน 1 และ 2 เป็นเชิงทฤษฎีและได้รับผลลัพธ์ก่อนหน้า การพึ่งพาประเด็นเหล่านี้เป็นพิเศษนั้นเป็นกลยุทธ์การสำรวจที่หยิ่งและมั่นใจ คะแนน 3, 4 และ 5 เป็นประจักษ์และติดตามผล การพึ่งพาประเด็นเหล่านี้เป็นเอกสิทธิ์คือกลยุทธ์การสำรวจที่เต็มไปด้วยความทดลอง ประเด็นที่ 6 คือความคิดสร้างสรรค์ซึ่งหมายความว่าจะปฏิเสธผลลัพธ์ใด ๆ เพื่อพยายามปรับใหม่ ประเด็นที่ 7 คือ mauvaise foi ภักดี

จุดที่ 3 ถึง 7 ยังสามารถเป็นผู้พิพากษาในการเลือกของ "ดีที่สุด" ของคุณจำนวนกลุ่ม


1เกณฑ์การจัดกลุ่มภายในที่เป็นรูปธรรมนั้นไม่ใช่ "orthogonal ถึง" วิธีการจัดกลุ่ม (หรือชนิดข้อมูล) สิ่งนี้ทำให้เกิดคำถามเชิงปรัชญาเกี่ยวกับเกณฑ์ที่มีอคติหรืออคติที่เป็นประโยชน์เช่นนี้ (ดูคำตอบเพียงสังเกตเห็น)


1
ฉันชอบมาตรการความถูกต้องภายในเช่นผลรวมของความแปรปรวนภายในคลัสเตอร์ใน K-Mean และการจัดกลุ่มลำดับชั้นแบบวอร์ดรวมถึงดัชนีดันน์ มันเป็นข้อมูลที่ไม่ขึ้นต่อกันและบางครั้งก็เป็นอิสระจากอัลกอริธึมการจัดกลุ่มแม้ว่าบางส่วนจะใช้กับอัลกอริทึมเฉพาะเท่านั้น
Douglas De Rizzo Meneghetti

2
@DouglasDeRizzoMeneghetti ฉันไม่เห็นด้วย พวกเขาไม่ได้เป็นอิสระจากข้อมูล (พวกเขาทำให้สมมติฐานที่แข็งแกร่งมากในข้อมูลของคุณเช่นเส้นตรงและความเท่าเทียมกันของคุณลักษณะ) หรือเป็นอิสระจากอัลกอริทึมการจัดกลุ่ม ในความเป็นจริงทุกการวัดภายในเป็นอัลกอริธึมการจัดกลุ่มของมันเอง (คุณสามารถปรับให้เหมาะสมสำหรับฟังก์ชั่นนี้ - มันมักจะแพงเกินไปที่จะทำ)
Anony-Mousse

1
ฉันเข้าใจว่ามาตรการความถูกต้องภายในบางอย่างเช่นผลรวมของความแปรปรวนของคลัสเตอร์ภายในนั้นมีผลลัพธ์ที่ดีกว่าหากได้รับความเป็นสมาชิกของคลัสเตอร์ผ่านวิธีการจัดกลุ่มที่มีแนวโน้มที่จะลดผลรวมของความแปรปรวนของคลัสเตอร์ภายในและลดความถูกต้องเช่น Dunn ดัชนีสันนิษฐานว่ากลุ่มที่ดีนั้นกะทัดรัดและอยู่ห่างไกลกัน (แม้ว่าการตีความของ "compact" และ "ห่างกัน" จะเปิดทิ้งไว้เพื่อการตีความ) แต่ความจริงที่ว่าคุณสามารถคำนวณการวัดเหล่านี้ได้ด้วยค่าคุณสมบัติและการเป็นสมาชิกคลัสเตอร์ของ องค์ประกอบทำให้พวกเขาค่อนข้างหลากหลาย
Douglas De Rizzo Meneghetti

9

มีเกณฑ์ธงสีแดงเป็นส่วนใหญ่ คุณสมบัติของข้อมูลที่บอกคุณว่าวิธีการบางอย่างจะล้มเหลวอย่างแน่นอน

  1. หากคุณไม่ทราบว่าข้อมูลของคุณหมายถึงหยุดการวิเคราะห์ คุณเป็นเพียงการเดาสัตว์ในเมฆ

  2. หากคุณลักษณะแตกต่างกันไปในสเกลและไม่เชิงเส้นหรือเบ้ สิ่งนี้สามารถทำลายการวิเคราะห์ของคุณเว้นแต่ว่าคุณมีความคิดที่ดีเกี่ยวกับการทำให้เป็นมาตรฐาน หยุดและเรียนรู้ที่จะเข้าใจคุณสมบัติของคุณมันเร็วเกินไปที่จะจัดกลุ่ม

  3. หากทุกแอ็ตทริบิวต์เทียบเท่า (สเกลเดียวกัน) และเชิงเส้นและคุณต้องการให้ปริมาณชุดข้อมูลของคุณ (และข้อผิดพลาดกำลังสองน้อยที่สุดมีความหมายสำหรับข้อมูลของคุณ) นั่นหมายความว่า k-mean คุ้มค่าที่จะลอง หากคุณลักษณะของคุณมีประเภทและขนาดแตกต่างกันผลลัพธ์จะไม่ชัดเจน ตัวอย่าง: อายุและรายได้ รายได้เบ้มากและx years = y dollarไร้สาระ

  4. หากคุณมีความคิดที่ชัดเจนเกี่ยวกับวิธีการหาปริมาณความเหมือนหรือระยะทาง ( อย่างมีความหมายความสามารถในการคำนวณจำนวนไม่เพียงพอ) การจัดกลุ่มแบบลำดับชั้นและ DBSCAN เป็นตัวเลือกที่ดี หากคุณไม่มีความคิดใด ๆ ในการหาปริมาณความคล้ายคลึงกันให้แก้ปัญหานั้นก่อน

คุณเห็นว่าปัญหาที่พบบ่อยที่สุดคือผู้คนพยายามที่จะถ่ายโอนข้อมูลดิบของพวกเขาไปยังการจัดกลุ่มเมื่อพวกเขาต้องเข้าใจและทำให้เป็นปกติและคิดออกเหมือนกัน

ตัวอย่าง:

  1. พิกเซลของรูปภาพในพื้นที่ RGB สแควร์สน้อยทำให้รู้สึกและคุณลักษณะทั้งหมดจะเปรียบเทียบ - k- หมายถึงเป็นตัวเลือกที่ดี

  2. ข้อมูลทางภูมิศาสตร์: กำลังสองน้อยที่สุดไม่เหมาะสม จะมีค่าผิดปกติ แต่ระยะทางมีความหมายมาก ใช้ DBSCAN ถ้าคุณมีเสียงดังมากหรือ HAC (การจัดกลุ่ม agglomerative ลำดับชั้น) หากคุณมีข้อมูลที่สะอาดมาก

  3. ชนิดที่พบในแหล่งอาศัยต่าง ๆ สี่เหลี่ยมจัตุรัสน้อยที่สุดนั้นน่าสงสัย แต่ความคล้ายคลึงกันของ Jaccard นั้นมีความหมาย คุณอาจมีข้อสังเกตเพียงเล็กน้อยและไม่มีที่อยู่อาศัย "เท็จ" - ให้ใช้ HAC


+1 stop criteriaฉันขอให้คุณพบการแสดงออกอื่นแทน สำหรับอย่างที่คุณรู้ว่า "การหยุดกฎ" หรือ "หยุดเกณฑ์" เป็นคำพ้องกับ "เกณฑ์การจัดกลุ่มภายใน" ในโดเมนของการจัดกลุ่มแบบลำดับชั้น ดังนั้นมันเป็นคำที่หมกมุ่น แต่คุณหมายถึงคำเหล่านี้ในความหมายที่แตกต่างกันในคำตอบและนี่อาจทำให้ผู้อ่านสับสน
ttnphns

1
วิธีการเกี่ยวกับ "เกณฑ์ธงแดง" หยุดการเกณฑ์สำหรับ HAC ฉันเห็นจุดของคุณ
Anony-Mousse

เป็นทางเลือกที่ดี
ttnphns

(non)linear attributesในจุดที่คุณพูดว่า 2,3 คุณหมายถึงอะไร คุณลักษณะ "เชิงเส้น" ในลักษณะใด หรือคุณกำลังพูดถึงความสัมพันธ์เชิงเส้นนั่นคือรูปวงรี (และไม่โค้ง) ของกลุ่ม?
ttnphns

ข้อมูลที่มีเช่นการแจกแจงแบบเอ็กซ์โพเนนเชียล
Anony-Mousse

3

ฉันไม่คิดว่าจะมีวิธีที่เป็นทางการที่ดีในการทำเช่นนี้ ฉันคิดว่าการแก้ปัญหาที่ดีนั้นเป็นสิ่งที่สมเหตุสมผล

แน่นอนคุณสามารถลองแยกข้อมูลและทำคลัสเตอร์หลาย ๆ ครั้งได้ แต่ก็ยังมีคำถามที่มีประโยชน์


2
ฉันคิดว่าคำนี้ไม่สามารถทำให้รู้สึกเครียดได้เพียงพอ นั่นเป็นประเด็นหลักของคำตอบของฉัน - คุณต้องเข้าใจข้อมูลของคุณก่อน
Anony-Mousse

@ Anony-Mousse มัน overkill จากด้านข้างของคุณ ฉันพนันได้ว่าคนที่ไม่ทราบว่าจะลืมหรือ "ทำความเข้าใจ" ข้อมูลของพวกเขาเข้าเยี่ยมชมเว็บไซต์นี้ได้อย่างไรและพวกเขาไม่ได้ถามคำถามที่ดีเช่นที่ถามมา
ttnphns

@ttnphns ฉันไม่รู้ว่าคนดังกล่าวเข้าเยี่ยมชมเว็บไซต์นี้บ่อยเพียงใดและพวกเขาไม่ถามคำถามเช่นนั้น แต่ผู้คนจำนวนมากคาดว่าการวิเคราะห์กลุ่มจะทำงานเหมือนฟังก์ชัน Excel เลือกข้อมูลคลิก "กลุ่ม" และออกมาเป็นกลุ่มลูกค้ามายากล ซึ่งดูเหมือนจะไม่เคยทำงานได้ดีกว่าการสุ่ม และเช่นผู้ใช้รายนี้ไม่สามารถเข้าใจข้อมูลของเขาได้: stats.stackexchange.com/q/195521/7828
Anony-Mousse
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.