การเลือกวิธีการจัดกลุ่ม


73

เมื่อใช้การวิเคราะห์กลุ่มบนชุดข้อมูลเพื่อจัดกลุ่มกรณีที่คล้ายกันเราจำเป็นต้องเลือกวิธีการจัดกลุ่มจำนวนมากและการวัดระยะทาง บางครั้งตัวเลือกหนึ่งอาจมีผลต่อตัวเลือกอื่น ๆ แต่มีวิธีการที่เป็นไปได้หลายวิธีผสมกัน

ใครบ้างมีคำแนะนำเกี่ยวกับวิธีการเลือกระหว่างอัลกอริทึมการจัดกลุ่ม / วิธีการและการวัดระยะทางที่หลากหลาย ? สิ่งนี้เกี่ยวข้องกับธรรมชาติของตัวแปร (เช่นหมวดหมู่หรือตัวเลข) และปัญหาการจัดกลุ่มอย่างไร มีเทคนิคที่ดีที่สุดหรือไม่?


1
คุณสามารถลองให้คำอธิบายที่เฉพาะเจาะจงมากขึ้นเกี่ยวกับสิ่งที่คุณต้องการทำคลัสเตอร์ได้หรือไม่? หรือมันเป็นเพียงศิลปะในการจัดกลุ่มที่คุณต้องการ?
robin girard

2
ฉันไม่มีแอปพลิเคชันในใจทันที ฉันแค่สนใจวิธีการทั่วไปในการเลือกวิธีการจัดกลุ่มและการวัดความคล้ายคลึงกัน
Brett

ตรวจสอบคำถามที่คล้ายกันนี้ด้วย
ttnphns

และcaveats บางตัว wrt วิธีการจัดกลุ่มลำดับชั้นโดยเฉพาะ
ttnphns

คำตอบ:


43

ไม่มีคำตอบที่ชัดเจนสำหรับคำถามของคุณแม้ในวิธีเดียวกันการเลือกระยะทางในการเป็นตัวแทนบุคคล (dis) ความคล้ายคลึงกันอาจให้ผลลัพธ์ที่แตกต่างกันเช่นเมื่อใช้ euclidean vs. euclidean กำลังสองในการจัดกลุ่มแบบลำดับชั้น เป็นอีกตัวอย่างหนึ่งสำหรับข้อมูลไบนารีคุณสามารถเลือกดัชนี Jaccard เป็นการวัดความคล้ายคลึงกันและดำเนินการกับการจัดกลุ่มแบบลำดับชั้นคลาสสิก แต่มีวิธีการอื่นเช่น Mona ( Monothetic Analysis)) อัลกอริทึมซึ่งพิจารณาเพียงหนึ่งตัวแปรในแต่ละครั้งในขณะที่วิธีการลำดับขั้นอื่น ๆ (เช่นแบบดั้งเดิม HC, Agnes, Diana) ใช้ตัวแปรทั้งหมดในแต่ละขั้นตอน วิธีการ k- หมายถึงได้รับการขยายในหลายวิธีรวมถึงการแบ่งรอบ medoids (PAM) หรือวัตถุตัวแทนมากกว่า centroids (Kaufman และ Rousseuw, 1990) หรือการจัดกลุ่มคลุมเครือ (Chung และ Lee, 1992) ยกตัวอย่างเช่นความแตกต่างที่สำคัญระหว่าง k-mean และ PAM คือ PAM ลดผลรวมของความแตกต่างน้อยกว่าผลรวมของระยะทางแบบยูคลิด การจัดกลุ่มแบบฟัซซีอนุญาตให้พิจารณา "การเป็นสมาชิกบางส่วน" (เราเชื่อมโยงกับการสังเกตแต่ละครั้งด้วยน้ำหนักที่สะท้อนการเป็นสมาชิกระดับ) และสำหรับวิธีการที่ขึ้นอยู่กับกรอบความน่าจะเป็นหรือที่เรียกว่าการทำคลัสเตอร์แบบจำลอง (หรือการวิเคราะห์โปรไฟล์แบบซ่อนเร้นสำหรับ psychometricians) ที่มีเป็นแพคเกจที่ดี: Mclust ดังนั้นคุณต้องพิจารณาถึงวิธีการกำหนดความคล้ายคลึงของแต่ละบุคคลรวมถึงวิธีการเชื่อมโยงบุคคลเข้าด้วยกัน (การจัดกลุ่มซ้ำหรือการวนซ้ำ, การเป็นสมาชิกในชั้นเรียนที่เข้มงวดหรือคลุมเครือ, การเข้าใกล้แบบกึ่งไม่มีผู้ดูแลหรืออื่น ๆ )

โดยทั่วไปเพื่อประเมินเสถียรภาพของคลัสเตอร์มันเป็นเรื่องที่น่าสนใจที่จะเปรียบเทียบอัลกอริธึมหลายอย่างซึ่งโดยทั่วไป "แบ่งปัน" ความคล้ายคลึงกันบางอย่าง (เช่น k-mean และการจัดกลุ่มแบบลำดับชั้นเนื่องจากระยะทางแบบยุคลิดทำงานสำหรับทั้งคู่) สำหรับการประเมินความสอดคล้องกันระหว่างสองวิธีแก้ปัญหาคลัสเตอร์แนะนำให้ใช้ตัวชี้บางตัวเพื่อตอบคำถามนี้ว่าจะตัด dendrogram ที่ไหน? (โปรดดูการอ้างอิงโยงสำหรับลิงก์อื่น ๆ ในเว็บไซต์นี้) หากคุณใช้ R คุณจะเห็นว่ามีหลายแพ็คเกจที่มีอยู่ในมุมมองงานในการวิเคราะห์กลุ่มและแพคเกจต่าง ๆ รวม vignettes ที่อธิบายวิธีการเฉพาะหรือให้กรณีศึกษา

การวิเคราะห์กลุ่ม: แนวคิดพื้นฐานและอัลกอริทึมให้ภาพรวมที่ดีของเทคนิคต่าง ๆ ที่ใช้ในการวิเคราะห์กลุ่ม สำหรับหนังสือเล่มล่าสุดที่มีภาพประกอบ R ฉันอยากจะแนะนำบทที่ 12 ของ Izenman เทคนิคการวิเคราะห์หลายตัวแปรสมัยใหม่ (Springer, 2008) มีการอ้างอิงมาตรฐานอื่น ๆ สองสามข้อด้านล่าง:

  • Cormack, R. , 1971 การทบทวนการจำแนก วารสารของสมาคมสถิติรอยัล A 134, 321–367
  • Everitt บี 1974 วิเคราะห์กลุ่ม ลอนดอน: Heinemann Educ หนังสือ
  • Gordon, A. , 1987. การทบทวนการจำแนกแบบลำดับชั้น วารสารสมาคมสถิติรอยัล, 150, 119–137
  • Gordon, A. , 1999. การจำแนกประเภท , รุ่นที่ 2. แชปแมนและห้องโถง
  • ลิตรลิตร Rousseuw พีปี 1990 หากลุ่มในข้อมูล: บทนำ Cluster วิเคราะห์ นิวยอร์กไวลีย์

30

คำพูดจาก Hastie, Tibshirani และ Friedman, องค์ประกอบของการเรียนรู้ทางสถิติ , p. 506:

"การวัดความแตกต่างที่เหมาะสมมีความสำคัญมากกว่าในการได้รับความสำเร็จในการจัดกลุ่มมากกว่าทางเลือกของอัลกอริทึมการจัดกลุ่มปัญหานี้ ... ขึ้นอยู่กับความรู้เฉพาะของโดเมนและคล้อยตามการวิจัยทั่วไปน้อยลง"

(ที่กล่าวว่าจะไม่เป็นการดีถ้า (wibni) มีเว็บไซต์ที่นักเรียนสามารถลองใช้อัลกอริธึมและตัวชี้วัดสองสามชุดในชุดข้อมูลมาตรฐานขนาดเล็กสองสามชุดได้หรือไม่)


ขอบคุณไค; คุณสามารถแนะนำแท็กสำหรับ "ตัวอย่างสามารถทำงานบนเว็บ" ได้หรือไม่?
เดนิส

คุณหมายถึงการถามคำถามซ้ำอีกครั้ง (ฉันไม่คิดว่าเป็นความคิดที่ดีเพราะ OP ไม่ได้ใช้เครื่องมือการเปรียบเทียบออนไลน์ IMO) หรือสำหรับคำถามใหม่ที่คุณต้องการถาม อย่างไรก็ตามฉันไม่มีความคิดในการติดแท็กที่ดีในขณะนี้ ถาม Meta
chl

1
คำพูดนี้อาจจะทำให้เข้าใจผิด - มันชัดเจนไม่ได้นำไปใช้กับ (contrived ยอมรับ) ตัวอย่างในวิกิพีเดีย เนื่องจากคลัสเตอร์ที่ไม่ใช่เชิงเส้นที่แข็งแกร่งในชุดข้อมูลที่สองอัลกอริธึมการเชื่อมโยงและความหนาแน่นของการจัดกลุ่มทำงานได้ดีกว่าวิธีการเซ็นทรอยด์ใด ๆ ไม่มีการวัดความคล้ายคลึงกันที่จะทำให้รูปแบบการจัดกลุ่ม centroid ทำงานได้ดีขึ้น คำพูดนี้ใช้ได้เฉพาะถ้าคุณคิดว่ากลุ่มเป็นเชิงเส้นคร่าวๆ (บางครั้งก็เป็นสมมติฐานที่ปลอดภัย) ฉันขอแนะนำให้ตรวจสอบข้อมูลของคุณด้วยตาก่อนหากเป็นไปได้
naught101

@ naught101 นั่นเอง - สายตาการตรวจสอบข้อมูลที่จะเห็นความคล้ายคลึงกัน / ความแตกต่างกันเป็นสิ่งที่สำคัญมากที่สุด แต่ที่พูดง่ายกว่าทำ
เดนิส

คำพูดนี้มาจากรุ่นใด? คุณสามารถให้การอ้างอิงของมัน
MonsterMMORPG

12

คุณไม่สามารถทราบล่วงหน้าได้ว่าอัลกอริธึมการจัดกลุ่มใดจะดีกว่า แต่มีเงื่อนงำบางอย่างเช่นหากคุณต้องการจัดกลุ่มภาพมีอัลกอริธึมบางอย่างที่คุณควรลองก่อนเช่น Fuzzy Art หรือหากคุณต้องการจัดกลุ่มใบหน้าคุณควรเริ่ม ด้วย (GGCI) การจัดกลุ่มเรขาคณิตส่วนกลางสำหรับรูปภาพ

อย่างไรก็ตามสิ่งนี้ไม่รับประกันผลลัพธ์ที่ดีที่สุดดังนั้นสิ่งที่ฉันจะทำคือใช้โปรแกรมที่อนุญาตให้คุณใช้อัลกอริทึมของคลัสเตอร์ที่แตกต่างกันเช่น weka, RapidMiner หรือ R (ซึ่งไม่ใช่ภาพ) ดังนั้นฉันจะตั้งโปรแกรมเป็น เปิดใช้อัลกอริธึมการจัดกลุ่มที่แตกต่างกันทั้งหมดที่ฉันสามารถทำได้ด้วยระยะทางที่แตกต่างกันที่เป็นไปได้และหากพวกเขาต้องการพารามิเตอร์ให้ทดลองแต่ละอันด้วยค่าพารามิเตอร์ที่แตกต่างกัน (นอกเหนือจากถ้าฉันไม่ทราบจำนวนกระจุก ของตัวเลข) เมื่อคุณตัดสินการทดสอบแล้วให้ปล่อยให้ทำงานอยู่ แต่อย่าลืมเก็บผลลัพธ์ไว้ที่การทำงานของการทำคลัสเตอร์แต่ละครั้ง

จากนั้นเปรียบเทียบผลลัพธ์เพื่อให้ได้ผลลัพธ์การจัดกลุ่มที่ดีที่สุด นี่เป็นเรื่องยากเพราะมีหลายเมตริกที่คุณสามารถเปรียบเทียบและไม่ได้มีให้ในทุกอัลกอริทึม ตัวอย่างเช่นอัลกอริธึมการจัดกลุ่มแบบฟัซซี่มีตัวชี้วัดที่แตกต่างจากแบบไม่ฟัซซี่ แต่ก็ยังสามารถเปรียบเทียบได้โดยพิจารณาจากกลุ่มผลลัพธ์แบบฟัซซี่ว่าไม่ใช่แบบฟัซซี่ฉันจะเปรียบเทียบการวัดแบบคลาสสิกเช่น

• SSE: ผลรวมของข้อผิดพลาดแบบสี่เหลี่ยมจากรายการของแต่ละคลัสเตอร์

•ระยะทางระหว่างกลุ่ม: ผลรวมของระยะห่างระหว่างสี่เหลี่ยมแต่ละกลุ่ม centroid

•ระยะทางอินทราคลัสเตอร์สำหรับแต่ละคลัสเตอร์: ผลรวมของระยะทางสแควร์จากรายการของแต่ละกลุ่มถึงเซนทรอยด์

รัศมีสูงสุด: ระยะทางที่ใหญ่ที่สุดจากอินสแตนซ์ไปยังเซนทรอยด์ของคลัสเตอร์

รัศมีเฉลี่ย: ผลรวมของระยะทางที่ใหญ่ที่สุดจากอินสแตนซ์ไปยังกระจุกดาวของมันหารด้วยจำนวนของกลุ่ม


4

การเลือกระยะทางที่ถูกต้องไม่ใช่งานเบื้องต้น เมื่อเราต้องการทำการวิเคราะห์แบบกลุ่มบนชุดข้อมูลผลลัพธ์ที่แตกต่างกันอาจปรากฏขึ้นโดยใช้ระยะทางที่แตกต่างกันดังนั้นจึงเป็นเรื่องสำคัญมากที่จะต้องระมัดระวังในการเลือกระยะทางเพราะเราสามารถสร้างสิ่งประดิษฐ์ปลอมที่จับความแปรปรวนได้ดี ความรู้สึกในปัญหาของเรา

ระยะทางยุคลิดมีความเหมาะสมเมื่อฉันมีตัวแปรที่เป็นตัวเลขอย่างต่อเนื่องและฉันต้องการที่จะสะท้อนให้เห็นถึงระยะทางที่แน่นอน ระยะนี้คำนึงถึงทุกตัวแปรและไม่ลบความซ้ำซ้อนดังนั้นถ้าฉันมีตัวแปรสามตัวที่อธิบายเหมือนกัน ยิ่งไปกว่านั้นระยะทางนี้ไม่ใช่ค่าคงที่ขนาดดังนั้นโดยทั่วไปฉันต้องปรับขนาดก่อนหน้านี้เพื่อใช้ระยะทาง
ตัวอย่างนิเวศวิทยา: เรามีข้อสังเกตที่แตกต่างจากหลายท้องที่ซึ่งผู้เชี่ยวชาญได้ทำการสุ่มตัวอย่างจากปัจจัยทางจุลชีววิทยาร่างกายและเคมี เราต้องการค้นหารูปแบบในระบบนิเวศ ปัจจัยเหล่านี้มีความสัมพันธ์สูง แต่เรารู้ว่าทุกคนมีความเกี่ยวข้องดังนั้นเราจึงไม่ต้องการลบความซ้ำซ้อนเหล่านี้ออก เราใช้ระยะทางแบบยุคลิดกับข้อมูลสเกลเพื่อหลีกเลี่ยงผลกระทบของหน่วย

ระยะ Mahalanobisมีความเหมาะสมเมื่อฉันมีตัวแปรที่เป็นตัวเลขอย่างต่อเนื่องและฉันต้องการที่จะสะท้อนให้เห็นถึงระยะทางที่แน่นอน แต่เราต้องการที่จะลบความซ้ำซ้อน หากเรามีตัวแปรซ้ำ ๆ ผลกระทบที่เกิดซ้ำ ๆ จะหายไป

ครอบครัวHellinger , โปรไฟล์ชี่และระยะคอร์ดมีความเหมาะสมเมื่อเราต้องการที่จะให้ความสำคัญกับความแตกต่างระหว่างตัวแปรเมื่อเราต้องการที่จะแยกความแตกต่างโปรไฟล์ ระยะทางเหล่านี้มีน้ำหนักตามปริมาณรวมของการสังเกตแต่ละครั้งในลักษณะที่ระยะทางมีขนาดเล็กเมื่อตัวแปรโดยตัวแปรแต่ละคนมีความคล้ายคลึงกันมากขึ้นแม้ว่าในขนาดที่แน่นอนแตกต่างกันมาก ระวัง! ระยะทางเหล่านี้สะท้อนความแตกต่างระหว่างโปรไฟล์ได้เป็นอย่างดี แต่สูญเสียเอฟเฟกต์ขนาด มันอาจมีประโยชน์มากเมื่อเรามีขนาดตัวอย่างที่แตกต่างกัน ตัวอย่างนิเวศวิทยา: เราต้องการศึกษาสัตว์ในหลาย ๆ พื้นที่และเรามีเมทริกซ์ข้อมูลของรายการของหอยทาก (สถานที่เก็บตัวอย่างในแถวและชื่อสปีชีส์ในคอลัมน์) เมทริกซ์นั้นมีลักษณะเป็นศูนย์โดยมีค่าเป็นศูนย์และมีขนาดต่างกันเพราะบางพื้นที่มีสปีชีส์บางแห่งและสปีชีส์อื่นมีสปีชีส์อื่น เราสามารถใช้ระยะทาง Hellinger

Bray-Curtisค่อนข้างคล้ายกัน แต่จะเหมาะสมกว่าเมื่อเราต้องการแยกความแตกต่างโปรไฟล์และคำนึงถึงขนาดสัมพัทธ์


1
กรุณาลงทะเบียน & / หรือรวมบัญชีของคุณ1 2 (คุณสามารถหาข้อมูลเกี่ยวกับวิธีการทำสิ่งนี้ได้ในส่วนบัญชีของฉันในศูนย์ช่วยเหลือของเรา) จากนั้นคุณจะสามารถติดตามคำตอบการตอบสนองต่อพวกเขา ฯลฯ และผลประโยชน์อื่น ๆ ได้เช่นกัน เนื่องจากคุณใหม่ที่นี่คุณอาจต้องการเข้าชมทัวร์ของเราซึ่งมีข้อมูลสำหรับผู้ใช้ใหม่
gung

คุณได้เผยแพร่คำตอบstats.stackexchange.com/a/253268/3277 ที่เหมือนกันก่อนหน้านี้แล้วในชุดข้อความที่คล้ายกัน คำตอบที่ซ้ำกันไม่ถือว่ายุติธรรม ฉันขอแนะนำให้คุณลบอันปัจจุบัน แต่คุณอาจและยินดีที่จะโพสต์ลิงค์ไปยังคำตอบอื่น ๆ ของคุณ - เป็นความคิดเห็นด้านล่างคำถามของ OP หรือเป็น; คำตอบบางส่วนในกระทู้ปัจจุบัน
ttnphns

2

เท่าที่ฉันกังวลถ้าคุณต้องการทางเลือกที่ปลอดภัยวิธีการจัดกลุ่มสเปกตรัมได้บรรลุอัตราความแม่นยำสูงสุดในปีที่ผ่านมา - อย่างน้อยในการจัดกลุ่มภาพ

สำหรับตัวชี้วัดระยะทางนั้นขึ้นอยู่กับการจัดระเบียบข้อมูลของคุณเป็นจำนวนมาก ตัวเลือกที่ปลอดภัยคือระยะทางแบบยุคลิดแบบง่าย ๆ แต่ถ้าคุณรู้ว่าข้อมูลของคุณมีมากมายคุณควรแมปจุดต่าง ๆ ด้วยวิธีเคอร์เนล

PS: ทั้งหมดเกี่ยวข้องกับค่าตัวเลขไม่ใช่หมวดหมู่ ฉันไม่แน่ใจว่าจะมีการจัดกลุ่มข้อมูลที่เป็นหมวดหมู่อย่างไร


2

นี่เป็นบทสรุปของอัลกอริทึมการจัดกลุ่มหลายอย่างที่สามารถช่วยตอบคำถามได้

"ฉันควรใช้เทคนิคการจัดกลุ่มแบบใด"

ไม่มีอัลกอริทึมการจัดกลุ่มแบบ "ถูกต้อง" อย่างไม่มีอคติอ้างอิง

อัลกอริธึมการทำคลัสเตอร์สามารถแบ่งได้ตาม "คลัสเตอร์โมเดล" อัลกอริทึมที่ออกแบบมาสำหรับรุ่นเฉพาะประเภทใดโดยทั่วไปจะล้มเหลวในรูปแบบที่แตกต่างกัน ยกตัวอย่างเช่น k- หมายถึงไม่สามารถหากลุ่มที่ไม่ใช่นูนมันสามารถหากลุ่มรูปวงกลมเท่านั้น

ดังนั้นการทำความเข้าใจ "โมเดลคลัสเตอร์" เหล่านี้จึงเป็นกุญแจสำคัญในการทำความเข้าใจวิธีเลือกระหว่างอัลกอริทึมการจัดกลุ่ม / วิธีการต่างๆ โมเดลคลัสเตอร์ทั่วไปประกอบด้วย:

[1] โมเดลการเชื่อมต่อ: สร้างโมเดลตามการเชื่อมต่อระยะทาง เช่นการจัดกลุ่มแบบลำดับชั้น ใช้เมื่อเราต้องการการแบ่งพาร์ติชันที่แตกต่างกันตามความสูงของการตัดต้นไม้ ฟังก์ชั่น R: hclust ในแพคเกจสถิติ

[2] Centroid models: สร้างแบบจำลองโดยการแทนแต่ละคลัสเตอร์ด้วยเวกเตอร์ค่าเฉลี่ยเดี่ยว ใช้เมื่อเราต้องการการแบ่งพาร์ติชันที่คมชัด (ตรงข้ามกับการทำคลัสเตอร์ฟัซซี่ที่อธิบายไว้ในภายหลัง) ฟังก์ชั่น R: kmeans ในแพคเกจสถิติ

[3] รูปแบบการกระจาย: สร้างแบบจำลองโดยยึดตามการแจกแจงเชิงสถิติเช่นการแจกแจงปกติหลายตัวแปรที่ใช้โดยอัลกอริทึมการคาดหวังสูงสุด ใช้เมื่อรูปร่างของคลัสเตอร์สามารถกำหนดเองได้โดยไม่เหมือนกับ k-mean ซึ่งถือว่าเป็นคลัสเตอร์แบบวงกลม ฟังก์ชัน R: emcluster ในแพ็คเกจ emcluster

[4] แบบจำลองความหนาแน่น: สร้างแบบจำลองโดยยึดตามกลุ่มที่เป็นพื้นที่หนาแน่นที่เชื่อมต่อในพื้นที่ข้อมูล เช่น DBSCAN และเลนส์ ใช้เมื่อรูปร่างคลัสเตอร์สามารถกำหนดเองได้ซึ่งแตกต่างจาก k-mean ซึ่งถือว่าเป็นคลัสเตอร์แบบวงกลม .. ฟังก์ชัน R dbscan ในแพ็คเกจ dbscan

[5] โมเดลย่อย: สร้างแบบจำลองโดยยึดตามทั้งสมาชิกคลัสเตอร์และคุณลักษณะที่เกี่ยวข้อง เช่นการรวมกลุ่ม (เรียกอีกอย่างว่าการทำคลัสเตอร์ร่วมกันหรือการทำคลัสเตอร์สองโหมด) ใช้เมื่อต้องการแถวและคอลัมน์กลุ่มพร้อมกัน R ฟังก์ชั่น biclust ในแพคเกจ biclust

[6] โมเดลกลุ่ม: สร้างโมเดลตามข้อมูลการจัดกลุ่ม เช่นการกรองร่วมกัน (อัลกอริทึมผู้แนะนำ) ฟังก์ชั่น R ผู้แนะนำในแพคเกจ recommenderlab

[7] โมเดลที่ใช้กราฟ: สร้างโมเดลตามกลุ่ม อัลกอริธึมตรวจหาโครงสร้างชุมชนพยายามค้นหากราฟย่อยหนาแน่นในกราฟที่กำกับหรือไม่ระบุทิศทาง เช่นฟังก์ชัน R cluster_walktrap ในแพ็คเกจ igraph

[8] แผนที่คุณลักษณะการจัดระเบียบตนเองของ Kohonen: สร้างแบบจำลองโดยยึดตามโครงข่ายประสาทเทียม ฟังก์ชั่น R บางอย่างในแพ็คเกจ kohonen

[9] การจัดกลุ่มเชิงสเปกตรัม: สร้างแบบจำลองโดยยึดตามโครงสร้างคลัสเตอร์แบบไม่นูนหรือเมื่อการวัดของศูนย์กลางไม่ใช่คำอธิบายที่เหมาะสมของคลัสเตอร์แบบสมบูรณ์ ฟังก์ชั่น R specc ในแพคเกจ kernlab

[10] การจัดกลุ่มย่อยของสเปซ: สำหรับข้อมูลมิติสูงฟังก์ชั่นระยะทางอาจเป็นปัญหาได้ โมเดลคลัสเตอร์รวมถึงแอ็ตทริบิวต์ที่เกี่ยวข้องสำหรับคลัสเตอร์ เช่นฟังก์ชั่น hddc ในแพ็คเกจ R HDclassif

[11] การจัดกลุ่มลำดับ: ลำดับกลุ่มที่เกี่ยวข้อง แพ็คเกจ rBlast

[12] การเผยแพร่ความสัมพันธ์: สร้างแบบจำลองโดยยึดตามข้อความที่ส่งผ่านระหว่างจุดข้อมูล ไม่จำเป็นต้องกำหนดจำนวนของคลัสเตอร์เพื่อพิจารณาก่อนรันอัลกอริทึม มันจะดีกว่าสำหรับการมองเห็นคอมพิวเตอร์และงานด้านชีววิทยาเชิงคำนวณเช่นการจัดกลุ่มรูปภาพใบหน้ามนุษย์และการระบุการถอดเสียงที่มีการควบคุมมากกว่า k- mean , Ref Rpackage APCluster

[13] การจัดกลุ่มสตรีม: สร้างแบบจำลองโดยอ้างอิงจากข้อมูลที่มาถึงอย่างต่อเนื่องเช่นบันทึกทางโทรศัพท์ธุรกรรมทางการเงินเป็นต้นเช่นแพ็คเกจ R BIRCH [ https://cran.r-project.org/src/contrib/Archive/birch/]

[14] การจัดกลุ่มเอกสาร (หรือการจัดกลุ่มข้อความ): สร้างแบบจำลองตาม SVD มันได้ใช้ในการแยกหัวข้อ เช่น Carrot [ http://search.carrot2.org]เป็นเอ็นจิ้นการค้นหาแบบโอเพ่นซอร์สซึ่งจะทำการจัดกลุ่มเอกสารตามหมวดหมู่เฉพาะเรื่อง

[15] โมเดลคลาสแฝง: มันเกี่ยวข้องกับชุดตัวแปรหลายตัวแปรที่สังเกตได้กับชุดของตัวแปรแฝง อาจใช้ LCA ในการกรองร่วมกัน ฟังก์ชัน R ผู้แนะนำในแพ็คเกจ recommenderlab มีฟังก์ชันการกรองร่วมกัน

[16] Biclustering: ใช้เพื่อจัดกลุ่มแถวและคอลัมน์ของข้อมูลสองโหมดพร้อมกัน เช่นฟังก์ชัน R ปั่นป่วนในแพคเกจ biclust

[17] การจัดกลุ่มแบบนุ่มนวล (การจัดกลุ่มแบบคลุมเครือ): แต่ละวัตถุเป็นของแต่ละกลุ่มในระดับหนึ่ง เช่นฟังก์ชัน R Fclust ในแพ็คเกจ fclust

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.