คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

4
การจัดกลุ่มเมทริกซ์สหสัมพันธ์
ฉันมีเมทริกซ์สหสัมพันธ์ซึ่งระบุว่ารายการทั้งหมดสัมพันธ์กับรายการอื่นอย่างไร ดังนั้นสำหรับรายการ N ฉันมีเมทริกซ์สหสัมพันธ์ N * N อยู่แล้ว การใช้เมทริกซ์สหสัมพันธ์นี้ฉันจะจัดกลุ่มรายการ N ในถังขยะ M อย่างไรเพื่อให้ฉันสามารถพูดได้ว่ารายการ Nk ในถังขยะ kth ทำงานเหมือนกัน กรุณาช่วยฉันออก ค่ารายการทั้งหมดเป็นหมวดหมู่ ขอบคุณ แจ้งให้เราทราบหากคุณต้องการข้อมูลเพิ่มเติม ฉันต้องการวิธีแก้ปัญหาใน Python แต่ความช่วยเหลือในการผลักดันฉันไปสู่ข้อกำหนดนั้นจะเป็นประโยชน์อย่างมาก

5
มีฟังก์ชั่น R ที่จะคำนวณเมทริกซ์ที่ไม่เหมือนกันของโคไซน์หรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันต้องการสร้างแผนที่ความร้อนที่มีการจัดกลุ่มแถวตามระยะทางโคไซน์ ฉันใช้ R และheatmap.2()ทำรูป ฉันเห็นได้ว่ามีdistพารามิเตอร์อยู่heatmap.2แต่ฉันไม่สามารถหาฟังก์ชั่นเพื่อสร้างเมทริกซ์ที่แตกต่างกันได้ distฟังก์ชั่นบิวอินไม่รองรับระยะทางโคไซน์ฉันยังพบแพ็คเกจที่เรียกว่าarulesพร้อมdissimilarity()ฟังก์ชัน แต่ใช้งานได้กับข้อมูลไบนารีเท่านั้น

3
เหตุผลที่ทำให้เป็นมาตรฐานในการวัดระยะทางแบบยุคลิดในการจัดกลุ่มแบบลำดับชั้น
เห็นได้ชัดว่าในการจัดกลุ่มแบบลำดับชั้นซึ่งการวัดระยะทางเป็นระยะทางแบบยุคลิดข้อมูลจะต้องเป็นมาตรฐานหรือมาตรฐานแรกเพื่อป้องกันการแปรปรวนร่วมกับความแปรปรวนสูงสุดจากการขับรถการจัดกลุ่ม ทำไมนี้ ความจริงข้อนี้ไม่เป็นที่ต้องการใช่หรือไม่

8
การจัดกลุ่มข้อมูลชนิดผสมด้วย R
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันสงสัยว่าเป็นไปได้หรือไม่ที่จะดำเนินการภายใน R การจัดกลุ่มข้อมูลที่มีตัวแปรข้อมูลแบบผสม กล่าวอีกนัยหนึ่งฉันมีชุดข้อมูลที่ประกอบด้วยตัวแปรตัวเลขและหมวดหมู่ภายในและฉันกำลังค้นหาวิธีที่ดีที่สุดในการจัดกลุ่มพวกเขา ใน SPSS ฉันจะใช้คลัสเตอร์สองขั้นตอน ฉันสงสัยว่าใน R ฉันสามารถหาเทคนิคที่คล้ายกันได้หรือไม่ ฉันได้รับแจ้งเกี่ยวกับแพคเกจ poLCA แต่ฉันไม่แน่ใจ ...

1
วิธีกำหนดจำนวนกลุ่มใน K-หมายถึงการจัดกลุ่ม?
มีวิธีใดในการกำหนดจำนวนคลัสเตอร์ที่ดีที่สุดหรือฉันควรลองค่าที่แตกต่างกันและตรวจสอบอัตราความผิดพลาดเพื่อตัดสินใจเลือกค่าที่ดีที่สุด

3
เหตุใดสถิติของช่องว่างสำหรับ k-mean จึงแนะนำหนึ่งคลัสเตอร์แม้ว่าจะมีอยู่สองกลุ่มก็ตาม
ฉันกำลังใช้ K- หมายถึงการจัดกลุ่มข้อมูลของฉันและกำลังมองหาวิธีการแนะนำหมายเลขคลัสเตอร์ "ดีที่สุด" สถิติ Gap น่าจะเป็นวิธีการทั่วไปในการค้นหาหมายเลขคลัสเตอร์ที่ดี ด้วยเหตุผลบางอย่างมันคืนค่า 1 เป็นหมายเลขคลัสเตอร์ที่ดีที่สุด แต่เมื่อฉันดูข้อมูลมันชัดเจนว่ามี 2 คลัสเตอร์: นี่คือวิธีที่ฉันเรียกช่องว่างใน R: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) ชุดผลลัพธ์: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 …

4
ด้วยข้อมูลหมวดหมู่จะมีกลุ่มที่ไม่มีตัวแปรที่เกี่ยวข้องหรือไม่
เมื่อพยายามอธิบายการวิเคราะห์กลุ่มมันเป็นเรื่องปกติที่คนจะเข้าใจผิดเกี่ยวกับกระบวนการที่เกี่ยวข้องกับว่าตัวแปรมีความสัมพันธ์กันหรือไม่ วิธีหนึ่งที่จะทำให้ผู้คนสับสนได้ก็คือเรื่องแบบนี้: สิ่งนี้แสดงความแตกต่างอย่างชัดเจนระหว่างคำถามที่ว่ามีกลุ่มและคำถามที่เกี่ยวข้องกับตัวแปรหรือไม่ อย่างไรก็ตามนี่แสดงให้เห็นถึงความแตกต่างสำหรับข้อมูลต่อเนื่องเท่านั้น ฉันมีปัญหาในการคิดแบบอะนาล็อกกับข้อมูลที่เป็นหมวดหมู่: ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no เราจะเห็นได้ว่ามีกลุ่มชัดเจนสองกลุ่มคือคนที่มีทั้งคุณสมบัติ A และ B และกลุ่มที่ไม่มี อย่างไรก็ตามถ้าเราดูตัวแปร (เช่นด้วยการทดสอบไคสแควร์) พวกมันจะเกี่ยวข้องกันอย่างชัดเจน: tab # B # A yes no # yes 4 …

4
จะเข้าใจข้อเสียของการจัดกลุ่มลำดับชั้นได้อย่างไร
ใครสามารถอธิบายข้อดีข้อเสียของการจัดกลุ่มลำดับชั้นได้? การจัดกลุ่มตามลำดับชั้นมีข้อเสียเช่นเดียวกับ K หมายความว่าอย่างไร อะไรคือข้อดีของการจัดกลุ่มลำดับชั้นมากกว่า K หมายถึงอะไร เมื่อใดที่เราควรใช้ K แทนการจัดกลุ่มตามลำดับชั้น & ในทางกลับกัน คำตอบสำหรับโพสต์นี้จะอธิบายข้อเสียของ k หมายถึงดีมาก วิธีการทำความเข้าใจข้อเสียของ K-mean

3
การประมาณคุณสมบัติที่สำคัญที่สุดในพาร์ติชันคลัสเตอร์ k-mean
มีวิธีในการพิจารณาว่าคุณสมบัติ / ตัวแปรของชุดข้อมูลใดที่มีความสำคัญที่สุด / เด่นที่สุดภายในโซลูชันคลัสเตอร์ k-mean?

1
อัลกอริธึมการทำคลัสเตอร์ที่ทำงานกับข้อมูลที่กระจัดกระจาย [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน5 ปีที่ผ่านมา ฉันพยายามรวบรวมรายการอัลกอริทึมการจัดกลุ่มที่: ดำเนินการใน R ดำเนินการกับเมทริกซ์การกระจัดกระจายข้อมูล (ไม่ใช่ (dis) เมทริกซ์ความเหมือนกัน) เช่นที่สร้างขึ้นโดยฟังก์ชันsparseMatrix มีคำถามอื่น ๆ อีกมากมายเกี่ยวกับประวัติย่อที่กล่าวถึงแนวคิดนี้ แต่ไม่มีคำถามใดที่เชื่อมโยงกับแพ็คเกจ R ที่สามารถใช้งานได้โดยตรงกับการฝึกอบรมแบบกระจัดกระจาย: การทำคลัสเตอร์ชุดข้อมูลขนาดใหญ่และกระจัดกระจาย การทำคลัสเตอร์ข้อมูลไบนารีหร็อมแหร็มมิติสูง กำลังมองหาการใช้การจัดกลุ่มแบบกระจัดกระจายและมิติสูง การจัดกลุ่มที่ประหยัดพื้นที่ จนถึงตอนนี้ฉันพบฟังก์ชันหนึ่งฟังก์ชันใน R ที่สามารถจัดกลุ่มเมทริกซ์กระจัดกระจาย: skmeans : kmeans ทรงกลม จากแพคเกจ skmeans kmeans ใช้ระยะโคไซน์ ทำงานบนวัตถุ dgTMatrix จัดเตรียมอินเตอร์เฟสกับอัลกอริทึม k-mean, pclust, CLUTO, gmeans และ kmndirs ตัวอย่าง: library(Matrix) set.seed(42) nrow <- …
18 r  clustering  sparse 

4
"คำสาปของมิติ" มีอยู่จริงในข้อมูลจริงหรือไม่?
ฉันเข้าใจว่า "การสาปแช่งของมิติ" คืออะไรและฉันได้ทำปัญหาการหาค่าเหมาะที่สุดในระดับสูงแล้วและรู้ถึงความท้าทายของความเป็นไปได้แบบเอ็กซ์โปเนนเชียล อย่างไรก็ตามฉันสงสัยว่า "คำสาปของมิติ" มีอยู่ในข้อมูลโลกแห่งความเป็นจริงมากที่สุด ( ถ้างั้นลองวางรูปภาพหรือวิดีโอไว้ครู่หนึ่งฉันกำลังคิดถึงข้อมูลเช่นข้อมูลประชากรศาสตร์ของลูกค้าและข้อมูลพฤติกรรมการซื้อ) เราสามารถรวบรวมข้อมูลด้วยฟีเจอร์มากมาย แต่ก็มีความเป็นไปได้น้อยกว่าที่ฟีเจอร์นั้นจะสามารถขยายพื้นที่ได้อย่างเต็มที่ด้วยมิติข้อมูลนับพัน นี่คือเหตุผลว่าทำไมเทคนิคการลดขนาดจึงเป็นที่นิยม กล่าวอีกอย่างหนึ่งก็คือมีแนวโน้มว่าข้อมูลจะไม่มีข้อมูลระดับเอ็กซ์โปเนนเชียลเช่นคุณสมบัติหลายอย่างมีความสัมพันธ์สูงและคุณสมบัติหลายอย่างเป็นไปตามกฎ 80-20 (หลายกรณีมีค่าเท่ากัน) ในกรณีเช่นนี้ฉันคิดว่าวิธีการเช่น KNN จะยังคงทำงานได้ดีพอสมควร (ในหนังสือส่วนใหญ่ "คำสาปของมิติ" บอกว่ามิติ> 10 อาจเป็นปัญหาได้ในการสาธิตพวกเขาใช้การกระจายแบบสม่ำเสมอในทุกมิติที่เอนโทรปีสูงจริง ๆ ฉันสงสัยในโลกแห่งความจริงนี้จะเกิดขึ้น) ประสบการณ์ส่วนตัวของฉันกับข้อมูลจริงคือ "การสาปแช่งของมิติ" ไม่ได้ส่งผลกระทบต่อวิธีการเทมเพลต (เช่น KNN) มากเกินไปและในกรณีส่วนใหญ่ขนาด ~ 100 จะยังคงใช้งานได้ สิ่งนี้เป็นจริงสำหรับคนอื่นหรือไม่? (ฉันทำงานกับข้อมูลจริงในอุตสาหกรรมต่าง ๆ เป็นเวลา 5 ปีไม่เคยสังเกตว่า "คู่ระยะทางทั้งหมดมีค่าใกล้เคียงกัน" ตามที่อธิบายไว้ในหนังสือเล่มนี้)

2
การทำคลัสเตอร์ - สัญชาตญาณเบื้องหลังทฤษฎีบทความเป็นไปไม่ได้ของไคลน์เบิร์ก
ฉันกำลังคิดเกี่ยวกับการเขียนโพสต์บล็อกในการวิเคราะห์ที่น่าสนใจนี้โดยKleinberg (2002)ที่สำรวจความยากลำบากในการจัดกลุ่ม Kleinberg แสดงตัวอธิบายลักษณะสามเดเดอราตาที่ใช้งานง่ายสำหรับฟังก์ชั่นการจัดกลุ่มแล้วพิสูจน์ว่าไม่มีฟังก์ชันดังกล่าวอยู่ มีอัลกอริทึมการจัดกลุ่มจำนวนมากที่ satify เกณฑ์สองในสาม อย่างไรก็ตามไม่มีฟังก์ชั่นที่สามารถตอบสนองทั้งสามพร้อมกันได้ โดยสังเขปและอย่างไม่เป็นทางการทั้งสามผู้อธิบายที่เขาสรุปคือ: มาตราส่วน - ค่าคงที่ : ถ้าเราแปลงข้อมูลเพื่อให้ทุกอย่างยืดออกไปในทุกทิศทางผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง ความสอดคล้อง : ถ้าเรายืดข้อมูลเพื่อให้ระยะห่างระหว่างกลุ่มเพิ่มขึ้นและ / หรือระยะทางภายในกลุ่มลดลงดังนั้นผลการจัดกลุ่มไม่ควรเปลี่ยนแปลง ความสมบูรณ์ : ฟังก์ชันการจัดกลุ่มในทางทฤษฎีควรสามารถสร้างพาร์ติชัน / การจัดกลุ่มข้อมูลได้ตามอำเภอใจ (โดยไม่ทราบระยะห่างระหว่างสองจุด) คำถาม: (1)มีสัญชาตญาณภาพเรขาคณิตที่ดีที่สามารถแสดงความไม่สอดคล้องระหว่างเกณฑ์ทั้งสามนี้หรือไม่? (2)นี่หมายถึงรายละเอียดทางเทคนิคของกระดาษ คุณจะต้องอ่านลิงก์ด้านบนเพื่อทำความเข้าใจในส่วนนี้ของคำถาม ในกระดาษการพิสูจน์ทฤษฎีบท 3.1 เป็นเรื่องยากสำหรับฉันที่จะตามไปที่จุด ฉันติดอยู่ที่: "Let fff . จะเป็นฟังก์ชั่นการจัดกลุ่มที่ตอบสนองความสอดคล้องเราอ้างว่าสำหรับการใด ๆ พาร์ทิชันΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)ที่มีอยู่จำนวนจริงบวก&lt; ขดังกล่าวว่าคู่( , ข)เป็นΓ - บังคับให้."a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma ฉันไม่เห็นว่าสิ่งนี้จะเกิดขึ้นได้อย่างไร …

9
การคำนวณดัชนีแรนด์
ฉันพยายามหาวิธีการคำนวณดัชนีแรนด์ของอัลกอริทึมคลัสเตอร์ แต่ฉันติดอยู่ที่จุดวิธีการคำนวณเชิงลบที่แท้จริงและเท็จ ตอนนี้ฉันใช้ตัวอย่างจากหนังสือ An Introduction to Information Retrieval (Manning, Raghavan &amp; Schütze, 2009) ที่หน้า 359 พวกเขาพูดถึงวิธีคำนวณดัชนีแรนด์ สำหรับตัวอย่างนี้พวกเขาใช้สามกลุ่มและกลุ่มมีวัตถุต่อไปนี้ aaaaab abbbbc aaccc ฉันเปลี่ยนวัตถุ (สัญญาณเดิมเป็นตัวอักษร แต่ความคิดและจำนวนยังคงเหมือนเดิม) ฉันจะให้คำที่แน่นอนจากหนังสือเพื่อดูสิ่งที่พวกเขากำลังพูดถึง: อันดับแรกเราคำนวณ TP + FP สามกลุ่มประกอบด้วย 6, 6 และ 5 คะแนนตามลำดับดังนั้นจำนวนรวมของ "ผลบวก" หรือคู่ของเอกสารที่อยู่ในคลัสเตอร์เดียวกันคือ: TP + FP = + + = 15 + 15+ 10 = 40(62)(62){6 \choose …
17 clustering 

1
พารามิเตอร์อินพุตสำหรับการใช้การจัดสรร Dirichlet แฝง
เมื่อใช้การสร้างหัวข้อ (Latent Dirichlet Allocation) จำนวนหัวข้อคือพารามิเตอร์อินพุตที่ผู้ใช้ต้องระบุ ฉันคิดว่าเราควรจะมีชุดหัวข้อผู้สมัครที่กระบวนการ Dirichlet มีตัวอย่าง ความเข้าใจของฉันถูกต้องหรือไม่ ในทางปฏิบัติจะตั้งค่าหัวข้อผู้สมัครประเภทนี้ได้อย่างไร

8
การวัดคุณภาพแบบคลัสเตอร์
ฉันมีอัลกอริทึมการจัดกลุ่ม (ไม่ใช่ k-mean) พร้อมพารามิเตอร์อินพุต (จำนวนคลัสเตอร์) หลังจากดำเนินการจัดกลุ่มแล้วฉันต้องการรับการวัดเชิงคุณภาพของการจัดกลุ่มนี้ อัลกอริทึมการจัดกลุ่มมีคุณสมบัติที่สำคัญอย่างหนึ่ง สำหรับถ้าฉันป้อนจุดข้อมูลโดยไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างพวกเขาไปยังอัลกอริทึมนี้ดังนั้นฉันจะได้รับหนึ่งคลัสเตอร์ที่มีจุดข้อมูลและหนึ่งคลัสเตอร์ที่มีจุดข้อมูล เห็นได้ชัดว่านี่ไม่ใช่สิ่งที่ฉันต้องการ ดังนั้นฉันต้องการคำนวณการวัดคุณภาพนี้เพื่อประเมินความสมเหตุสมผลของการจัดกลุ่มนี้ นึกคิดฉันจะสามารถที่จะเปรียบเทียบมาตรการนี้ที่แตกต่างกันkดังนั้นฉันจะเรียกใช้การจัดกลุ่มในช่วงของkkkk=2k=2k=2NNNN−1N−1N-1111kkkkkkและเลือกรายการที่มีคุณภาพดีที่สุด ฉันจะคำนวณการวัดคุณภาพดังกล่าวได้อย่างไร UPDATE: นี่คือตัวอย่างเมื่อเป็นการจัดกลุ่มที่ไม่ดี สมมุติว่ามี 3 จุดบนระนาบที่สร้างสามเหลี่ยมด้านเท่า การแบ่งจุดเหล่านี้ออกเป็น 2 กลุ่มนั้นแย่กว่าการแบ่งออกเป็น 1 หรือ 3 กลุ่ม(N−1,1)(N−1,1)(N-1, 1)
17 clustering 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.