คำถามติดแท็ก clustering

การวิเคราะห์กลุ่มเป็นหน้าที่ของการแบ่งข้อมูลออกเป็นส่วนย่อยของวัตถุตาม "ความคล้ายคลึงกัน" ซึ่งกันและกันโดยไม่ใช้ความรู้ที่มีมาก่อนเช่นป้ายชื่อชั้นเรียน [ข้อผิดพลาดมาตรฐานและ / หรือกลุ่มตัวอย่างควรติดแท็กเช่น; อย่าใช้แท็ก "การจัดกลุ่ม" สำหรับพวกเขา]

1
รูทีนการเลือก eps และ minPts สำหรับ DBSCAN
DBSCAN เป็นขั้นตอนวิธีการจัดกลุ่มที่อ้างถึงมากที่สุดตามวรรณกรรมบางเล่มและสามารถหากลุ่มรูปร่างตามอำเภอใจตามความหนาแน่น มันมีสองพารามิเตอร์ eps (ตามรัศมีของพื้นที่ใกล้เคียง) และ minPts (เป็นเพื่อนบ้านขั้นต่ำในการพิจารณาจุดเป็นจุดหลัก) ซึ่งฉันเชื่อว่ามันขึ้นอยู่กับพวกเขา มีวิธีปกติหรือวิธีการที่ใช้กันทั่วไปเพื่อเลือกพารามิเตอร์เหล่านี้หรือไม่?

2
มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลใหม่
ฉันมีสองส่วนของชุดข้อมูลหลายมิติขอเรียกพวกเขาและtrain testและฉันต้องการสร้างแบบจำลองตามชุดข้อมูลรถไฟแล้วตรวจสอบความถูกต้องของชุดข้อมูลทดสอบ จำนวนของกลุ่มเป็นที่รู้จักกัน ฉันพยายามใช้การจัดกลุ่ม k-mean ใน R และได้วัตถุที่มีศูนย์กลางของกลุ่ม: kClust <- kmeans(train, centers=N, nstart=M) มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลการทดสอบของฉันหรือไม่? ฉันสามารถลองวิธีการ / ขั้นตอนวิธีอื่นได้อย่างไร
14 r  clustering  k-means 

4
k-หมายถึงการใช้งานกับเมทริกซ์ระยะทางที่กำหนดเองในอินพุต
ทุกคนสามารถชี้ให้ฉันเห็นการใช้งาน k- หมายถึง (มันจะดีกว่าถ้าใน MATLAB) ที่สามารถใช้เมทริกซ์ระยะทางในการป้อนข้อมูล? การใช้งานมาตรฐาน MATLAB ต้องใช้เมทริกซ์การสังเกตในอินพุตและไม่สามารถเปลี่ยนการวัดความคล้ายคลึงกันได้

3
ฉันต้องลดตัวแปรที่มีความสัมพันธ์ / collinear ก่อนเรียกใช้ kmeans หรือไม่
ฉันกำลังเรียกใช้ kmeans เพื่อระบุกลุ่มลูกค้า ฉันมีตัวแปรประมาณ 100 ตัวเพื่อระบุกลุ่ม ตัวแปรแต่ละตัวเหล่านี้แสดงถึง% ของการใช้จ่ายของลูกค้าในหมวดหมู่ ดังนั้นถ้าฉันมี 100 หมวดหมู่ฉันมีตัวแปร 100 ตัวดังกล่าวผลรวมของตัวแปรเหล่านี้คือ 100% สำหรับลูกค้าแต่ละราย ตอนนี้ตัวแปรเหล่านี้มีความสัมพันธ์กันอย่างมาก ฉันต้องลบสิ่งเหล่านี้บางส่วนเพื่อลบ collinearity ก่อนที่จะเรียกใช้ kmeans หรือไม่ นี่คือข้อมูลตัวอย่าง ในความเป็นจริงฉันมี 100 ตัวแปรและ 10 ล้านลูกค้า Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

5
การทำคลัสเตอร์ (k- หมายถึงหรืออย่างอื่น) ที่มีข้อ จำกัด ขนาดของกลุ่มขั้นต่ำ
ฉันต้องการจัดกลุ่มหน่วยเป็นกลุ่มเพื่อลดผลรวมภายในกลุ่มของสี่เหลี่ยม (WSS) แต่ฉันต้องตรวจสอบให้แน่ใจว่าแต่ละกลุ่มมีหน่วยอย่างน้อยm มีความคิดใดบ้างหากฟังก์ชั่นการจัดกลุ่มของ R อนุญาตให้ทำการจัดกลุ่มเป็นkกลุ่มภายใต้ข้อ จำกัด ขนาดของกลุ่มขั้นต่ำ? kmeans () ดูเหมือนจะไม่เสนอตัวเลือกการ จำกัด ขนาดkkkmmmkkk
14 r  clustering 

5
ฉันจะแปลงระยะทาง (ยูคลิดแดน) เป็นคะแนนความคล้ายคลึงกันได้อย่างไร
ฉันใช้หมายถึงการรวมกลุ่มเป็นเสียงของกลุ่มลำโพง เมื่อฉันเปรียบเทียบคำพูดกับข้อมูลลำโพงแบบคลัสเตอร์ฉันจะได้รับความผิดเพี้ยนเฉลี่ย (อิงตามปริภูมิแบบยุคลิด) ระยะนี้อาจจะอยู่ในช่วงinfty] ฉันต้องการแปลงระยะทางนี้เป็นคะแนนความเหมือนโปรดแนะนำฉันเกี่ยวกับวิธีที่ฉันสามารถบรรลุสิ่งนี้[ 0 , ∞ ] [ 0 , 1 ]kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

1
สุดยอดการขจัดข้อมูลซ้ำซ้อน
วิธีการขจัดข้อมูลซ้ำซ้อนในบันทึกมีอะไรบ้าง? การคัดลอกซ้ำบางครั้งเรียกอีกอย่างว่า: การเชื่อมโยงเรคคอร์ด, การแก้ไขเอนทิตี, การแก้ไขเอกลักษณ์, ผสาน / ล้าง ฉันรู้ตัวอย่างเกี่ยวกับ CBLOCK [1] ฉันจะขอบคุณถ้าคำตอบรวมถึงการอ้างอิงถึงซอฟต์แวร์ที่มีอยู่ในการใช้วิธีการ ฉันรู้ว่าตัวอย่างที่ดำเนินการควาญช้างหลังคา-การจัดกลุ่ม นอกจากนี้ยังมีDukeที่ใช้ Lucene มีระบบการค้าซ้ำซ้อนมากมาย มันจะมีค่าที่จะรู้ว่าพวกเขาทำงานอย่างไรและมีประสิทธิภาพเพียงใด ฉันสนใจทั้งสองอย่างในการขจัดข้อมูลซ้ำซ้อนภายในชุดข้อมูลเดียวและเชื่อมโยงระหว่างชุดข้อมูลหลายชุดที่มาจากแหล่งข้อมูลที่แตกต่างกัน ประสิทธิภาพและความสามารถในการประมวลผลข้อมูลจำนวนมากก็มีความสำคัญเช่นกัน [1] CBLOCK: กลไกการบล็อกอัตโนมัติสำหรับงานซ้ำซ้อนขนาดใหญ่

3
คลัสเตอร์ข้อมูลขนาดใหญ่ใน R และการสุ่มตัวอย่างมีความเกี่ยวข้องหรือไม่
ฉันยังใหม่กับวิทยาศาสตร์ข้อมูลและมีปัญหาในการค้นหากลุ่มในชุดข้อมูลที่มี 200,000 แถวและ 50 คอลัมน์ใน R เนื่องจากข้อมูลมีทั้งตัวเลขและตัวแปรที่กำหนดวิธีการแบบ K-mean ซึ่งใช้การวัดระยะทางแบบยุคลิดจึงไม่เป็นทางเลือกที่เหมาะสม ดังนั้นฉันจึงหันไปหา PAM แอกเนสและ hclust ซึ่งยอมรับเมทริกซ์ระยะทางเป็นอินพุต วิธีเดซี่สามารถทำงานกับข้อมูลแบบผสม แต่เมทริกซ์ระยะทางนั้นใหญ่เกินไป: 200,000 เท่า 200,000 มีขนาดใหญ่กว่า 2 ^ 31-1 มาก (ขีด จำกัด ความยาวเวกเตอร์ก่อน R 3.0.0) R 3.0.0 ใหม่ที่เผยแพร่เมื่อวานนี้รองรับเวกเตอร์ยาวที่มีความยาวมากกว่า 2 ^ 31-1 แต่เมทริกซ์สองเท่าของ 200,000 โดย 200,000 ต้องใช้ RAM ต่อเนื่องที่มีขนาดใหญ่กว่า 16Gb ซึ่งเป็นไปไม่ได้ในเครื่องของฉัน ฉันอ่านเกี่ยวกับการคำนวณแบบขนานและแพ็คเกจหน่วยความจำขนาดใหญ่และไม่แน่ใจว่าพวกเขาจะช่วยได้อย่างไร: ถ้าฉันใช้เดซี่มันจะสร้างเมทริกซ์ขนาดใหญ่ที่ไม่สามารถใส่หน่วยความจำได้ ฉันยังอ่านเกี่ยวกับการโพสต์เกี่ยวกับการสุ่มตัวอย่าง: การสุ่มตัวอย่างมีความเกี่ยวข้องในช่วงเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่ …

5
เทคนิคการจัดกลุ่มที่เหมาะสมสำหรับข้อมูลชั่วคราวหรือไม่
ฉันมีข้อมูลชั่วคราวของความถี่กิจกรรม ฉันต้องการระบุกลุ่มในข้อมูลที่ระบุช่วงเวลาที่แตกต่างกับระดับกิจกรรมที่คล้ายกัน เป็นการดีที่ฉันต้องการระบุกลุ่มโดยไม่ต้องระบุจำนวนกลุ่มก่อน เทคนิคการจัดกลุ่มที่เหมาะสมคืออะไร หากคำถามของฉันมีข้อมูลไม่เพียงพอที่จะตอบชิ้นส่วนของข้อมูลที่ฉันต้องจัดหาเพื่อกำหนดเทคนิคการจัดกลุ่มที่เหมาะสมคืออะไร ด้านล่างนี้เป็นภาพประกอบของชนิดข้อมูล / การจัดกลุ่มที่ฉันจินตนาการ:

4
การเริ่มต้น K-หมายถึงศูนย์โดยวิธีการของชุดย่อยแบบสุ่มของชุดข้อมูลหรือไม่
ถ้าฉันมีชุดข้อมูลที่แน่นอนมันจะฉลาดแค่ไหนที่จะเริ่มต้นศูนย์คลัสเตอร์โดยใช้วิธีการสุ่มตัวอย่างของชุดข้อมูลนั้น 5 clustersตัวอย่างเช่นสมมติว่าผมต้องการ ฉัน5 random samplesพูดsize=20%ของชุดข้อมูลเดิม จากนั้นฉันจะใช้ค่าเฉลี่ยของตัวอย่างสุ่มทั้ง 5 เหล่านี้แล้วใช้ค่าเฉลี่ยเหล่านั้นเป็นศูนย์คลัสเตอร์เริ่มต้น 5 ศูนย์ของฉันได้หรือไม่ ฉันไม่รู้ว่าฉันอ่านตรงไหน แต่อยากรู้ว่าพวกคุณคิดอย่างไรกับแนวคิดนี้ UPDATE:โปรดดูหัวข้อนี้การเริ่มต้น K-หมายถึงการจัดกลุ่ม: วิธีการที่มีอยู่คืออะไร? สำหรับการสนทนาทั่วไปเกี่ยวกับวิธีการเริ่มต้นต่างๆ

2
ใช้การทดสอบนัยสำคัญทางสถิติเพื่อตรวจสอบความถูกต้องของผลการวิเคราะห์กลุ่ม
ฉันกำลังสำรวจการใช้การทดสอบนัยสำคัญทางสถิติ (SST) เพื่อตรวจสอบผลลัพธ์ของการวิเคราะห์คลัสเตอร์ ฉันพบเอกสารหลายฉบับเกี่ยวกับหัวข้อนี้เช่น "ความสำคัญทางสถิติของการทำคลัสเตอร์สำหรับข้อมูลมิติข้อมูลตัวอย่างขนาดเล็ก " โดยLiu, Yufeng และคณะ (2008) " ในการทดสอบความสำคัญในการวิเคราะห์กลุ่ม " โดยBock (1985) แต่ฉันสนใจที่จะค้นหาวรรณกรรมบางฉบับที่โต้แย้งว่า SST ไม่เหมาะสมที่จะตรวจสอบผลลัพธ์ของการวิเคราะห์กลุ่ม แหล่งเดียวที่ฉันได้พบอ้างว่าเป็นหน้าเว็บของผู้จำหน่ายซอฟต์แวร์ เพื่อชี้แจง: ฉันสนใจที่จะทดสอบว่าโครงสร้างคลัสเตอร์ที่สำคัญพบว่าเป็นผลมาจากการวิเคราะห์กลุ่มหรือไม่ดังนั้นฉันต้องการทราบเอกสารที่สนับสนุนหรือ refuting ข้อกังวล "เกี่ยวกับความเป็นไปได้ของการทดสอบหลังผลของข้อมูลเชิงสำรวจ การวิเคราะห์ที่ใช้ในการค้นหากลุ่ม " ฉันเพิ่งพบกระดาษจากปี 2003 " วิธีการจัดกลุ่มและการจำแนกประเภท " โดยMilligan และ Hirtleกล่าวว่าการใช้ ANOVA นั้นเป็นการวิเคราะห์ที่ไม่ถูกต้องเนื่องจากข้อมูลไม่มีการสุ่มมอบหมายให้กับกลุ่ม

2
ทำความเข้าใจการเปรียบเทียบผลการจัดกลุ่ม
ฉันกำลังทดลองกับการจำแนกข้อมูลออกเป็นกลุ่ม ฉันค่อนข้างใหม่สำหรับหัวข้อนี้และพยายามเข้าใจผลลัพธ์ของการวิเคราะห์ ใช้ตัวอย่างจากQuick-R แนะนำให้ใช้หลายRแพ็คเกจ ฉันได้ลองใช้แพ็คเกจสองชุดนี้ ( fpcโดยใช้kmeansฟังก์ชั่นและmclust) แง่มุมหนึ่งของการวิเคราะห์ที่ฉันไม่เข้าใจคือการเปรียบเทียบผลลัพธ์ # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) ฉันได้อ่านในส่วนต่าง ๆ ที่เกี่ยวข้องของfpc คู่มือและยังไม่ชัดเจนในสิ่งที่ฉันควรจะมุ่ง ตัวอย่างเช่นนี่คือผลลัพธ์ของการเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันสองวิธี: $n [1] 521 $cluster.number [1] 4 $cluster.size [1] 250 119 78 74 $diameter [1] 5.278162 9.773658 16.460074 7.328020 $average.distance [1] 1.632656 2.106422 3.461598 2.622574 $median.distance [1] 1.562625 1.788113 …
13 r  clustering 

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

4
ความไม่เท่าเทียมกันของสามเหลี่ยมเป็นจริงสำหรับระยะทางตามความสัมพันธ์เหล่านี้หรือไม่?
สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะเห็น "ตัวชี้วัด" สองตัวต่อไปนี้ (พวกเขาพูดไม่ตรงกัน) สำหรับการวัดระยะห่างระหว่างตัวแปรสุ่มสองตัวและ : \ newcommand {\ Cor} {\ mathrm {Cor}} \ start {align} d_1 (X, Y) และ = 1- | \ คอร์ (X, Y) | \\ d_2 (X, Y) และ = 1 - (\ คอร์ (X, Y)) ^ 2 \ end {} จัด ทำอย่างใดอย่างหนึ่ง ตอบสนองความไม่เท่าเทียมกันของสามเหลี่ยมหรือไม่? ถ้าเป็นเช่นนั้นฉันควรจะพิสูจน์ได้อย่างไรนอกจากการคำนวณแบบ bruteforce? …

4
คุณจะทำอย่างไรเมื่อไม่มีจุดศอกสำหรับการจัดกลุ่ม kmeans
ฉันได้เรียนรู้ว่าเมื่อเลือกกลุ่มจำนวนมากคุณควรมองหาจุดศอกสำหรับค่าต่าง ๆ ของเคฉันได้พล็อตค่าของ ininss สำหรับค่า k จาก 1 ถึง 10 แต่ฉันไม่เห็นชัดเจน ข้อศอก. คุณทำอะไรในกรณีเช่นนี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.