คำถามติดแท็ก k-means

k-mean เป็นวิธีการแบ่งพาร์ติชันข้อมูลออกเป็นกระจุกโดยการค้นหาจำนวนวิธีที่ระบุ, k, st เมื่อข้อมูลถูกกำหนดให้กับกลุ่ม w / ค่าเฉลี่ยที่ใกล้ที่สุด

5
วิธีทำความเข้าใจข้อเสียของ K-mean
K-mean เป็นวิธีที่ใช้กันอย่างแพร่หลายในการวิเคราะห์กลุ่ม ในความเข้าใจของฉันวิธีนี้ไม่จำเป็นต้องมีข้อสมมติฐานใด ๆ เช่นให้ชุดข้อมูลและจำนวนกลุ่มที่กำหนดไว้ล่วงหน้าฉันและฉันเพิ่งใช้อัลกอริทึมนี้ซึ่งช่วยลดผลรวมของข้อผิดพลาดกำลังสอง (SSE) ภายในคลัสเตอร์กำลังสอง ความผิดพลาด k-mean จึงเป็นปัญหาการหาค่าเหมาะที่สุด ฉันอ่านเนื้อหาเกี่ยวกับข้อเสียของ k-mean ส่วนใหญ่พูดว่า: k- หมายถึงถือว่าความแปรปรวนของการกระจายของแต่ละคุณลักษณะ (ตัวแปร) เป็นทรงกลม; ตัวแปรทั้งหมดมีความแปรปรวนเดียวกัน ความน่าจะเป็นก่อนหน้านี้สำหรับ k k ทั้งหมดนั้นเหมือนกันกล่าวคือแต่ละกลุ่มมีจำนวนการสังเกตอย่างเท่าเทียมกัน หากมีการละเมิดสมมติฐานข้อใดข้อหนึ่งใน 3 ข้อใดข้อหนึ่งของ k-mean จะล้มเหลว ฉันไม่เข้าใจตรรกะหลังคำสั่งนี้ ฉันคิดว่าวิธี k-mean ไม่มีข้อสมมติฐานเป็นหลักมันแค่ลด SSE ลงเท่านั้นดังนั้นฉันจึงไม่สามารถเห็นลิงก์ระหว่างการลด SSE และ "สมมติฐาน" ทั้งสามนี้

5
อะไรคือความแตกต่างที่สำคัญระหว่าง K-Mean และ K- เพื่อนบ้านที่ใกล้ที่สุด?
ฉันรู้ว่า k-mean ไม่ได้รับการสำรองและใช้สำหรับการทำคลัสเตอร์ ฯลฯ และ k-NN นั้นได้รับการดูแล แต่ฉันต้องการรู้ความแตกต่างที่เป็นรูปธรรมระหว่างสองสิ่งนี้หรือไม่

6
จะทราบได้อย่างไรว่าข้อมูลถูก "รวมกลุ่ม" เพียงพอสำหรับอัลกอริธึมการจัดกลุ่มเพื่อให้ได้ผลลัพธ์ที่มีความหมายหรือไม่
คุณจะรู้ได้อย่างไรว่าข้อมูล (มิติสูง) ของคุณมีการจัดกลุ่มที่เพียงพอเพื่อให้ผลลัพธ์จาก kmeans หรืออัลกอริทึมการจัดกลุ่มอื่น ๆ มีความหมายจริงหรือไม่ สำหรับอัลกอริทึม k โดยเฉพาะอย่างยิ่งการลดลงของความแปรปรวนภายในคลัสเตอร์จะต้องลดลงเพียงใดเพื่อให้ผลการจัดกลุ่มที่แท้จริงมีความหมาย (และไม่ปลอม) การจัดกลุ่มควรชัดเจนเมื่อมีการลดขนาดของรูปแบบข้อมูลและผลลัพธ์จาก kmeans (หรือวิธีอื่น ๆ ) ไม่มีความหมายหากการจัดกลุ่มไม่สามารถมองเห็นได้?

6
การทำคลัสเตอร์บนเอาต์พุตของ t-SNE
ฉันมีแอปพลิเคชั่นที่จะสะดวกในการจัดกลุ่มชุดข้อมูลที่มีเสียงดังก่อนที่จะมองหาเอฟเฟกต์กลุ่มย่อยภายในกลุ่ม ครั้งแรกที่ฉันดู PCA แต่ต้องใช้ส่วนประกอบประมาณ 30 ชิ้นเพื่อรับความแปรปรวนได้ถึง 90% ดังนั้นการรวมกลุ่มกับพีซีเพียงไม่กี่เครื่องจะทำให้ข้อมูลจำนวนมากหมด จากนั้นฉันก็ลอง t-SNE (เป็นครั้งแรก) ซึ่งทำให้ฉันมีรูปร่างแปลก ๆ ในสองมิติที่คล้อยตามการจัดกลุ่มผ่าน k-mean ยิ่งไปกว่านั้นการรันฟอเรสต์แบบสุ่มบนข้อมูลด้วยการกำหนดคลัสเตอร์เนื่องจากผลลัพธ์แสดงว่ากลุ่มมีการตีความที่สมเหตุสมผลพอสมควรตามบริบทของปัญหาในแง่ของตัวแปรที่ประกอบขึ้นเป็นข้อมูลดิบ แต่ถ้าฉันจะรายงานเกี่ยวกับกลุ่มเหล่านี้ฉันจะอธิบายพวกเขาได้อย่างไร K-หมายถึงกลุ่มบนส่วนประกอบหลักเปิดเผยบุคคลที่อยู่ใกล้กันในแง่ของตัวแปรที่ได้รับซึ่งประกอบด้วย X% ของความแปรปรวนในชุดข้อมูล คำสั่งที่เทียบเท่าสามารถทำอะไรได้บ้างเกี่ยวกับกลุ่ม t-SNE บางทีสิ่งที่จะเป็นผลของ: t-SNE แสดงให้เห็นถึงความใกล้เคียงกันโดยประมาณในนานามิติมิติพื้นฐานดังนั้นกลุ่มที่มีมิติต่ำของพื้นที่มิติสูงจะเพิ่ม "โอกาส" ที่บุคคลที่อยู่ติดกันจะไม่อยู่ในกลุ่มเดียวกัน ทุกคนสามารถเสนอการแจ้งเตือนที่ดีกว่านั้นได้หรือไม่?

3
วิธีการสร้างพล็อตสวยของผลลัพธ์ของการวิเคราะห์กลุ่ม k-mean?
ฉันใช้ R เพื่อทำคลัสเตอร์ K-mean ฉันใช้ตัวแปร 14 ตัวในการรันค่า K เป็นวิธีที่ดีในการพล็อตผลลัพธ์ของ K-mean คืออะไร? มีการใช้งานที่มีอยู่หรือไม่ การมี 14 ตัวแปรทำให้การวางแผนผลลัพธ์ซับซ้อนหรือไม่? ฉันพบสิ่งที่เรียกว่า GGcluster ซึ่งดูดี แต่ก็ยังอยู่ในระหว่างการพัฒนา ฉันยังอ่านอะไรบางอย่างเกี่ยวกับการทำแผนที่แบบแซมมอน แต่ไม่เข้าใจดีนัก นี่จะเป็นตัวเลือกที่ดีหรือไม่?

6
ทำไมอัลกอริทึมการจัดกลุ่ม k หมายถึงใช้เฉพาะการวัดระยะทางแบบยุคลิดเท่านั้น
มีจุดประสงค์เฉพาะในแง่ของประสิทธิภาพหรือการทำงานทำไมอัลกอริธึม k - หมายถึงไม่ใช้เช่นโคไซน์ (dis) ความคล้ายคลึงกันเป็นตัวชี้วัดระยะทาง แต่สามารถใช้บรรทัดฐานแบบยุคลิดเท่านั้น? โดยทั่วไปวิธี K-mean จะปฏิบัติตามและถูกต้องเมื่อมีการพิจารณาหรือใช้ระยะทางอื่นนอกเหนือจาก Euclidean หรือไม่? [เพิ่มโดย @ttnphns คำถามคือสองเท่า "(ไม่ใช่) ระยะทางแบบยุคลิด" อาจเกี่ยวข้องกับระยะห่างระหว่างจุดข้อมูลสองจุดหรือระยะห่างระหว่างจุดข้อมูลและจุดศูนย์กลางคลัสเตอร์ ทั้งสองวิธีมีความพยายามในการตอบที่อยู่ในคำตอบจนถึง]

5
ความสัมพันธ์ระหว่าง k-หมายถึงการจัดกลุ่มและ PCA คืออะไร?
มันเป็นเรื่องธรรมดาที่จะใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) ก่อนอัลกอริทึมการจัดกลุ่ม (เช่น k-mean) เชื่อว่าช่วยปรับปรุงผลการจัดกลุ่มในทางปฏิบัติ (ลดเสียงรบกวน) อย่างไรก็ตามฉันสนใจที่จะศึกษาเชิงเปรียบเทียบและเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่าง PCA และ k-mean ตัวอย่างเช่น Chris Ding และ Xiaofeng He, 2004, K- หมายถึงการทำคลัสเตอร์ผ่านการวิเคราะห์องค์ประกอบหลักแสดงให้เห็นว่า "ส่วนประกอบหลักเป็นวิธีการแก้ปัญหาอย่างต่อเนื่องสำหรับตัวบ่งชี้การเป็นสมาชิกคลัสเตอร์แบบไม่ต่อเนื่องสำหรับการจัดกลุ่ม K-mean" แต่ผมมีช่วงเวลาที่ยากในการทำความเข้าใจกระดาษนี้และวิกิพีเดียจริงอ้างว่ามันเป็นความผิด นอกจากนี้ผลลัพธ์ของทั้งสองวิธียังค่อนข้างแตกต่างกันในแง่ที่ PCA ช่วยลดจำนวนของ "คุณสมบัติ" ในขณะที่รักษาความแปรปรวนขณะที่การจัดกลุ่มจะลดจำนวนของ "ข้อมูล - คะแนน" โดยสรุปหลายจุดตามความคาดหวัง / หมายถึง (ในกรณีของ k- หมายถึง) ดังนั้นหากชุดข้อมูลที่ประกอบด้วยในจุดที่มีให้บริการแต่ละ PCA มีจุดมุ่งหมายที่การบีบอัดคุณสมบัติในขณะที่การจัดกลุ่มมีจุดมุ่งหมายในการบีบอัดข้อมูลจุดNNNTTTTTTNNN ฉันกำลังมองหาคำอธิบายของคนธรรมดาของความสัมพันธ์ระหว่างสองเทคนิคนี้ + เอกสารทางเทคนิคเพิ่มเติมบางส่วนที่เกี่ยวข้องกับทั้งสองเทคนิค

10
จะตัดสินใจเลือกกลุ่มที่ถูกต้องได้อย่างไร
เราค้นหาศูนย์คลัสเตอร์และกำหนดคะแนนให้กับกลุ่มถังขยะ k ที่แตกต่างกันในการจัดกลุ่ม k- หมายถึงซึ่งเป็นอัลกอริธึมที่รู้จักกันดีและพบได้ในเกือบทุกชุดการเรียนรู้ของเครื่องบนเน็ต แต่ส่วนที่ขาดหายไปและสำคัญที่สุดในความคิดของฉันคือการเลือก k ที่ถูกต้อง ค่าที่ดีที่สุดสำหรับมันคืออะไร? และสิ่งที่ดีที่สุดคืออะไร? ผมใช้ MATLAB สำหรับการคำนวณทางวิทยาศาสตร์ที่กำลังมองหาที่แปลงเงาจะได้รับเป็นวิธีการที่จะตัดสินใจเกี่ยวกับเคกล่าวถึงที่นี่ อย่างไรก็ตามฉันจะสนใจวิธีการแบบเบย์มากกว่า ข้อเสนอแนะใด ๆ ที่ชื่นชม

3
การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร
ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้: k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM


5
จำเป็นหรือไม่ที่จะต้องทำการขยายข้อมูลก่อนทำการจัดกลุ่ม?
ฉันพบบทช่วยสอนนี้ซึ่งแนะนำว่าคุณควรเรียกใช้ฟังก์ชันมาตราส่วนบนฟีเจอร์ก่อนการจัดกลุ่ม (ฉันเชื่อว่ามันแปลงข้อมูลเป็นคะแนน z) ฉันสงสัยว่าจำเป็นหรือไม่ ฉันถามเป็นส่วนใหญ่เพราะมีจุดศอกที่ดีเมื่อฉันไม่ได้ปรับขนาดข้อมูล แต่มันจะหายไปเมื่อมันถูกลดขนาด :)

5
การทำคลัสเตอร์ชุดข้อมูลที่มีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง
ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า 2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ) คำถามของฉันคือ: เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง? ถ้าไม่: ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่? ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่

1
PCA จะช่วยในการวิเคราะห์การจัดกลุ่ม k-mean อย่างไร
ความเป็นมา : ฉันต้องการแบ่งเขตที่อยู่อาศัยของเมืองออกเป็นกลุ่มตามลักษณะทางเศรษฐกิจสังคมรวมถึงความหนาแน่นของที่อยู่อาศัยความหนาแน่นของประชากรพื้นที่สีเขียวราคาที่อยู่อาศัยจำนวนโรงเรียน / ศูนย์สุขภาพ / ศูนย์ดูแลเด็กเล็ก ฯลฯ ฉันต้องการที่จะเข้าใจว่ากลุ่มที่แตกต่างกันสามารถแบ่งออกเป็นพื้นที่ที่อยู่อาศัยและสิ่งที่เป็นเอกลักษณ์ของพวกเขา ข้อมูลนี้สามารถอำนวยความสะดวกในการวางแผนเมือง จากตัวอย่างบางส่วน (เปรียบเทียบบล็อกโพสต์นี้: PCA และ K-mean Clustering ของ Delta Aircraft ) ฉันคิดวิธีการวิเคราะห์: ก่อนทำการวิเคราะห์ PCA กำหนดจำนวนของกลุ่มที่ไม่ซ้ำกัน (กลุ่ม) ขึ้นอยู่กับผล PCA (เช่นใช้วิธี "ข้อศอก" หรืออีกทางหนึ่งจำนวนขององค์ประกอบที่อธิบายถึง 80 ถึง 90% ของความแปรปรวนทั้งหมด) หลังจากพิจารณาจำนวนของคลัสเตอร์ให้ใช้การจัดกลุ่ม k-mean เพื่อทำการจำแนก คำถามของฉัน:ดูเหมือนว่าจำนวนขององค์ประกอบ PCA เกี่ยวข้องกับการวิเคราะห์กลุ่ม นั่นคือความจริงถ้าเราพบ 5 ส่วนประกอบ PCA อธิบายมากกว่า 90% ของการเปลี่ยนแปลงของคุณสมบัติทั้งหมดจากนั้นเราจะใช้การจัดกลุ่ม k-mean และรับ 5 …

3
การจัดกลุ่มรายการสตริง (คำ) แบบยาวเป็นกลุ่มที่คล้ายคลึงกัน
ฉันมีปัญหาต่อไปนี้: ฉันมีรายการคำที่ยาวมากอาจเป็นชื่อนามสกุล ฯลฯ ฉันต้องจัดกลุ่มรายการคำศัพท์นี้เช่นคำที่คล้ายกันเช่นคำที่มีการแก้ไขที่คล้ายกัน (Levenshtein) ระยะทางปรากฏใน คลัสเตอร์เดียวกัน ตัวอย่างเช่น "อัลกอริทึม" และ "alogrithm" ควรมีโอกาสสูงที่จะปรากฏในคลัสเตอร์เดียวกัน ฉันตระหนักดีถึงวิธีการจัดกลุ่มแบบไม่ได้รับการสนับสนุนแบบคลาสสิกเช่นการจัดกลุ่ม k-mean, การจัดกลุ่ม EM ในวรรณคดีการจดจำรูปแบบ ปัญหานี่คือวิธีการเหล่านี้ทำงานในจุดที่อยู่ในพื้นที่เวกเตอร์ ฉันมีคำพูดในมืออยู่ที่นี่ ดูเหมือนว่าคำถามของวิธีการแสดงสตริงในพื้นที่เวกเตอร์ที่เป็นตัวเลขและการคำนวณ "หมายถึง" ของกลุ่มสตริงนั้นยังไม่ได้รับคำตอบที่เพียงพอตามความพยายามในการสำรวจของฉันจนถึงตอนนี้ วิธีการที่ไร้เดียงสาในการโจมตีปัญหานี้คือการรวมกลุ่ม k-Means กับระยะทาง Levenshtein แต่คำถามยังคงเป็น "วิธีการแสดง" หมายถึง "ของสตริงหรือไม่? มีน้ำหนักที่เรียกว่าน้ำหนัก TF-IDF แต่ดูเหมือนว่าส่วนใหญ่เกี่ยวข้องกับพื้นที่ของการจัดกลุ่ม "เอกสารข้อความ" ไม่ใช่สำหรับการจัดกลุ่มคำเดียว http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf การค้นหาของฉันในพื้นที่นี้ยังดำเนินต่อไป แต่ฉันต้องการได้แนวคิดจากที่นี่เช่นกัน คุณจะแนะนำอะไรในกรณีนี้มีใครรู้วิธีการใด ๆ สำหรับปัญหาประเภทนี้บ้าง

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.