เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด


16

ฉันพยายามทำการจัดกลุ่มระดับเอกสาร ฉันสร้างเมทริกซ์ความถี่เอกสารระยะและฉันพยายามจัดกลุ่มเวกเตอร์มิติสูงเหล่านี้โดยใช้ค่าเฉลี่ย k แทนที่จะทำการจัดกลุ่มโดยตรงสิ่งที่ฉันทำคือการใช้การสลายตัวเวกเตอร์เอกพจน์ (การวิเคราะห์ความหมายแฝง) ของ LSA ก่อนเพื่อให้ได้เมทริกซ์ U, S, Vt เลือกเกณฑ์ที่เหมาะสมโดยใช้พล็อตหินกรวดและใช้การจัดกลุ่มบนเมทริกซ์ที่ลดลง มันทำให้ฉันมีข้อมูลเอกสารแนวคิด) ซึ่งดูเหมือนจะให้ผลลัพธ์ที่ดีแก่ฉัน

ฉันเคยได้ยินบางคนพูดว่า SVD (เอกพจน์การสลายตัวของเวกเตอร์) เป็นการจัดกลุ่ม (โดยใช้การวัดความคล้ายคลึงกันของโคไซน์ ฯลฯ ) และไม่แน่ใจว่าฉันสามารถใช้ k-mean กับผลลัพธ์ของ SVD ได้หรือไม่ ฉันคิดว่ามันถูกต้องตามหลักเหตุผลเพราะ SVD เป็นเทคนิคการลดขนาดให้ฉันเป็นเวกเตอร์ใหม่ ในทางกลับกันค่า k จะใช้จำนวนกลุ่มเป็นอินพุตและแบ่งเวกเตอร์เหล่านี้เป็นจำนวนกลุ่มที่ระบุ ขั้นตอนนี้มีข้อบกพร่องหรือมีวิธีที่สามารถปรับปรุงได้หรือไม่ ข้อเสนอแนะใด ๆ


คำถามที่ดี. โดยส่วนตัวฉันคิดถึงสิ่งเหล่านี้ แต่ไม่มีคำตอบที่ดี
suncoolsu

1
มีวิธีการที่จะทำการลดขนาดและการจัดกลุ่มพร้อมกัน วิธีการเหล่านี้แสวงหาตัวแทนมิติต่ำที่ได้รับการแต่งตั้งอย่างเหมาะสมเพื่ออำนวยความสะดวกในการจำแนกกลุ่ม ตัวอย่างเช่นดูแพ็คเกจ clustrd ใน R และการอ้างอิงที่เกี่ยวข้อง
Nat

คำตอบ:


6

นี่ไม่ใช่คำตอบที่สมบูรณ์คำถามที่คุณควรถามคือ "ระยะทางแบบไหนที่จะรักษาไว้เมื่อทำการลดขนาด" เนื่องจากอัลกอริธึมการจัดกลุ่มเช่น K-หมายถึงทำงานเฉพาะในระยะทางเท่านั้นการวัดระยะทางที่ถูกต้องที่จะใช้ (ในทางทฤษฎี) คือการวัดระยะทางซึ่งถูกเก็บรักษาไว้โดยการลดขนาด วิธีนี้ขั้นตอนการลดขนาดจะถูกมองว่าเป็นทางลัดการคำนวณเพื่อจัดกลุ่มข้อมูลในพื้นที่มิติที่ต่ำกว่า (ยังเพื่อหลีกเลี่ยงการท้องถิ่นน้อย ฯลฯ )

มีรายละเอียดปลีกย่อยมากมายที่ฉันจะไม่เสแสร้งทำความเข้าใจ (ระยะทางท้องถิ่นกับระยะทางทั่วโลกว่าระยะทางสัมพัทธ์บิดเบี้ยวอย่างไร ฯลฯ ) แต่ฉันคิดว่านี่เป็นทิศทางที่ถูกต้องที่จะคิดเกี่ยวกับสิ่งเหล่านี้ตามหลักวิชา


+1 เป็นคำถามที่น่าสนใจมาก ในกรณีนั้นยุคลิดสามารถพิจารณาหนึ่งเมตริกดังกล่าวได้หรือไม่? เมื่อมิติลดลงคะแนนจะถูกฉายลงในพื้นที่มิติที่ต่ำกว่า แต่นั่นอาจหมายถึงความคิดเกี่ยวกับระยะทางอาจหายไป ฉันมีเวลายากที่จะดูว่าระยะทางสามารถรักษาเมื่อใช้ลดเช่นนี้
ตำนาน

1
ฉันคิดว่าคำตอบนี้ถูกต้องแล้ว คุณต้องการหาบางส่วนฝังในพื้นที่ขนาดเล็กที่รักษาระยะทาง (สำหรับความคิดระยะทาง) สองขั้นตอนวิธีการที่ดีในการตรวจสอบเป็นIsomapและในพื้นที่เชิงเส้นฝัง "การอนุรักษ์พื้นที่ใกล้เคียง" ดูเหมือนเป็นวิธีที่ดีถ้าเป้าหมายของคุณคือการรวมกลุ่ม
Stumpy Joe Pete

5

ในการตอบกลับชื่อของคุณ "เราจะรวมการลดขนาดเข้ากับการรวมกลุ่มเมื่อใด" มากกว่าคำถามเต็ม เหตุผลหนึ่งที่เป็นไปได้ชัดเจนเมื่อเราต้องการรักษาความปลอดภัยผู้ผิดกฎหมาย K- หมายถึงอัลโกถ้าไม่มีการเริ่มต้นศูนย์แบะท่าเอาจุดที่ห่างกันมากที่สุดในคลาวด์เป็นศูนย์เริ่มต้นและขวาเหล่านี้น่าจะเป็นค่าผิดปกติ การดำเนินการล่วงหน้าโดย PCA ทำให้ค่ากลางผิดปกติซึ่งอยู่ตามส่วนประกอบจูเนียร์โดยการฉายลงบนส่วนประกอบระดับสูงเพียงไม่กี่ตัวที่ยังคงอยู่ใน PCA

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.