คำถามติดแท็ก cosine-distance

2
ความคล้ายคลึงกันของโคไซน์นั้นเหมือนกับระยะทางแบบยุคลิดแบบยุค l2 หรือไม่?
เหมือนความหมายว่ามันจะให้ผลลัพธ์ที่เหมือนกันสำหรับการจัดอันดับระหว่างเวกเตอร์คล้ายคลึงกันยูและชุดของเวกเตอร์V ฉันมีแบบจำลองเวกเตอร์สเปซซึ่งมีการวัดระยะทาง (ระยะทางแบบยุคลิด, ความเหมือนโคไซน์) และเทคนิคการทำให้เป็นมาตรฐาน (ไม่มี, l1, l2) เป็นพารามิเตอร์ จากความเข้าใจของฉันผลลัพธ์จากการตั้งค่า [โคไซน์ไม่มี] ควรจะเหมือนกันหรืออย่างน้อยก็คล้ายกับ [euclidean, l2] จริง ๆ แต่ก็ไม่เหมือนกัน มีโอกาสที่ดีจริง ๆ ที่ระบบยังมีข้อผิดพลาด - หรือฉันมีบางสิ่งบางอย่างผิดปกติเกี่ยวกับเวกเตอร์? แก้ไข: ฉันลืมที่จะพูดถึงว่าเวกเตอร์จะขึ้นอยู่กับจำนวนคำจากเอกสารในคลังข้อมูล รับเอกสารแบบสอบถาม (ซึ่งฉันยังแปลงในเวกเตอร์นับจำนวนคำ) ฉันต้องการค้นหาเอกสารจากคลังข้อมูลของฉันซึ่งคล้ายกับมันมากที่สุด การคำนวณระยะทางแบบยุคลิดของพวกเขานั้นเป็นเพียงการวัดแบบตรงไปข้างหน้า แต่ในงานประเภทที่ฉันทำงานความคล้ายคลึงของโคไซน์มักเป็นที่ต้องการในฐานะตัวบ่งชี้ความคล้ายคลึงกันเพราะเวกเตอร์ที่มีความยาวต่างกันเท่านั้น เอกสารที่มีความคล้ายคลึงกันของระยะทาง / โคไซน์น้อยที่สุดถือว่าคล้ายกันมากที่สุด

1
การแยกคำหลักอัตโนมัติ: ใช้ความคล้ายคลึงโคไซน์เป็นคุณสมบัติ
ฉันมีเมทริกซ์เอกสารและตอนนี้ฉันต้องการแยกคำหลักสำหรับแต่ละเอกสารด้วยวิธีการเรียนรู้ภายใต้การดูแล (SVM, Naive Bayes, ... ) ในรุ่นนี้ฉันใช้แท็ก Tf-idf, Pos tag, ...MMM แต่ตอนนี้ฉันสงสัยเกี่ยวกับเน็กซ์ ฉันมีเมทริกซ์มีความเหมือนโคไซน์ระหว่างคำCCC มีความเป็นไปได้ไหมที่จะใช้ความคล้ายคลึงกันนี้เป็นคุณสมบัติสำหรับโมเดลของฉัน? ผมคิดว่าสำหรับระยะในเอกสาร , การใช้ค่าเฉลี่ยของความคล้ายคลึงกันโคไซน์ของข้อความทั้งหมดในเอกสารที่มีระยะเวลาฉันสิ่งนี้มีประโยชน์หรือไม่?iiiddddddiii

3
K- หมายถึงความคล้ายคลึงโคไซน์กับระยะทางแบบยุคลิด (LSA)
ฉันใช้การวิเคราะห์ความหมายแฝงเพื่อแสดงคลังข้อมูลของเอกสารในพื้นที่มิติต่ำกว่า ฉันต้องการจัดกลุ่มเอกสารเหล่านี้เป็นสองกลุ่มโดยใช้วิธี k หลายปีที่ผ่านมาฉันทำสิ่งนี้โดยใช้ gensim ของ Python และเขียนอัลกอริทึม k-mean ของฉันเอง ฉันกำหนดเซนทรอยด์ของคลัสเตอร์โดยใช้ระยะทางแบบยุคลิด แต่ก็ทำการจัดกลุ่มเอกสารตามความคล้ายคลึงกันของโคไซน์กับเซนทรอยด์ ดูเหมือนว่าจะทำงานได้ค่อนข้างดี ตอนนี้ฉันกำลังพยายามทำสิ่งนี้กับคลังเอกสารขนาดใหญ่กว่ามาก K-หมายถึงไม่ได้มาบรรจบกันและฉันสงสัยว่ามันเป็นข้อบกพร่องในรหัสของฉัน ฉันอ่านเมื่อเร็ว ๆ นี้ว่าคุณไม่ควรจัดกลุ่มโดยใช้ความเหมือนโคไซน์เพราะ k-mean ใช้งานได้กับระยะทางแบบยุคลิดเท่านั้น แม้ว่าตามที่ฉันได้กล่าวมาดูเหมือนว่าจะทำงานได้ดีในกรณีทดสอบขนาดเล็กของฉัน ตอนนี้ฉันเจอสิ่งนี้ในหน้าLSA Wikipedia : เอกสารและคำแทนเวกเตอร์สามารถจัดกลุ่มได้โดยใช้อัลกอริทึมการจัดกลุ่มแบบดั้งเดิมเช่น k- หมายถึงโดยใช้มาตรการความคล้ายคลึงกันเช่นโคไซน์ แล้วมันคืออะไร? ฉันสามารถใช้โคไซน์คล้ายคลึงกันได้หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.