สิ่งนี้อยู่ในใจฉันอย่างน้อยสองสามชั่วโมง ฉันพยายามหา k ที่เหมาะสมที่สุดสำหรับผลลัพธ์จากอัลกอริธึม k (หมายถึงความคล้ายคลึงกันโคไซน์ ) ดังนั้นฉันจึงวางแผนการบิดเบือนเป็นฟังก์ชันของจำนวนกลุ่ม ชุดข้อมูลของฉันคือชุดเอกสาร 800 ชุดในพื้นที่ 600 มิติ
จากสิ่งที่ฉันเข้าใจการหาจุดหัวเข่าหรือจุดศอกบนเส้นโค้งนี้ควรบอกฉันอย่างน้อยประมาณจำนวนของกลุ่มที่ฉันต้องใส่ข้อมูลของฉัน ฉันใส่กราฟด้านล่าง จุดที่ได้รับเส้นแนวตั้งสีแดงนั้นได้มาจากการทดสอบอนุพันธ์อันดับสองสูงสุด หลังจากทำทั้งหมดนี้ฉันติดอยู่กับสิ่งที่ง่ายกว่ามาก: กราฟนี้บอกอะไรฉันเกี่ยวกับชุดข้อมูล
มันบอกฉันไหมว่ามันไม่คุ้มกับการรวมกลุ่มและเอกสารของฉันขาดโครงสร้างหรือว่าฉันต้องตั้งค่า k ที่สูงมาก? สิ่งหนึ่งที่แปลกคือแม้ว่าจะมีค่า k ต่ำฉันก็เห็นเอกสารที่คล้ายกันรวมกันเป็นกลุ่มดังนั้นฉันจึงไม่แน่ใจว่าทำไมฉันถึงได้รับเส้นโค้งนี้ ความคิดใด ๆ
terms x document
ได้รับหลังจากใช้เวกเตอร์เอกพจน์ การจำแนก โปรดแก้ไขให้ฉันด้วยถ้าฉันเข้าใจผิด