ฉันมีปัญหาในการเข้าใจคำสาปของมิติ โดยเฉพาะฉันเจอมันในขณะที่ทำการscikit-learn
สอนในหลาม ใครช่วยอธิบายด้านล่างด้วยวิธีที่ง่ายกว่านี้ได้ไหม ขออภัยฉันพยายามที่จะเข้าใจเป็นเวลานานและไม่สามารถเข้าใจได้ว่าพวกเขามาพร้อมกับการคำนวณจำนวนตัวอย่างการฝึกอบรมเพื่อให้ได้ตัวประมาณ KNN อย่างมีประสิทธิภาพ
นี่คือคำอธิบาย:
เพื่อให้ตัวประมาณมีผลคุณต้องมีระยะห่างระหว่างจุดที่อยู่ใกล้เคียงกับค่าน้อยกว่าค่า d ซึ่งขึ้นอยู่กับปัญหา ในมิติเดียวสิ่งนี้ต้องใช้กับคะแนนเฉลี่ย n ~ 1 / d ในบริบทของตัวอย่าง KNN ด้านบนหากข้อมูลถูกอธิบายโดยคุณลักษณะเพียงหนึ่งเดียวที่มีค่าอยู่ระหว่าง 0 ถึง 1 และด้วยการสังเกตการณ์การฝึกอบรม n ข้อมูลใหม่จะไม่อยู่ไกลกว่า 1 / n ดังนั้นกฎการตัดสินใจของเพื่อนบ้านที่ใกล้ที่สุดจะมีประสิทธิภาพทันทีที่ 1 / n มีขนาดเล็กเมื่อเทียบกับขนาดของความแตกต่างระหว่างคุณลักษณะระดับคลาส
หากจำนวนฟีเจอร์คือ p ตอนนี้คุณต้องมีคะแนน n ~ 1 / d ^ p สมมติว่าเราต้องการ 10 คะแนนในหนึ่งมิติ: ตอนนี้ต้องใช้ 10 ^ p คะแนนในขนาด p เพื่อปูพื้นที่ [0, 1] เมื่อ p มีขนาดใหญ่จำนวนคะแนนการฝึกอบรมที่จำเป็นสำหรับตัวประมาณที่ดีจะเพิ่มขึ้นอย่างมาก
แก้ไข: tilde ( ~
) ควรเป็นตัวแทนของตัวอย่างโดยประมาณในสิ่งนั้นด้วยหรือไม่ หรือตัวดำเนินการ pild tilde?