โดยทั่วไปคำสาปของไดนามิคทำให้เกิดปัญหาในการค้นหาผ่านช่องว่างที่ยากขึ้นและเอฟเฟกต์ส่วนใหญ่ของอัลกอริทึมที่ "เรียนรู้" ผ่านการแบ่งพื้นที่เวกเตอร์ มิติที่สูงขึ้นของปัญหาการเพิ่มประสิทธิภาพของเรายิ่งเราจำเป็นต้องเติมข้อมูลในพื้นที่ที่เราปรับให้เหมาะสม
โมเดลเชิงเส้นทั่วไป
β^=(X′X)−1X′y
ต้นไม้แห่งการตัดสินใจต้นไม้แห่งการ
ตัดสินใจต้องทนทุกข์จากคำสาปของมิติ ต้นไม้การตัดสินใจแบ่งพื้นที่ตัวอย่างโดยตรงที่แต่ละโหนด เมื่อพื้นที่ตัวอย่างเพิ่มขึ้นระยะห่างระหว่างจุดข้อมูลจะเพิ่มขึ้นซึ่งทำให้การแยก "ดี" ยากขึ้น
ป่าสุ่มป่า
สุ่มใช้กลุ่มของต้นไม้ตัดสินใจเพื่อทำนายของพวกเขา แต่แทนที่จะใช้คุณลักษณะทั้งหมดของปัญหาต้นไม้แต่ละต้นจะใช้ชุดย่อยของคุณลักษณะเท่านั้น สิ่งนี้จะลดพื้นที่ที่ต้นไม้แต่ละต้นปรับให้เหมาะสมและสามารถช่วยต่อสู้กับปัญหาการสาปแช่งของมิติ
อัลกอริธึมการเร่งต้นไม้ของ Boostedเช่น AdaBoost ต้องทนทุกข์ทรมานจากการสาปแช่งของมิติและมีแนวโน้มที่จะ overffit หากไม่ได้ใช้การทำให้เป็นมาตรฐาน ฉันจะไม่ลงลึกไปกว่านี้เพราะโพสต์AdaBoost น้อยลงหรือมีแนวโน้มที่จะมีน้ำหนักเกิน?
อธิบายเหตุผลที่ดีกว่าที่ฉันสามารถทำได้
โครงข่ายประสาทเทียม
โครงข่ายประสาทเทียมมีความแปลกในแง่ที่ว่าทั้งคู่เป็นและไม่ได้รับผลกระทบจากการสาปแช่งของความเป็นมิติขึ้นอยู่กับสถาปัตยกรรมการเปิดใช้งานความลึก ฯลฯ ดังนั้นเพื่อย้ำคำสาปของมิติเป็นปัญหาที่สำคัญจำนวนมาก ขนาดที่ครอบคลุมพื้นที่อินพุต วิธีหนึ่งในการแปลความหมายของโครงข่ายประสาทเทียมลึก ๆ คือการคิดว่าทุกชั้นคาดหวังว่าชั้นสุดท้ายจะทำการฉายภาพที่ซับซ้อนของท่อที่มีมิติสูงเป็นท่อที่มีมิติต่ำกว่าซึ่งชั้นสุดท้ายจะจัดอยู่ด้านบน ตัวอย่างเช่นในเครือข่าย convolutional สำหรับการจำแนกที่ชั้นสุดท้ายเป็นชั้น softmax เราสามารถตีความสถาปัตยกรรมเป็นการฉายภาพแบบไม่เป็นเชิงเส้นบนมิติที่เล็กลงแล้วทำการถดถอยโลจิสติก multinomial (เลเยอร์ softmax) บนภาพนั้น ดังนั้นการแทนข้อมูลที่ถูกบีบอัดทำให้เราสามารถหลีกเลี่ยงคำสาปของมิติ อีกครั้งนี่คือการตีความหนึ่งในความเป็นจริงการสาปแช่งของมิติข้อมูลในความเป็นจริงส่งผลกระทบต่อเครือข่ายประสาท แต่ไม่อยู่ในระดับเดียวกับแบบจำลองที่ระบุไว้ข้างต้น
SVM
SVM มีแนวโน้มที่จะไม่ให้ประโยชน์มากเกินไปเท่ากับโมเดลเชิงเส้นทั่วไปเนื่องจากมีการทำให้เป็นปกติมากเกินไปที่เกิดขึ้น ลองดูโพสต์นี้SVM, overfitting, คำสาปของมิติข้อมูลเพื่อดูรายละเอียดเพิ่มเติม
K-NN, K-หมายถึง
ทั้ง K-Mean และ K-NN นั้นได้รับผลกระทบอย่างมากจากการสาปแช่งของมิติเนื่องจากทั้งคู่ใช้การวัดระยะทาง L2 กำลังสอง เมื่อขนาดเพิ่มขนาดระยะทางระหว่างจุดข้อมูลต่าง ๆ ก็เพิ่มขึ้นเช่นกัน นี่คือเหตุผลที่คุณต้องการจำนวนคะแนนที่มากขึ้นเพื่อให้ครอบคลุมพื้นที่มากขึ้นโดยหวังว่าระยะทางจะอธิบายได้มากขึ้น
อย่าลังเลที่จะถามรายละเอียดเกี่ยวกับแบบจำลองเนื่องจากคำตอบของฉันค่อนข้างทั่วไป หวังว่านี่จะช่วยได้