Dimensionality Curse มีผลต่อบางรุ่นมากกว่ารุ่นอื่น ๆ หรือไม่?


15

สถานที่ที่ฉันได้อ่านเกี่ยวกับคำสาปไดนามิคอธิบายร่วมกับ kNN เป็นหลักและโมเดลเชิงเส้นโดยทั่วไป ฉันเห็นอันดับติดอันดับใน Kaggle เป็นประจำโดยใช้คุณสมบัติมากมายบนชุดข้อมูลซึ่งแทบไม่มีจุดข้อมูล 100k พวกเขาใช้ต้นไม้ที่ได้รับการส่งเสริมและ NN เป็นหลัก คุณสมบัติหลายอย่างนั้นดูสูงเกินไปและฉันรู้สึกว่าพวกเขาจะได้รับผลกระทบจากคำสาปของมิติ แต่นั่นไม่ได้เป็นเช่นนั้นเพราะโมเดลเหล่านี้ทำให้พวกเขาเป็นผู้นำในการแข่งขัน ดังนั้นกลับไปที่คำถามเดิมของฉัน - บางรุ่นได้รับผลกระทบจากคำสาปแช่งมิติมากกว่าคนอื่น ๆ หรือไม่?

โดยเฉพาะฉันสนใจรุ่นต่อไปนี้ (เพราะเป็นรุ่นที่ฉันรู้ / ใช้):

  • การถดถอยเชิงเส้นและโลจิสติก
  • ต้นไม้ตัดสินใจ / ป่าสุ่ม / ต้นไม้เร่ง
  • โครงข่ายประสาทเทียม
  • SVM
  • kNN
  • k-หมายถึงการจัดกลุ่ม

คำตอบสั้น ๆ คือแน่นอน แต่คุณอาจต้องการแบบจำลองที่คุณสนใจจริง ๆ ฉันแน่ใจว่าชุมชน CV สามารถบอกคุณเกี่ยวกับโมเดลหลายพันแบบที่ได้รับผลกระทบจากคำสาปของมิติ ดังนั้นการ จำกัด การโฟกัสให้แคบลงสำหรับรุ่นบางประเภทอาจช่วยตอบคำถามนี้ได้

@RiskStatistician - ฉันได้เพิ่มโมเดลบางอย่างที่ฉันสนใจ
Dileep Kumar Patchigolla

ฉันสนใจคำถามนี้มาก แต่ก็ยังไม่ได้รับคำตอบ ฉันจะนำสิ่งนี้มาสู่การเปิดเผยเพื่อรับคำตอบได้อย่างไร
Dileep Kumar Patchigolla

คำตอบ:


17

โดยทั่วไปคำสาปของไดนามิคทำให้เกิดปัญหาในการค้นหาผ่านช่องว่างที่ยากขึ้นและเอฟเฟกต์ส่วนใหญ่ของอัลกอริทึมที่ "เรียนรู้" ผ่านการแบ่งพื้นที่เวกเตอร์ มิติที่สูงขึ้นของปัญหาการเพิ่มประสิทธิภาพของเรายิ่งเราจำเป็นต้องเติมข้อมูลในพื้นที่ที่เราปรับให้เหมาะสม

โมเดลเชิงเส้นทั่วไป

β^=(XX)1Xy

ต้นไม้แห่งการตัดสินใจต้นไม้แห่งการ
ตัดสินใจต้องทนทุกข์จากคำสาปของมิติ ต้นไม้การตัดสินใจแบ่งพื้นที่ตัวอย่างโดยตรงที่แต่ละโหนด เมื่อพื้นที่ตัวอย่างเพิ่มขึ้นระยะห่างระหว่างจุดข้อมูลจะเพิ่มขึ้นซึ่งทำให้การแยก "ดี" ยากขึ้น

ป่าสุ่มป่า
สุ่มใช้กลุ่มของต้นไม้ตัดสินใจเพื่อทำนายของพวกเขา แต่แทนที่จะใช้คุณลักษณะทั้งหมดของปัญหาต้นไม้แต่ละต้นจะใช้ชุดย่อยของคุณลักษณะเท่านั้น สิ่งนี้จะลดพื้นที่ที่ต้นไม้แต่ละต้นปรับให้เหมาะสมและสามารถช่วยต่อสู้กับปัญหาการสาปแช่งของมิติ


อัลกอริธึมการเร่งต้นไม้ของ Boostedเช่น AdaBoost ต้องทนทุกข์ทรมานจากการสาปแช่งของมิติและมีแนวโน้มที่จะ overffit หากไม่ได้ใช้การทำให้เป็นมาตรฐาน ฉันจะไม่ลงลึกไปกว่านี้เพราะโพสต์AdaBoost น้อยลงหรือมีแนวโน้มที่จะมีน้ำหนักเกิน? อธิบายเหตุผลที่ดีกว่าที่ฉันสามารถทำได้

โครงข่ายประสาทเทียม
โครงข่ายประสาทเทียมมีความแปลกในแง่ที่ว่าทั้งคู่เป็นและไม่ได้รับผลกระทบจากการสาปแช่งของความเป็นมิติขึ้นอยู่กับสถาปัตยกรรมการเปิดใช้งานความลึก ฯลฯ ดังนั้นเพื่อย้ำคำสาปของมิติเป็นปัญหาที่สำคัญจำนวนมาก ขนาดที่ครอบคลุมพื้นที่อินพุต วิธีหนึ่งในการแปลความหมายของโครงข่ายประสาทเทียมลึก ๆ คือการคิดว่าทุกชั้นคาดหวังว่าชั้นสุดท้ายจะทำการฉายภาพที่ซับซ้อนของท่อที่มีมิติสูงเป็นท่อที่มีมิติต่ำกว่าซึ่งชั้นสุดท้ายจะจัดอยู่ด้านบน ตัวอย่างเช่นในเครือข่าย convolutional สำหรับการจำแนกที่ชั้นสุดท้ายเป็นชั้น softmax เราสามารถตีความสถาปัตยกรรมเป็นการฉายภาพแบบไม่เป็นเชิงเส้นบนมิติที่เล็กลงแล้วทำการถดถอยโลจิสติก multinomial (เลเยอร์ softmax) บนภาพนั้น ดังนั้นการแทนข้อมูลที่ถูกบีบอัดทำให้เราสามารถหลีกเลี่ยงคำสาปของมิติ อีกครั้งนี่คือการตีความหนึ่งในความเป็นจริงการสาปแช่งของมิติข้อมูลในความเป็นจริงส่งผลกระทบต่อเครือข่ายประสาท แต่ไม่อยู่ในระดับเดียวกับแบบจำลองที่ระบุไว้ข้างต้น

SVM
SVM มีแนวโน้มที่จะไม่ให้ประโยชน์มากเกินไปเท่ากับโมเดลเชิงเส้นทั่วไปเนื่องจากมีการทำให้เป็นปกติมากเกินไปที่เกิดขึ้น ลองดูโพสต์นี้SVM, overfitting, คำสาปของมิติข้อมูลเพื่อดูรายละเอียดเพิ่มเติม

K-NN, K-หมายถึง

ทั้ง K-Mean และ K-NN นั้นได้รับผลกระทบอย่างมากจากการสาปแช่งของมิติเนื่องจากทั้งคู่ใช้การวัดระยะทาง L2 กำลังสอง เมื่อขนาดเพิ่มขนาดระยะทางระหว่างจุดข้อมูลต่าง ๆ ก็เพิ่มขึ้นเช่นกัน นี่คือเหตุผลที่คุณต้องการจำนวนคะแนนที่มากขึ้นเพื่อให้ครอบคลุมพื้นที่มากขึ้นโดยหวังว่าระยะทางจะอธิบายได้มากขึ้น

อย่าลังเลที่จะถามรายละเอียดเกี่ยวกับแบบจำลองเนื่องจากคำตอบของฉันค่อนข้างทั่วไป หวังว่านี่จะช่วยได้


สวัสดีอาเมนคำอธิบายรวบยอดที่ยอดเยี่ยมสำหรับทุกรุ่นที่ฉันถาม ปัญหาเกี่ยวกับตัวแบบเชิงเส้นยังไม่ชัดเจนสำหรับฉัน: ตัวแบบเชิงเส้นทำงานได้ดีขึ้นหรือแย่ลงกว่าตัวแบบ k-NN และตัวแบบ k-Means ที่ไม่มีขนาดเดียวกันหรือไม่? และเมื่อคุณพูดว่า collinearity เป็นปัญหาสำหรับตัวแบบเชิงเส้นคุณหมายความว่าไม่มี collinearity (หรือน้อยที่สุด) มิติที่สูงไม่ใช่ปัญหาของตัวแบบเชิงเส้นหรือไม่?
Dileep Kumar Patchigolla

เป็นการยากที่จะหาจำนวนหากโมเดลเชิงเส้นจะทำงานได้ดีกว่า k-nn หรือ k-mean สำหรับปัญหาที่กำหนดเอง หากปัญหาของคุณแยกออกจากกันเป็นเส้นตรงฉันจะวางเดิมพันของฉันในโมเดลเชิงเส้นในขณะที่ถ้าพื้นที่ของคุณซับซ้อนกว่านี้เล็กน้อยฉันจะไปกับ k-nn ความ Collinearity ยิ่งทำให้ปัญหาการสาปแช่งของความเป็นมิติมีมากขึ้นแม้ว่าจะไม่มีความเป็นเส้นตรง แต่คำสาปของมิติยังคงมีผล K- หมายถึงควรได้รับในระดับเดียวกับ k-nn ขณะที่ทั้งคู่เป็นเพื่อนบ้านขับเคลื่อนและโดยทั่วไปใช้ฟังก์ชั่นระยะทางเดียวกัน ในความเป็นจริงมันเป็นเรื่องยากที่จะหาปริมาณ COD ที่ไม่ดี หวังว่านี่จะช่วยได้!
Armen Aghajanyan

คำจำกัดความของคุณเกี่ยวกับคำสาปของขนาด (CoD) คืออะไร? คำตอบของคุณดูเหมือนจะแนะนำว่าตัวแบบเชิงเส้นได้รับประโยชน์มากที่สุดจาก CoD นี่เป็นสิ่งที่ทำให้เข้าใจผิด: เนื่องจากวิธีการแบบโลกส่วนตัวแบบเชิงเส้นต้องได้รับผลกระทบน้อยกว่าวิธีการแปลเช่น KNN
Matifou
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.