@ เพื่อนมีโพสต์ที่ดีเกี่ยวกับเรื่องนี้ แต่โดยทั่วไปแล้วหากคุณเปลี่ยนเป็นพื้นที่คุณลักษณะมิติสูงและฝึกอบรมจากที่นั่นอัลกอริทึมการเรียนรู้คือ 'บังคับ' ให้คำนึงถึงคุณลักษณะพื้นที่ที่สูงขึ้นแม้ว่าพวกเขาอาจไม่มีอะไรเลย จะทำอย่างไรกับข้อมูลต้นฉบับและไม่มีคุณภาพการทำนาย
ซึ่งหมายความว่าคุณจะไม่สามารถวางกฎการเรียนรู้อย่างถูกต้องเมื่อฝึกอบรม
ยกตัวอย่างง่ายๆ: สมมติว่าคุณต้องการทำนายน้ำหนักจากส่วนสูง คุณมีข้อมูลทั้งหมดนี้สอดคล้องกับน้ำหนักและส่วนสูงของผู้คน ให้เราบอกว่าโดยทั่วไปแล้วพวกเขาติดตามความสัมพันธ์เชิงเส้น นั่นคือคุณสามารถอธิบายน้ำหนัก (W) และส่วนสูง (H) เป็น:
W= m H- ข
ที่คือความชันของสมการเชิงเส้นของคุณและคือจุดตัดแกน y หรือในกรณีนี้จุดตัดแกน Wม.ข
ให้เราบอกว่าคุณเป็นนักชีววิทยาที่มีประสบการณ์และคุณรู้ว่าความสัมพันธ์นั้นเป็นเส้นตรง ข้อมูลของคุณดูเหมือนพล็อตกระจายที่มีแนวโน้มสูงขึ้น หากคุณเก็บข้อมูลไว้ในพื้นที่สองมิติคุณจะพอดีกับเส้นผ่านมัน อาจไม่ได้คะแนนทั้งหมดแต่ก็โอเค - คุณรู้ว่าความสัมพันธ์นั้นเป็นเส้นตรงและคุณต้องการการประมาณที่ดีอยู่ดี
ตอนนี้สมมติว่าคุณนำข้อมูล 2 มิตินี้และแปลงเป็นพื้นที่มิติที่สูงขึ้น ดังนั้นแทนที่จะเพียงคุณยังเพิ่ม 5 มิติมากขึ้น , , ,และ7}HH2H3H4H5H2+ H7--------√
ตอนนี้คุณไปและค้นหา co-efficients ของพหุนามเพื่อให้พอดีกับข้อมูลนี้ นั่นคือคุณต้องการค้นหา co-efficientsสำหรับพหุนามนี้ว่า 'เหมาะสมที่สุด' กับข้อมูล:คผม
W= c1H+ c2H2+ c3H3+ c4H4+c5H5+c6H2+ H7--------√
ถ้าคุณทำอย่างนั้นคุณจะได้รับสายอะไร คุณจะได้หนึ่งที่ดูเหมือนล็อตที่ถูกต้องของ @friend คุณมีข้อมูลมากเกินไปเนื่องจากคุณ 'บังคับ' อัลกอริทึมการเรียนรู้ของคุณให้คำนึงถึงพหุนามคำสั่งที่สูงขึ้นซึ่งไม่เกี่ยวข้องกับสิ่งใด การพูดทางชีวภาพน้ำหนักขึ้นอยู่กับความสูงเป็นเส้นตรง มันไม่ได้ขึ้นอยู่กับหรือไร้สาระการสั่งซื้อที่สูงขึ้นH2+ H7--------√
นี่คือสาเหตุที่ถ้าคุณแปลงข้อมูลเป็นมิติคำสั่งซื้อที่สูงขึ้นแบบสุ่มสี่สุ่มห้าคุณมีความเสี่ยงที่จะเกิดการโอเวอร์โหลดที่ไม่ดีนัก