จำเป็นหรือไม่ที่จะต้องทำการฟื้นฟูสำหรับ SVM และ Random Forest?


29

คุณลักษณะของฉัน 'ทุกมิติมีช่วงของค่าที่แตกต่างกัน ฉันต้องการทราบว่าจำเป็นหรือไม่ที่จะทำให้ชุดข้อมูลนี้เป็นมาตรฐาน

คำตอบ:


29

คำตอบสำหรับคำถามของคุณขึ้นอยู่กับฟังก์ชันความเหมือน / ระยะทางที่คุณวางแผนที่จะใช้ (ใน SVM) หากระยะทางแบบยุคลิดง่าย (ไม่ถ่วงน้ำหนัก) แล้วถ้าคุณไม่ทำให้ข้อมูลของคุณเป็นปกติคุณจะให้ความสำคัญกับคุณลักษณะบางอย่างมากกว่าคนอื่น

ตัวอย่างเช่นหากมิติแรกของคุณอยู่ระหว่าง 0-10 และมิติที่สองจาก 0-1 ความแตกต่างของ 1 ในมิติแรก (เพียงหนึ่งในสิบของช่วง) มีส่วนช่วยในการคำนวณระยะทางมากที่สุดเท่าที่ค่าที่แตกต่างกันสองค่าใน ส่วนข้อมูลที่สอง (0 และ 1) ดังนั้นเมื่อทำเช่นนี้คุณจะได้รับความแตกต่างเล็กน้อยในมิติแรก แน่นอนว่าคุณสามารถใช้ฟังก์ชันระยะทางที่กำหนดเองหรือกำหนดขนาดของคุณตามการประเมินของผู้เชี่ยวชาญ แต่สิ่งนี้จะนำไปสู่พารามิเตอร์ที่ปรับค่าได้จำนวนมากขึ้นอยู่กับมิติข้อมูลของคุณ ในกรณีนี้การปรับสภาพให้เป็นเส้นทางที่ง่ายกว่า (แม้ว่าจะไม่เหมาะอย่างยิ่ง) เพราะคุณสามารถเริ่มต้นได้

ในที่สุดสำหรับ SVM สิ่งอื่นที่คุณสามารถทำได้คือฟังก์ชั่นความคล้ายคลึงมากกว่าฟังก์ชั่นระยะทางและเสียบมันเป็นเคอร์เนล (ในทางเทคนิคฟังก์ชั่นนี้ต้องสร้างเมทริกซ์บวกแน่นอน) ฟังก์ชั่นนี้สามารถสร้างได้ตามที่คุณต้องการและสามารถคำนึงถึงความแตกต่างในช่วงของคุณสมบัติ

สำหรับฟอเรสต์แบบสุ่มในทางตรงกันข้ามเนื่องจากคุณลักษณะหนึ่งไม่เคยถูกเปรียบเทียบกับขนาดอื่น ๆ ดังนั้นช่วงจึงไม่สำคัญ เป็นเพียงช่วงของฟีเจอร์เดียวที่แยกในแต่ละด่าน


12

Random Forest ไม่แปรผันต่อการแปลงแบบโมโนโทนิของคุณสมบัติส่วนบุคคล การแปลหรือการขยายตามคุณลักษณะจะไม่เปลี่ยนแปลงอะไรสำหรับป่าสุ่ม SVM อาจจะทำได้ดีกว่าหากคุณลักษณะของคุณมีขนาดเท่ากันเว้นแต่ว่าคุณรู้ apriori ว่าคุณลักษณะบางอย่างมีความสำคัญมากกว่าคุณสมบัติอื่น ๆ ซึ่งในกรณีนี้มันก็โอเคที่จะมีขนาดที่ใหญ่กว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.