วิธีปรับมาตรฐานข้อมูลสำหรับโครงข่ายประสาทและฟอเรสต์ตัดสินใจ
ฉันมีชุดข้อมูลที่มี 20,000 ตัวอย่างแต่ละตัวมีคุณสมบัติที่แตกต่างกัน 12 แบบ ตัวอย่างแต่ละตัวอย่างเป็นหมวดหมู่ 0 หรือ 1 ฉันต้องการฝึกโครงข่ายประสาทและกลุ่มฟอเรสต์ตัดสินใจจัดกลุ่มตัวอย่างเพื่อให้ฉันสามารถเปรียบเทียบผลลัพธ์และเทคนิคทั้งสองได้ สิ่งแรกที่ฉันสะดุดคือการฟื้นฟูข้อมูลที่เหมาะสม คุณลักษณะหนึ่งอยู่ในช่วงอีกคุณลักษณะหนึ่งในและมีคุณลักษณะหนึ่งที่ใช้ค่า 8 และบางครั้งส่วนใหญ่ 7 ดังนั้นเมื่อฉันอ่านในแหล่งที่แตกต่างกัน ข้อมูลเป็นสิ่งสำคัญสำหรับเครือข่ายประสาท ดังที่ฉันค้นพบมีวิธีที่เป็นไปได้มากมายในการทำให้ข้อมูลเป็นมาตรฐานเช่น:[0,106][0,106][0,10^6][30,40][30,40][30,40] การปรับสภาพให้ต่ำสุด - สูงสุด : ช่วงอินพุตจะถูกแปลงเชิงเส้นเป็นช่วง (หรืออีกทางหนึ่งมีความสำคัญหรือไม่?)[0,1][0,1][0,1][−1,1][−1,1][-1,1] การทำให้เป็นมาตรฐานของ Z : ข้อมูลถูกแปลงให้มีค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย: ynew=yold−meanVar−−−√ynew=yold−meanVary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} ฉันควรเลือกบรรทัดฐานใด การฟื้นฟูสภาพป่าเป็นสิ่งจำเป็นสำหรับการตัดสินใจด้วยหรือไม่? ด้วยการทำให้เป็นมาตรฐาน Z คะแนนคุณสมบัติที่แตกต่างของข้อมูลการทดสอบของฉันไม่ได้อยู่ในช่วงเดียวกัน นี่อาจเป็นปัญหาหรือไม่? คุณสมบัติทุกอย่างควรทำให้เป็นมาตรฐานด้วยอัลกอริทึมเดียวกันดังนั้นฉันจึงตัดสินใจใช้ Min-Max สำหรับคุณสมบัติทั้งหมดหรือ Z-Score สำหรับคุณสมบัติทั้งหมด มีการรวมกันที่ข้อมูลถูกแมปไปที่และยังมีค่าเฉลี่ยเป็นศูนย์ (ซึ่งจะบอกเป็นนัยถึงการแปลงแบบไม่เป็นเชิงเส้นของข้อมูลและด้วยเหตุนี้การเปลี่ยนแปลงในความแปรปรวนและคุณสมบัติอื่น ๆ ของข้อมูลอินพุต)[−1,1][−1,1][-1,1] ฉันรู้สึกว่าหายไปเล็กน้อยเพราะฉันไม่สามารถหาข้อมูลอ้างอิงที่ตอบคำถามเหล่านี้ได้