K-NN ผมขอแนะนำให้normalizingข้อมูลระหว่างและ101
k-NN ใช้ระยะทางแบบยุคลิดเป็นวิธีการเปรียบเทียบตัวอย่าง ในการคำนวณระยะห่างระหว่างสองจุดและ x 2 = ( ฉ1 2 , F 2 2 , . . . , ฉM 2 )ที่f i 1คือค่าของix1=(f11,f21,...,fM1)x2=(f12,f22,...,fM2)fi1i- คุณสมบัติของ :x1
d(x1,x2)=(f11−f12)2+(f21−f22)2+...+(fM1−fM2)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
เพื่อให้คุณลักษณะทั้งหมดมีความสำคัญเท่ากันเมื่อคำนวณระยะทางคุณลักษณะต้องมีช่วงของค่าเท่ากัน สิ่งนี้สามารถทำได้ผ่านการทำให้เป็นมาตรฐาน
หากพวกเขาไม่ปกติและสำหรับคุณลักษณะเช่นมีช่วงของค่าใน[ 0 , 1 ) ในขณะที่F 2มีช่วงของค่าใน[ 1 , 10 ) เมื่อคำนวณระยะทางเทอมที่สองจะมีความสำคัญมากกว่าครั้งแรกถึง10เท่านำ k-NN ไปไว้วางใจฟีเจอร์ที่สองมากกว่าครั้งแรก เพื่อให้แน่ใจว่าการฟื้นฟูทุกคุณสมบัติที่ถูกแมปไปที่เดียวกันช่วงของค่าf1[0,1f2[1,10)10
ในทางกลับกันการทำให้เป็นมาตรฐานมีคุณสมบัติที่มีประโยชน์มากมาย แต่ไม่สามารถรับประกันได้ว่าคุณสมบัตินั้นจะถูกแมปกับช่วงเดียวกัน แม้ว่ามาตรฐานอาจจะเหมาะสมที่สุดสำหรับตัวแยกประเภทอื่น ๆ แต่นี่ไม่ใช่กรณีของ k-NN หรือตัวจําแนกตามระยะทางอื่น ๆ