ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN?


9

ฉันรู้ว่ามีการทำให้เป็นปกติมากกว่าสองประเภท

ตัวอย่างเช่น,

1- การแปลงข้อมูลโดยใช้คะแนน z หรือคะแนน t ซึ่งมักเรียกว่ามาตรฐาน

2- การลดขนาดข้อมูลให้มีค่าระหว่าง 0 ถึง 1

คำถามตอนนี้ถ้าฉันต้องการ normalizing

ข้อมูลประเภทใดที่ควรทำให้เป็นมาตรฐานด้วย KNN? และทำไม?

คำตอบ:


11

K-NN ผมขอแนะนำให้normalizingข้อมูลระหว่างและ101

k-NN ใช้ระยะทางแบบยุคลิดเป็นวิธีการเปรียบเทียบตัวอย่าง ในการคำนวณระยะห่างระหว่างสองจุดและ x 2 = ( 1 2 , F 2 2 , . . . , M 2 )ที่f i 1คือค่าของix1=(f11,f12,...,f1M)x2=(f21,f22,...,f2M)f1ii- คุณสมบัติของ :x1

d(x1,x2)=(f11f21)2+(f12f22)2+...+(f1Mf2M)2

เพื่อให้คุณลักษณะทั้งหมดมีความสำคัญเท่ากันเมื่อคำนวณระยะทางคุณลักษณะต้องมีช่วงของค่าเท่ากัน สิ่งนี้สามารถทำได้ผ่านการทำให้เป็นมาตรฐาน

หากพวกเขาไม่ปกติและสำหรับคุณลักษณะเช่นมีช่วงของค่าใน[ 0 , 1 ) ในขณะที่F 2มีช่วงของค่าใน[ 1 , 10 ) เมื่อคำนวณระยะทางเทอมที่สองจะมีความสำคัญมากกว่าครั้งแรกถึง10เท่านำ k-NN ไปไว้วางใจฟีเจอร์ที่สองมากกว่าครั้งแรก เพื่อให้แน่ใจว่าการฟื้นฟูทุกคุณสมบัติที่ถูกแมปไปที่เดียวกันช่วงของค่าf1[0,1f2[1,10)10

ในทางกลับกันการทำให้เป็นมาตรฐานมีคุณสมบัติที่มีประโยชน์มากมาย แต่ไม่สามารถรับประกันได้ว่าคุณสมบัตินั้นจะถูกแมปกับช่วงเดียวกัน แม้ว่ามาตรฐานอาจจะเหมาะสมที่สุดสำหรับตัวแยกประเภทอื่น ๆ แต่นี่ไม่ใช่กรณีของ k-NN หรือตัวจําแนกตามระยะทางอื่น ๆ


4
คำตอบของคุณจะเหมือนกันหรือไม่ถ้าฉันใช้ระยะทางที่แตกต่างกันแทนระยะทางแบบยุคลิด (ตัวอย่างเช่นระยะทางแมนฮัตตันหรือระยะทางอื่น ๆ แม้แต่ระยะทางแบบเศษส่วน)? นอกจากนี้หากช่วงของตัวแปรใกล้เคียงกัน
jeza

7
f1[0,1)f2[0,1.2)f220%f1. สิ่งหนึ่งที่ฉันลืมพูดถึงคือการสร้างมาตรฐานนั้นดีกว่าการไม่ปรับขนาดคุณลักษณะใด ๆ มันเลวร้ายยิ่งกว่าการทำให้เป็นปกติ
Djib2011

ฉันเห็นแล้ว "มันเลวร้ายยิ่งกว่าปกติ"!
jeza
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.