เหตุใดคุณจึงต้องขยายข้อมูลใน KNN


15

มีคนช่วยอธิบายให้ฉันหน่อยได้ไหมว่าทำไมคุณต้องทำให้ข้อมูลเป็นมาตรฐานเมื่อใช้ K เพื่อนบ้านที่ใกล้ที่สุด

ฉันพยายามค้นหามัน แต่ฉันก็ยังดูเหมือนจะไม่เข้าใจ

ฉันพบลิงค์ต่อไปนี้:

https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715

แต่ในคำอธิบายนี้ฉันไม่เข้าใจว่าทำไมช่วงที่ใหญ่กว่าในหนึ่งในคุณสมบัติที่มีผลต่อการทำนาย


ฉันคิดว่าการทำให้เป็นมาตรฐานต้องได้รับการพิสูจน์จากมุมมองของสาระการเรียนรู้ สิ่งสำคัญคือสิ่งที่กำหนดระยะห่างระหว่างจุด คุณต้องค้นหาคำจำกัดความทางคณิตศาสตร์ของระยะทางที่สะดวกซึ่งสะท้อนถึงคำนิยามเรื่องระยะทาง จากประสบการณ์ที่ จำกัด ของฉันฉันมีมาตรฐานในบางทิศทาง แต่ไม่ใช่ทุกทิศทางตามการพิจารณาเรื่อง
Richard Hardy

1
สำหรับตัวอย่างที่ให้คำแนะนำโปรดดูstats.stackexchange.com/questions/140711
whuber

คำตอบ:


27

อัลกอริทึมเพื่อนบ้านที่ใกล้ที่สุด k- อาศัยการโหวตส่วนใหญ่ขึ้นอยู่กับสมาชิกชั้นเรียนของตัวอย่าง 'k' ที่ใกล้ที่สุดสำหรับจุดทดสอบที่กำหนด ความใกล้ชิดของตัวอย่างมักจะขึ้นอยู่กับระยะทางแบบยุคลิด

พิจารณาปัญหาการจำแนกชั้นสองแบบง่าย ๆ โดยเลือกตัวอย่างคลาส 1 (สีดำ) พร้อมกับเพื่อนบ้านที่อยู่ใกล้ที่สุด 10 อันดับ (สีเขียวที่เต็มไปด้วย) ในรูปแรกข้อมูลจะไม่ถูกทำให้เป็นมาตรฐานในขณะที่ในส่วนที่สองเป็น

ข้อมูลที่ไม่มีการทำให้เป็นมาตรฐาน ข้อมูลที่มีการทำให้เป็นมาตรฐาน

สังเกตว่าเพื่อนบ้านที่ใกล้ที่สุดทั้งหมดจะถูกจัดตำแหน่งในทิศทางของแกนด้วยช่วงที่เล็กลงเช่นนำไปสู่การจำแนกที่ไม่ถูกต้องx1

การทำให้เป็นมาตรฐานแก้ปัญหานี้ได้!


1
คำตอบนี้ถูกต้อง แต่ฉันเกรงว่าภาพประกอบอาจหลอกลวงเพราะมีการบิดเบือน จุดอาจทำได้ดีกว่าโดยการวาดทั้งคู่เพื่อให้ทั้งสองแกนในแต่ละอันอยู่ในระดับเดียวกัน
whuber

1
ฉันพบว่ามันยากที่จะพอดีกับจุดข้อมูลทั้งหมดในระดับเดียวกันสำหรับทั้งสองตัวเลข ดังนั้นฉันจึงกล่าวถึงในหมายเหตุว่าสเกลของขวานนั้นแตกต่างกัน
kedarps

1
ความยากลำบากนั้นจริงๆแล้วเป็นจุดตอบสนองของคุณ! วิธีหนึ่งที่จะเอาชนะมันได้คือไม่ต้องใช้เครื่องชั่งที่หลากหลาย ความแตกต่างของตาชั่ง 5: 1 แทนที่จะเป็นความแตกต่าง 1,000: 1 จะทำให้ประเด็นของคุณดีขึ้น อีกวิธีคือการวาดภาพอย่างซื่อสัตย์: scatterplot ด้านบนจะดูเหมือนเป็นเส้นแนวตั้งของคะแนน
whuber

2
@whuber ฉันเข้าใจผิดความคิดเห็นแรกของคุณ แก้ไขแผนการหวังว่าจะดีขึ้นแล้ว!
kedarps

1
@ Undertherainbow ถูกต้อง!
kedarps

6

สมมติว่าคุณมีชุดข้อมูล (m "ตัวอย่าง" โดย n "ฟีเจอร์") และมิติฟีเจอร์เดียวมีค่าอย่างเคร่งครัดระหว่าง 0 ถึง 1 ในขณะที่มิติฟีเจอร์เดียวมีค่าอยู่ในช่วงตั้งแต่ -1000000 ถึง 1000000 เมื่อระยะทางยูคลิด ระหว่างคู่ของ "ตัวอย่าง" ค่าของขนาดคุณลักษณะที่อยู่ในช่วงระหว่าง 0 ถึง 1 อาจไม่เป็นไปตามปกติและอัลกอริทึมจะต้องอาศัยมิติเดียวซึ่งค่ามีขนาดใหญ่กว่าอย่างมาก ลองหาตัวอย่างการคำนวณระยะทางแบบยุคลิดและคุณสามารถเข้าใจว่าเครื่องชั่งมีผลต่อการคำนวณเพื่อนบ้านที่ใกล้ที่สุดอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.