มันค่อนข้างยากที่จะเปรียบเทียบ kNN และการถดถอยเชิงเส้นโดยตรงเนื่องจากเป็นสิ่งที่แตกต่างกันมาก แต่ฉันคิดว่าประเด็นสำคัญที่นี่คือความแตกต่างระหว่าง "การสร้างแบบจำลอง" ฉ( x )"และ" มีสมมติฐานเกี่ยวกับ ฉ( x )"
เมื่อทำการถดถอยเชิงเส้นหนึ่งรูปแบบเฉพาะ ฉ( x )มักจะมีบางสิ่งบางอย่างในสายของ ฉ( x ) = w x + ϵ ที่ไหน εเป็นคำเสียงเกาส์เซียน คุณสามารถอธิบายได้ว่าแบบจำลองความน่าจะเป็นสูงสุดนั้นเทียบเท่ากับแบบจำลองข้อผิดพลาดผลรวมกำลังสองน้อยที่สุด
ในทางกลับกันตามที่จุดที่สองของคุณแนะนำให้สมมติว่าคุณสามารถประมาณฟังก์ชั่นนั้นโดยฟังก์ชั่นค่าคงที่ในท้องถิ่น - การวัดระยะทางระหว่างx- ses โดยไม่ต้องเฉพาะการสร้างแบบจำลองการกระจายทั้งหมด
กล่าวอีกนัยหนึ่งการถดถอยเชิงเส้นมักจะมีความคิดที่ดีเกี่ยวกับคุณค่าของ ฉ( x ) สำหรับบางคนที่มองไม่เห็น x จากเพียงคุณค่าของ xในขณะที่ kNN ต้องการข้อมูลอื่น ๆ (เช่นเพื่อนบ้าน k) เพื่อคาดการณ์ ฉ( x )เพราะคุณค่าของ xและเพียงคุณค่าของตัวเองจะไม่ให้ข้อมูลใด ๆ เนื่องจากไม่มีรูปแบบสำหรับ ฉ( x ).
แก้ไข: ย้ำด้านล่างนี้เพื่อแสดงชัดเจนนี้อีกครั้ง (ดูความคิดเห็น)
เป็นที่ชัดเจนว่าทั้งการถดถอยเชิงเส้นและวิธีเพื่อนบ้านที่ใกล้ที่สุดมีจุดมุ่งหมายในการทำนายมูลค่าของ Y= f( x ) สำหรับใหม่ x. ขณะนี้มีสองวิธี การถดถอยเชิงเส้นดำเนินต่อไปโดยสมมติว่าข้อมูลตรงกับเส้นตรง (บวกลบเสียงรบกวนบางส่วน) ดังนั้นค่าของ y เท่ากับค่าของฉ( x )คูณความชันของเส้น กล่าวอีกนัยหนึ่งนิพจน์เชิงเส้นจะจำลองข้อมูลเป็นเส้นตรง
ตอนนี้วิธีเพื่อนบ้านที่ใกล้ที่สุดไม่สนใจว่าข้อมูลดูเหมือนว่าอย่างไร (ไม่ได้เป็นแบบจำลองข้อมูล) นั่นคือพวกเขาไม่สนใจว่ามันจะเป็นเส้นพาราโบลาวงกลม ฯลฯ สิ่งที่มันสันนิษฐานก็คือ ฉ(x1) และ ฉ(x2) จะคล้ายกันถ้า x1 และ x2มีความคล้ายคลึงกัน โปรดทราบว่าข้อสันนิษฐานนี้เป็นจริงโดยประมาณสำหรับโมเดลเกือบทั้งหมดรวมถึงที่กล่าวถึงข้างต้นทั้งหมด อย่างไรก็ตามวิธีการ NN ไม่สามารถบอกได้ว่าคุณค่าของฉ( x ) เกี่ยวข้องกับ x (ไม่ว่าจะเป็นเส้นพาราโบลา ฯลฯ ) เนื่องจากมันไม่มีรูปแบบของความสัมพันธ์นี้มันก็แค่สมมติว่ามันสามารถประมาณได้โดยการมองเข้าไปใกล้จุด