ทำไมทุกคนจะใช้ KNN เพื่อการถดถอย?


26

จากสิ่งที่ฉันเข้าใจเราสามารถสร้างฟังก์ชันการถดถอยที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น

ตัวอย่างเช่น (จำเป็นต้องมีหนึ่งในพาเนลเท่านั้น): ป้อนคำอธิบายรูปภาพที่นี่

ฉันจะทำนายอนาคตได้อย่างไรด้วยการใช้ KNR regressor อีกครั้งดูเหมือนว่าจะประมาณฟังก์ชั่นที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น

คำถามของฉัน: อะไรคือข้อดีของการใช้ KNN regressor? ฉันเข้าใจว่ามันเป็นเครื่องมือที่ทรงพลังมากสำหรับการจัดหมวดหมู่ แต่ดูเหมือนว่ามันจะทำงานได้ไม่ดีในสถานการณ์การถดถอย


คุณสามารถอธิบายให้ชัดเจนว่าคุณหมายถึงอะไรโดย "คาดการณ์อนาคต" คุณมีอนุกรมเวลาและคุณต้องการคาดการณ์หรือคุณพยายามปรับความสัมพันธ์ระหว่าง 2 ตัวแปรและต้องการใช้ในอนาคตเพื่อคาดเดาค่า Y จากค่า X ที่รู้จักหรือไม่?
gung - Reinstate Monica

1
ตัวอย่างเช่นหากฉันต้องการทำนายค่า Y เช่นนั้น X = 15 จากภาพด้านบน KNN-regressor จะไม่ตัดมันใช่ไหม

1
ฉันเห็นด้วยกับคุณว่าถ้าคุณฝึกฝนชุดที่มีแต่คาดว่าคุณจะเห็นคุณค่าของไกลกว่าที่มีอยู่ในข้อมูลของคุณวิธีการในท้องถิ่นที่ไม่ใช่พารามิเตอร์อาจไม่เหมาะ แต่คุณอาจต้องการใช้ความรู้เกี่ยวกับโดเมนนั้นและกำหนดแบบจำลองพารามิเตอร์ที่มีความรู้ของคุณเกี่ยวกับวิธีที่ 'ไม่ได้รับการตรวจสอบ'คาดว่าจะทำงาน x[0,5]xx
Meadowlark Bradsher

1
ตัวอย่างของ KNN ที่ใช้อย่างประสบความสำเร็จในการถดถอยคือสิ่งทำนายผล PECOTA ของ Nate Silver คุณสามารถอ่านเกี่ยวกับข้อดีข้อเสียจากบทความ Wikipedia บน PECOTA หรือบทความในหนังสือพิมพ์เช่นนี้: macleans.ca/authors/colby-cosh/ …
Flounderer

6
นอกจากนี้เพื่อให้เป็นประเด็นทั่วไปมากขึ้นเมื่อคุณมีความรู้ด้านสถิติ (หรือการขุดข้อมูล / การเรียนรู้เครื่องจักร ฯลฯ ) คุณจะพบว่าคำตอบของคำถามทั่วไปอย่างเช่นคุณมักจะเป็นรุ่นที่แปลความหมายของ 'มันขึ้นอยู่กับ' การรู้ว่ามันขึ้นอยู่กับอะไรและทำไมจึงเป็นความรู้
Meadowlark Bradsher

คำตอบ:


17

วิธีการในท้องถิ่นเช่น K-NN เหมาะสมในบางสถานการณ์

ตัวอย่างหนึ่งที่ฉันทำในงานโรงเรียนเกี่ยวข้องกับการทำนายความต้านทานแรงอัดของส่วนผสมปูนซีเมนต์ ส่วนผสมทั้งหมดเหล่านี้ค่อนข้างไม่ผันผวนเมื่อเทียบกับการตอบสนองหรือกันและ KNN ได้ทำการคาดการณ์ที่เชื่อถือได้ กล่าวอีกนัยหนึ่งไม่มีตัวแปรอิสระใดที่มีความแปรปรวนขนาดใหญ่อย่างไม่เป็นสัดส่วนเพื่อมอบให้กับแบบจำลองไม่ว่าจะเป็นรายบุคคลหรืออาจเป็นไปได้โดยการโต้ตอบซึ่งกันและกัน

เอาอันนี้ไปด้วยเม็ดเกลือเพราะฉันไม่รู้เทคนิคการตรวจสอบข้อมูลที่แสดงให้เห็นอย่างชัดเจน แต่อย่างสังหรณ์ใจมันก็สมเหตุสมผลว่าถ้าคุณสมบัติของคุณมีระดับความแปรปรวนตามสัดส่วนฉันไม่รู้ว่าสัดส่วนใดคุณอาจมี ผู้สมัคร KNN แน่นอนฉันอยากรู้ว่ามีการศึกษาและเทคนิคการพัฒนาผลกระทบนี้

หากคุณคิดเกี่ยวกับมันจากมุมมองโดเมนทั่วไปมีแอพพลิเคชั่นมากมายที่ 'สูตร' ที่คล้ายกันให้ผลลัพธ์ที่คล้ายกัน สิ่งนี้ดูเหมือนจะอธิบายสถานการณ์การทำนายผลลัพธ์ของการผสมปูนซีเมนต์อย่างแน่นอน ฉันจะบอกว่าถ้าคุณมีข้อมูลที่ทำงานตามคำอธิบายนี้และนอกจากนี้การวัดระยะทางของคุณก็เป็นเรื่องธรรมดาสำหรับโดเมนในมือและสุดท้ายคุณมีข้อมูลเพียงพอฉันจะจินตนาการว่าคุณควรได้รับผลลัพธ์ที่เป็นประโยชน์จาก KNN หรือวิธีอื่น ๆ ในท้องถิ่น .

คุณยังได้รับประโยชน์จากอคติที่ต่ำมากเมื่อคุณใช้วิธีการในท้องถิ่น บางครั้งความลำเอียงและความแปรปรวนของสมดุลแบบเสริมทั่วไป (GAM) โดยปรับตัวแปรแต่ละตัวให้เหมาะสมโดยใช้ KNN เช่น:

y^=f1(x1)+f2(x2)++fn(xn)+ϵ

ส่วนเพิ่มเติม (สัญลักษณ์บวก) ป้องกันความแปรปรวนสูงในขณะที่ใช้ KNN แทนป้องกันความลำเอียงสูงfn(xn)

ฉันจะไม่เขียนออก KNN อย่างรวดเร็ว มันมีสถานที่


1
คำตอบเกี่ยวกับการปรับขนาดข้อมูลสำหรับ knn อาจช่วยแสดงความหมายของคุณโดย "สัดส่วนความแปรปรวนตามสัดส่วน" stats.stackexchange.com/questions/287425/…
eric_kernfeld

5

ฉันไม่ชอบที่จะพูด แต่จริงๆแล้วคำตอบสั้น ๆ ก็คือว่า "การคาดการณ์ในอนาคต" เป็นไปไม่ได้จริง ๆ ไม่ได้กับ knn หรือกับลักษณนามหรือ regressor อื่น ๆ ที่มีอยู่ในปัจจุบัน

แน่นอนว่าคุณสามารถคาดการณ์เส้นการถดถอยเชิงเส้นหรือระนาบไฮเปอร์ของ SVM ได้ แต่ในที่สุดคุณก็ไม่รู้ว่าอนาคตจะเป็นเช่นไรสำหรับสิ่งที่เรารู้เส้นนั้นอาจเป็นเพียงส่วนเล็ก ๆ ของความเป็นจริงที่โค้ง สิ่งนี้จะเห็นได้ชัดเมื่อคุณดูวิธีการแบบเบย์เช่นกระบวนการเกาส์เซียนคุณจะสังเกตเห็นความไม่แน่นอนอย่างใหญ่หลวงทันทีที่คุณออกจาก "โดเมนอินพุตที่รู้จัก"

แน่นอนว่าคุณสามารถลองสรุปจากสิ่งที่เกิดขึ้นในวันนี้กับสิ่งที่อาจเกิดขึ้นในวันพรุ่งนี้ซึ่งสามารถทำได้อย่างง่ายดายด้วย regressor knn (เช่นหมายเลขลูกค้าปีที่แล้วในช่วงเทศกาลคริสต์มาสสามารถให้คำแนะนำที่ดีเกี่ยวกับตัวเลขปีนี้) แน่นอนว่าวิธีการอื่น ๆ อาจรวมแนวโน้มและอื่น ๆ แต่ในที่สุดคุณจะเห็นว่ามันทำงานได้ดีเมื่อมันมาถึงตลาดหุ้นหรือการพยากรณ์อากาศระยะยาว


+1 เพื่อความระมัดระวังต่อการคาดการณ์และเพื่อหารือเกี่ยวกับพฤติกรรม (ค่อนข้างอนุรักษ์นิยม) ของ KNN เมื่อคาดการณ์
eric_kernfeld

KNN มีความอนุรักษ์นิยมมากกว่าการถดถอยเชิงเส้นเมื่อทำการประมาณอย่างแม่นยำเนื่องจากพฤติกรรมที่บันทึกไว้โดย OP: มันสามารถสร้างการคาดการณ์ภายในช่วงของค่า Y ที่สังเกตได้แล้วเท่านั้น นี่อาจเป็นข้อได้เปรียบในหลาย ๆ สถานการณ์
eric_kernfeld

1

ตัวอย่างแรกสำหรับ "ฉันจะทำนายอนาคตโดยใช้ KNN regressor ได้อย่างไร"

ปัญหา: ทำนายเวลาของแสงแดดในวันพรุ่งนี้ จากในสัปดาห์ที่ผ่านมา ข้อมูลการฝึกอบรม: (ในเมืองเดียว) ในช่วง 10 ปีที่ผ่านมามี 3650 หมายเลขsunt+1sunt..sunt6
sunt

แสดงว่า และ1}weektsunt..sunt6tomorrow(weekt))sunt+1

วิธีการ: ใส่เส้นโค้ง 3650 คี่ในต้น kd ด้วย k = 7 ให้ใหม่ค้นหาเพื่อนบ้านที่อยู่ใกล้ที่สุด 10 วัน ด้วยของพวกเขา และคำนวณถ่วงน้ำหนักเฉลี่ยweekt
week
tomorrow0..tomorrow9
predict(week)tomorrow0..tomorrow9

ปรับแต่งน้ำหนักให้ดูเช่น ผกผันทางถ่วงน้ำหนัก-IDW-การแก้ไขที่มีงูหลาม ,
และระยะทางเมตริกสำหรับ "เพื่อนบ้านที่ใกล้ที่สุด" ใน 7d

"ข้อดีของการใช้ KNN regressor คืออะไร"
สำหรับความคิดเห็นที่ดีของผู้อื่นฉันจะเพิ่มโค้ดและทำความเข้าใจได้ง่ายและเพิ่มขนาดข้อมูลให้ใหญ่ขึ้น
ข้อเสีย: ความไวต่อข้อมูลและการปรับแต่งไม่มากเข้าใจ


(Longnote เชิงอรรถเกี่ยวกับคำศัพท์:
"การถดถอย" ถูกใช้เป็นคำแฟนซีสำหรับ "การปรับโมเดลให้เหมาะกับข้อมูล"
โดยทั่วไปคือการปรับข้อมูลให้เหมาะกับเป้าหมายด้วยโมเดลเชิงเส้น: นอกจากนี้ยังมีการคาดการณ์ว่าราคาหุ้นในวันพรุ่งนี้ จากราคาในช่วงสัปดาห์หรือปีที่แล้ว: พยากรณ์นี้เรียก ARMA, อัตถดถอยย้าย-average_model หรืออัตถดถอยรุ่น . ดูเพิ่มเติม การวิเคราะห์การถดถอยXY
Y t + 1Yt=b0Xt+b1Xt1+...
Yt+1
Yt+1=a0Yt+a1Yt1+...

ดังนั้นบรรทัดแรกของคุณ "เราสามารถสร้างฟังก์ชั่นการถดถอยที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรม" น่าจะเกี่ยวกับคำว่า "การถดถอย" ที่สับสน)


1

จากบทนำสู่การเรียนรู้เชิงสถิติหัวข้อ 3.5:

ในสถานการณ์ชีวิตจริงที่ไม่รู้จักความสัมพันธ์ที่แท้จริงใคร ๆ ก็สามารถสรุปได้ว่าควรได้รับการสนับสนุนจากการถดถอยเชิงเส้นเนื่องจาก KNN จะเลวร้ายที่สุดเล็กน้อยกว่าการถดถอยเชิงเส้นเล็กน้อยหากความสัมพันธ์ที่แท้จริงเป็นเส้นตรงและอาจดีขึ้นอย่างมาก ผลลัพธ์ถ้าความสัมพันธ์ที่แท้จริงไม่ใช่แบบเส้นตรง

แต่มีข้อ จำกัด (ไม่ใช่จากตำราเรียนสิ่งที่ฉันได้ข้อสรุป):

  1. มีจำนวนการสังเกตที่เพียงพอต่อการทำนาย
  2. จำนวนผู้ทำนายไม่ควรใหญ่เกินไป
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.