เหตุใดการแก้ปัญหาแบบกำลังสองน้อยที่สุดจึงให้ผลลัพธ์ไม่ดีในกรณีนี้


21

มีรูปภาพในหน้า 204 บทที่ 4 ของ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" โดย Bishop ซึ่งฉันไม่เข้าใจว่าทำไม Least Square solution จึงให้ผลลัพธ์ที่ไม่ดีที่นี่:

ป้อนคำอธิบายรูปภาพที่นี่

ย่อหน้าก่อนหน้านี้เกี่ยวกับข้อเท็จจริงที่ว่าวิธีแก้ปัญหากำลังสองน้อยที่สุดนั้นไม่มีความทนทานต่อค่าผิดปกติอย่างที่คุณเห็นในภาพต่อไปนี้ แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นในภาพอื่นและทำไม LS จึงให้ผลลัพธ์ที่แย่เช่นกัน

ป้อนคำอธิบายรูปภาพที่นี่


ดูเหมือนว่านี่เป็นส่วนหนึ่งของบทเกี่ยวกับการแบ่งแยกระหว่างฉาก ในกราฟคู่แรกของคุณกราฟด้านซ้ายอย่างชัดเจนไม่แยกความแตกต่างระหว่างคะแนนสามชุด นั่นตอบคำถามของคุณหรือไม่ ถ้าไม่คุณสามารถอธิบายได้หรือไม่
Peter Flom - Reinstate Monica

@ PeterFlom: โซลูชัน LS ให้ผลลัพธ์ที่ไม่ดีสำหรับอันแรกฉันต้องการทราบเหตุผล และใช่มันเป็นย่อหน้าสุดท้ายของส่วนเกี่ยวกับการจำแนก LS ซึ่งบททั้งหมดเกี่ยวกับฟังก์ชันการจำแนกเชิงเส้น
Gigili

คำตอบ:


6

ปรากฏการณ์โดยเฉพาะอย่างยิ่งที่คุณเห็นด้วยโซลูชั่นสี่เหลี่ยมน้อยใน Bishops รูปที่ 4.5 เป็นปรากฏการณ์ที่เกิดขึ้นเฉพาะเมื่อจำนวนของชั้นเรียนเป็น33

ในESLรูปที่ 4.2 ในหน้า 105, ปรากฏการณ์ที่เรียกว่ากำบัง ดู ESL รูปที่ 4.3 การแก้ปัญหากำลังสองน้อยที่สุดส่งผลให้ตัวทำนายสำหรับคลาส middel ซึ่งส่วนใหญ่ถูกครอบงำโดยตัวทำนายสำหรับคลาสอื่น ๆ สองคลาส LDA หรือการถดถอยโลจิสติกไม่ประสบปัญหานี้ อาจกล่าวได้ว่ามันเป็นโครงสร้างที่แข็งของโมเดลเชิงเส้นของความน่าจะเป็นของคลาส (ซึ่งเป็นสิ่งที่คุณได้รับจากกำลังสองน้อยที่สุด) ที่ทำให้เกิดการหลอกลวง

มีเพียงสองคลาสเท่านั้นที่ปรากฏการณ์ไม่ได้เกิดขึ้นดูการฝึกซ้อมที่ 4.2 ใน ESL หน้า 135 สำหรับรายละเอียดเกี่ยวกับความสัมพันธ์ระหว่างการแก้ปัญหา LDA และการแก้ปัญหากำลังสองน้อยที่สุดในกรณีสองชั้น-

แก้ไข: Masking อาจมองเห็นได้ง่ายที่สุดสำหรับปัญหาสองมิติ แต่มันก็เป็นปัญหาในกรณีหนึ่งมิติและที่นี่คณิตศาสตร์นั้นเข้าใจง่ายโดยเฉพาะ สมมติว่าตัวแปรอินพุตแบบหนึ่งมิติถูกเรียงลำดับเป็น

x1<...<xk<Y1<...Yม.<Z1<...<Zn

ด้วยจากคลาส 1,จากคลาสสองและจากคลาส 3 พร้อมกับโครงร่างการเข้ารหัสสำหรับคลาสเป็นเวกเตอร์ไบนารีสามมิติเรามีข้อมูลที่จัดระเบียบดังต่อไปนี้xYZ

1...10...00...0TT0...01...10...00...00...01...1xTx1...xkY1...Yม.Z1...Zn

ทางออกที่สองน้อยที่สุดจะได้รับเป็นสามถดถอยของแต่ละคอลัมน์ในใน{x} สำหรับคอลัมน์แรก -class ความชันจะเป็นค่าลบ ( คอลัมน์ทั้งหมดจะอยู่ทางซ้ายด้านบน) และสำหรับคอลัมน์สุดท้ายคือ class ความชันจะเป็นค่าบวก สำหรับคอลัมน์กลางTxxZY- คลาสการถดถอยเชิงเส้นจะต้องสร้างศูนย์สำหรับสองคลาสนอกกับคลาสกลางส่งผลให้เส้นถดถอยค่อนข้างแบนและความพอดีที่ไม่น่าเป็นไปได้ของเงื่อนไขคลาสสำหรับคลาสนี้ เมื่อปรากฎว่าค่าสูงสุดของบรรทัดการถดถอยสำหรับคลาสภายนอกสองคลาสนั้นควบคุมสายการถดถอยสำหรับคลาสกลางสำหรับค่าส่วนใหญ่ของตัวแปรอินพุตและคลาสกลางจะถูกพรางโดยคลาสภายนอก

ป้อนคำอธิบายรูปภาพที่นี่

ในความเป็นจริงถ้าดังนั้นคลาสหนึ่งจะถูกปิดบังอย่างสมบูรณ์เสมอไม่ว่าจะสั่งตัวแปรอินพุตตามข้างบนหรือไม่ หากขนาดของชั้นเรียนเท่ากับเส้นถดถอยสามเส้นทั้งหมดจะผ่านจุดโดยที่ ดังนั้นทั้งสามเส้นตัดกันทั้งหมดในจุดเดียวกันและสูงสุดของพวกเขาทั้งสองครองที่สามk=ม.=n(x¯,1/3)

x¯=13k(x1+...+xk+Y1+...+Yม.+Z1+...+Zn).

2

ตามลิงก์ที่ให้ไว้ด้านล่างเหตุผลที่เลือกปฏิบัติ LS ไม่ทำงานได้ดีในกราฟบนซ้ายมีดังนี้: -
ขาดความทนทานต่อค่าผิดปกติ
- ชุดข้อมูลบางอย่างไม่เหมาะสมสำหรับการจำแนกสี่เหลี่ยมอย่างน้อยที่สุด
- ขอบเขตการตัดสินใจสอดคล้องกับโซลูชัน ML ภายใต้การแจกแจงแบบมีเงื่อนไขแบบเกาส์เซียน แต่ค่าเป้าหมายไบนารีมีการกระจายไกลจากเกาส์เซียน

ดูหน้า 13 ในข้อเสียของกำลังสองน้อยที่สุด


1

ฉันเชื่อว่าปัญหาในกราฟแรกของคุณเรียกว่า "กำบัง" และถูกกล่าวถึงใน "องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนาย" (Hastie, Tibshirani, Friedman Springer 2001), หน้า 83-84

สังหรณ์ใจ (ซึ่งเป็นสิ่งที่ดีที่สุดที่ฉันสามารถทำได้) ฉันเชื่อว่านี่เป็นเพราะการคาดการณ์ของการถดถอย OLS นั้นไม่ได้ จำกัด อยู่ที่ [0,1] ดังนั้นคุณสามารถจบลงด้วยการทำนาย -0.33 เมื่อคุณต้องการมากกว่า 0 .. 1 ซึ่งคุณสามารถใช้กลเม็ดเด็ดพรายในกรณีของสองชั้น แต่ยิ่งคุณมีความเป็นไปได้ที่จะเกิดปัญหามากขึ้น ฉันคิด.


1

สแควร์น้อยมีความอ่อนไหวต่อสเกล (เนื่องจากข้อมูลใหม่มีขนาดแตกต่างกันมันจะเอียงขอบเขตการตัดสินใจ) โดยทั่วไปต้องการน้ำหนักอย่างใดอย่างหนึ่ง (หมายถึงข้อมูลที่จะเข้าสู่อัลกอริธึมการเพิ่มประสิทธิภาพอยู่ในระดับเดียวกัน) หรือทำการแปลงที่เหมาะสม (หมายถึงศูนย์บันทึก (1 + ข้อมูล) ... ฯลฯ ) กับข้อมูลในกรณีดังกล่าว ดูเหมือนว่า Least Square จะทำงานได้สมบูรณ์แบบถ้าคุณขอให้มันทำการแยกประเภท 3 แบบซึ่งในกรณีนี้จะรวมคลาสเอาต์พุตสองคลาสเข้าด้วยกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.