เมื่อพิจารณาจากโมเดลการถดถอยเชิงเส้นสองแบบ


14

ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องที่วิทยาลัยของฉัน หนึ่งในคำถามหนึ่งคำถามนี้ถูกถาม

รุ่น 1:

y=θx+ϵ
รุ่น 2:
y=θx+θ2x+ϵ

รุ่นใดที่เหมาะกับข้อมูลที่ดีกว่า (สมมติว่าข้อมูลสามารถสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้น)

คำตอบที่ถูกต้อง (ตามอาจารย์) ก็คือทั้งสองรุ่นจะทำงานได้ดีเท่ากัน อย่างไรก็ตามฉันเชื่อว่ารุ่นแรกจะเหมาะกว่า

นี่คือเหตุผลที่อยู่เบื้องหลังคำตอบของฉัน รุ่นที่สองซึ่งสามารถเขียนใหม่เป็น , α = θ + θ 2จะไม่เหมือนกับรุ่นแรก อันที่จริงแล้วαเป็นพาราโบลาและดังนั้นจึงมีค่าต่ำสุด ( - 0.25ในกรณีนี้) ด้วยเหตุนี้ช่วงของθในรุ่นแรกจึงมากกว่าช่วงของαในรุ่นที่สอง ดังนั้นหากข้อมูลเป็นเช่นนั้นแบบที่ดีที่สุดมีความชันน้อยกว่า- 0.25โมเดลที่สองจะทำงานได้ไม่ดีมากเมื่อเทียบกับรุ่นแรก อย่างไรก็ตามในกรณีที่ความลาดเอียงของแบบที่ดีที่สุดมากกว่าαx+ϵα=θ+θ2α0.25θα0.25ทั้งสองรุ่นจะทำงานได้ดีเท่าเทียมกัน0.25

ดังนั้นคนแรกดีกว่าหรือเหมือนกันทั้งคู่หรือไม่


3
ฉันคิดว่าคุณถูกต้อง การขอให้พารามิเตอร์แสดงออกได้อย่างชัดเจนว่าθ + θ 2 (สำหรับบางคนθ ) จะบังคับใช้ข้อ จำกัด เกี่ยวกับสิ่งที่αเป็นไปได้แน่นอน ซึ่งหมายความว่ารุ่นที่สองสามารถแสดงความสัมพันธ์น้อยกว่าครั้งแรกเนื่องจากตอนนี้มันเป็นปัญหาการเพิ่มประสิทธิภาพที่ จำกัด เหตุผลของคุณดูแข็งแกร่งสำหรับฉัน αθ+θ2θα
Matthew Drury

@MatthewDrury ฉันเพิ่งคิดออกที่ผมผิดพลาดได้ดูคำตอบด้านล่าง (และแสดงความคิดเห็นบริการ)
kush

3
ฉันเห็นความคิดเห็นของคุณ แต่นั่นเป็นยิมนาสติกที่ค่อนข้างจริงจังที่จะสมมติว่าจะใช้ค่าที่ซับซ้อน แน่นอนฉันจะเข้าร่วมเวลาทำการเพื่อพูดคุยกับอาจารย์ของคุณ คุณจะได้รับการพูดคุยที่ดี θ
Matthew Drury

1
ไม่ชัดเจนสำหรับฉันที่ -0.25 มาจาก คุณช่วยอธิบายได้ไหม
Mad Jack

1
ฉันจะสนใจว่าอาจารย์ของคุณเหมาะสมกับแต่ละโมเดลกับชุดข้อมูลสองจุดได้อย่างไร ด้วยโมเดล 1 และθ = - 1ความพอดีนั้นสมบูรณ์แบบ แต่ s / เขาประมาณθในรุ่น 2 อย่างไรเพื่อให้ได้ขนาดที่พอดี {(1,1),(2,2)}θ=1θ
whuber

คำตอบ:


9

รุ่น 2 สามารถเขียนเป็น: นี้ดูเหมือนคล้ายกับรุ่น 1 เพียงกับโน้ตแตกต่างกันสำหรับ hyperparameters นี้ ( θ , β ) แต่สำหรับรุ่น 1 เราสามารถเขียนθ = ( X

y=(θ+θ2)x+ϵ=βx+ϵ.
θ,β
θ^=(XX)1Xy.

แต่เนื่องจากในรูปแบบที่ 2 เรามี แล้วตามที่คุณกล่าวถึงแน่นอนช่วงของβควรเป็น[ - 0.25 , + ]สำหรับθ R ซึ่งจะนำไปสู่ความแตกต่างใน 2 รุ่นนี้

β=θ+θ2,
β^[0.25,+]θR

ดังนั้นในรุ่น 2 คุณกำลัง constraining ประมาณการค่าสัมประสิทธิ์ของคุณแตกต่างจากรูปแบบ 1. ในการทำเรื่องนี้ให้ชัดเจนมากขึ้นก็ควรจะตั้งข้อสังเกตว่าในรุ่นที่ จะได้รับผ่านการลดการสูญเสียการทำงานของตาราง θ = หาเรื่องนาทีθ R ( Y - X θ )θ^ แต่ในรูปแบบที่ 2 การประมาณการดังกล่าวได้ผ่านการ β =หาเรื่องนาทีβ - 0.25 (Y-Xβ)

θ^=argminθR  (yXθ)(yXθ)=(XX)1Xy.
ซึ่งอาจนำไปสู่ผลลัพธ์ที่แตกต่าง
β^=argminβ0.25  (yXβ)(yXβ)

1
มันสมเหตุสมผลแล้วมันทำให้ฉันรู้สึกว่าไม่มีข้อ จำกัด ในในรุ่นที่สอง! ในกรณีที่θ + θ 2เป็นลบθอาจมีค่าที่ซับซ้อน อย่างไรก็ตามนั่นไม่ได้ส่งผลกระทบต่อโมเดลใช่ไหม? ฉันไม่ได้เป็นตัวแทน upvote แต่ขอบคุณมาก! θθ+θ2θ
kush

@kush โปรดตรวจสอบคำตอบที่ฉันแก้ไขซึ่งยังเป็นข้อกังวลของคุณ
Wis

1

ไม่แน่ใจว่าฉันเข้าใจเหตุผลของคุณ ถ้าคุณใช้:

และ y = θ x + ϵ

y=αx+ϵ
y=θx+ϵ

αθαθR2θα=θ+θ2


5
θ(,)α(0.25,)x
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.