เมื่อพิจารณาจากโมเดลการถดถอยเชิงเส้นสองแบบ

ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องที่วิทยาลัยของฉัน หนึ่งในคำถามหนึ่งคำถามนี้ถูกถาม

รุ่น 1:
$y = θ x + ϵ$ $y = \theta x + \epsilon$ รุ่น 2: $y = θ x + θ^{2} x + ϵ$ $y = \theta x + \theta^2 x + \epsilon$
รุ่นใดที่เหมาะกับข้อมูลที่ดีกว่า (สมมติว่าข้อมูลสามารถสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้น)

คำตอบที่ถูกต้อง (ตามอาจารย์) ก็คือทั้งสองรุ่นจะทำงานได้ดีเท่ากัน อย่างไรก็ตามฉันเชื่อว่ารุ่นแรกจะเหมาะกว่า

นี่คือเหตุผลที่อยู่เบื้องหลังคำตอบของฉัน รุ่นที่สองซึ่งสามารถเขียนใหม่เป็น , จะไม่เหมือนกับรุ่นแรก อันที่จริงแล้วเป็นพาราโบลาและดังนั้นจึงมีค่าต่ำสุด ( ในกรณีนี้) ด้วยเหตุนี้ช่วงของในรุ่นแรกจึงมากกว่าช่วงของในรุ่นที่สอง ดังนั้นหากข้อมูลเป็นเช่นนั้นแบบที่ดีที่สุดมีความชันน้อยกว่าโมเดลที่สองจะทำงานได้ไม่ดีมากเมื่อเทียบกับรุ่นแรก อย่างไรก็ตามในกรณีที่ความลาดเอียงของแบบที่ดีที่สุดมากกว่า $\alpha x + \epsilon$ $\alpha = \theta + \theta^2$ $\alpha$ $-0.25$ $\theta$ $\alpha$ $-0.25$ ทั้งสองรุ่นจะทำงานได้ดีเท่าเทียมกัน $-0.25$

ดังนั้นคนแรกดีกว่าหรือเหมือนกันทั้งคู่หรือไม่

— เทือกเขาฮินดูกูช
แหล่งที่มา

ฉันคิดว่าคุณถูกต้อง การขอให้พารามิเตอร์

แสดงออกได้อย่างชัดเจนว่า

(สำหรับบางคน

) จะบังคับใช้ข้อ จำกัด เกี่ยวกับสิ่งที่

เป็นไปได้แน่นอน ซึ่งหมายความว่ารุ่นที่สองสามารถแสดงความสัมพันธ์น้อยกว่าครั้งแรกเนื่องจากตอนนี้มันเป็นปัญหาการเพิ่มประสิทธิภาพที่ จำกัด เหตุผลของคุณดูแข็งแกร่งสำหรับฉัน

α

$\alpha$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

α

$\alpha$

— Matthew Drury

@MatthewDrury ฉันเพิ่งคิดออกที่ผมผิดพลาดได้ดูคำตอบด้านล่าง (และแสดงความคิดเห็นบริการ)

— kush

ฉันเห็นความคิดเห็นของคุณ แต่นั่นเป็นยิมนาสติกที่ค่อนข้างจริงจังที่จะสมมติว่า

จะใช้ค่าที่ซับซ้อน แน่นอนฉันจะเข้าร่วมเวลาทำการเพื่อพูดคุยกับอาจารย์ของคุณ คุณจะได้รับการพูดคุยที่ดี

θ

$\theta$

— Matthew Drury

ไม่ชัดเจนสำหรับฉันที่ -0.25 มาจาก คุณช่วยอธิบายได้ไหม

— Mad Jack

ฉันจะสนใจว่าอาจารย์ของคุณเหมาะสมกับแต่ละโมเดลกับชุดข้อมูลสองจุด

ได้อย่างไร ด้วยโมเดล 1 และ

ความพอดีนั้นสมบูรณ์แบบ แต่ s / เขาประมาณ

ในรุ่น 2 อย่างไรเพื่อให้ได้ขนาดที่พอดี

{(1, - 1), (2, - 2)}

$\{(1,-1),(2,-2)\}$

θ = - 1

$\theta=-1$

θ

$\theta$

— whuber

คำตอบ:

รุ่น 2 สามารถเขียนเป็น: นี้ดูเหมือนคล้ายกับรุ่น 1 เพียงกับโน้ตแตกต่างกันสำหรับ hyperparameters นี้ ( ) แต่สำหรับรุ่น 1 เราสามารถเขียน

y = (θ + θ^{2}) x + ϵ = β x + ϵ .

$y=(\theta + \theta^{2}) x+\epsilon=\beta x+\epsilon.$

θ, β

$\theta, \beta$

\hat{θ} = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=(X^{'}X)^{-1}X^{'}y.$

แต่เนื่องจากในรูปแบบที่ 2 เรามี แล้วตามที่คุณกล่าวถึงแน่นอนช่วงของควรเป็นสำหรับ Rซึ่งจะนำไปสู่ความแตกต่างใน 2 รุ่นนี้

β = θ + θ^{2},

$\beta=\theta + \theta^{2},$

\hat{β}

$\hat{\beta}$

[- 0.25, + \infty]

$[-0.25,+\infty]$

θ \in R

$\theta \in R$

ดังนั้นในรุ่น 2 คุณกำลัง constraining ประมาณการค่าสัมประสิทธิ์ของคุณแตกต่างจากรูปแบบ 1. ในการทำเรื่องนี้ให้ชัดเจนมากขึ้นก็ควรจะตั้งข้อสังเกตว่าในรุ่นที่ จะได้รับผ่านการลดการสูญเสียการทำงานของตาราง $\hat{\theta}$ แต่ในรูปแบบที่ 2 การประมาณการดังกล่าวได้ผ่านการ

\hat{θ} = \arg min_{θ \in R} (y - X θ)^{^{'}} (y - X θ) = (X^{^{'}} X)^{- 1} X^{^{'}} y .

$\hat{\theta}=\arg\min_{\theta\in{R}} \ \ (y-X\theta)^{'}(y-X\theta)=(X^{'}X)^{-1}X^{'}y.$

ซึ่งอาจนำไปสู่ผลลัพธ์ที่แตกต่าง

\hat{β} = \arg min_{β \geq - 0.25} (y - X β)^{^{'}} (y - X β)

$\hat{\beta}=\arg\min_{\beta\geq-0.25} \ \ (y-X\beta)^{'}(y-X\beta)$

— Wis
แหล่งที่มา

มันสมเหตุสมผลแล้วมันทำให้ฉันรู้สึกว่าไม่มีข้อ จำกัด ใน

ในรุ่นที่สอง! ในกรณีที่

เป็นลบ

อาจมีค่าที่ซับซ้อน อย่างไรก็ตามนั่นไม่ได้ส่งผลกระทบต่อโมเดลใช่ไหม? ฉันไม่ได้เป็นตัวแทน upvote แต่ขอบคุณมาก!

θ

$\theta$

θ + θ^{2}

$\theta + \theta^2$

θ

$\theta$

— kush

@kush โปรดตรวจสอบคำตอบที่ฉันแก้ไขซึ่งยังเป็นข้อกังวลของคุณ

— Wis

ไม่แน่ใจว่าฉันเข้าใจเหตุผลของคุณ ถ้าคุณใช้:

และ

y = α x + ϵ

$y = \alpha x+\epsilon$

y = θ x + ϵ

$y = \theta x + \epsilon$

$\alpha$ $\theta$ $\alpha$ $\theta$ $R^2$ $\theta$ $\alpha = \theta + \theta^2$

— akeenlogician
แหล่งที่มา

θ

$\theta$

(- \infty, \infty)

$(- \infty, \infty)$

α

$\alpha$

(- 0.25, \infty)

$(- 0.25, \infty)$

x

$x$