จะหาวิธีการแก้ปัญหาการถดถอยของสันเขาได้อย่างไร?


40

ฉันกำลังมีปัญหาบางอย่างกับการได้มาของวิธีแก้ปัญหาการถดถอยของสันเขา

ฉันรู้วิธีการแก้ปัญหาการถดถอยโดยไม่มีคำศัพท์

β=(XTX)1XTy.

แต่หลังจากเพิ่มคำศัพท์ L2เข้ากับฟังก์ชั่นค่าใช้จ่ายλβ22

β=(XTX+λI)1XTy.

คำตอบ:


23

มันเพียงพอที่จะแก้ไขฟังก์ชั่นการสูญเสียโดยการเพิ่มบทลงโทษ ในแง่ของเมทริกซ์ฟังก์ชันการสูญเสียกำลังสองเริ่มต้นจะกลายเป็น

(YXβ)T(YXβ)+λβTβ.
การได้มาด้วยความเคารพβนำไปสู่สมการปกติ
XTY=(XTX+λI)β
ซึ่งนำไปสู่การประมาณสัน

1
ทำไมอนุพันธ์ของλβTβเท่ากับλIβ
user34790

4
@ user34790 มันไม่ใช่ มันเท่ากับ22λβแต่ 2 ยกเลิกด้วย 2s ที่คล้ายกันในเงื่อนไขอื่น ๆ แน่นอนว่าตัวประกอบIนั้นเหมือนกับ 1 ในพีชคณิต "ปกติ" คุณสามารถคูณมันได้ทุกที่ที่คุณต้องการโดยไม่ต้องเปลี่ยนอะไรเลย
Bill

4
@ บิล: ที่นี่คุณต้องการให้ได้รับเมทริกซ์ของมิติที่ถูกต้องดังนั้นการเพิ่มทำงานร่วมกับ :เป็นเพียงเซนต์คิตส์และเนวิสIXTXλ
เฮนรี่

47

เรามาสร้างสิ่งที่เรารู้กันดีว่าเมื่อใดก็ตามที่เมทริกซ์โมเดลคือคำตอบ -vector คือและพารามิเตอร์ -vector คือฟังก์ชันวัตถุประสงค์n×pXnypβ

f(β)=(yXβ)(yXβ)

(ซึ่งคือผลรวมของกำลังสองของเศษเหลือ) จะลดลงเมื่อแก้สมการปกติβ

(XX)β=Xy.

การถดถอยของสันเขาเพิ่มคำอีกคำหนึ่งลงในฟังก์ชันวัตถุประสงค์ (โดยปกติจะเป็นหลังตัวแปรมาตรฐานทั้งหมดเพื่อวางไว้บนฐานรากทั่วไป) ขอให้ลด

(yXβ)(yXβ)+λββ

สำหรับบางคนที่ไม่ใช่เชิงลบอย่างต่อเนื่อง\มันคือผลรวมของกำลังสองของส่วนที่เหลือบวกกับผลรวมของกำลังสองของสัมประสิทธิ์ตัวเอง (ทำให้เห็นได้ชัดว่ามันมีค่าต่ำสุดทั่วโลก) เพราะก็มีบวกราก\λλ0ν2=λ

พิจารณาเมทริกซ์เติมกับแถวที่สอดคล้องกับครั้งเมทริกซ์เอกลักษณ์ :Xνp×pI

X=(XνI)

เมื่อเวกเตอร์ถูกขยายในทำนองเดียวกันโดยมีศูนย์ท้าย , ผลิตภัณฑ์เมทริกซ์ในฟังก์ชันวัตถุประสงค์เพิ่มเพิ่มเติมข้อกำหนดของแบบฟอร์มเพื่อวัตถุประสงค์เดิม ดังนั้นypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

จากรูปแบบของการแสดงออกทางซ้ายมือจะเป็นสมการปกติในทันที

(XX)β=Xy.

เพราะเราอยู่ติดกับศูนย์ที่ส่วนท้ายของ , ด้านขวามือเป็นเช่นเดียวกับY ในด้านซ้ายมือจะถูกเพิ่มในต้นฉบับX ดังนั้นสมการปกติใหม่ทำให้ง่ายขึ้นyXyν2I=λIXX

(XX+λI)β=Xy.

นอกเหนือจากการประหยัดในเชิงแนวคิดแล้ว - ไม่จำเป็นต้องมีการปรับแต่งใหม่เพื่อให้ได้ผลลัพธ์นี้ - นอกจากนี้ยังเป็นการประหยัดทางคอมพิวเตอร์: ซอฟต์แวร์ของคุณสำหรับการทำกำลังสองน้อยที่สุดทั่วไปจะทำการถดถอยแบบสันเขาโดยไม่มีการเปลี่ยนแปลงใด ๆ (อย่างไรก็ตามมันจะมีประโยชน์ในปัญหาใหญ่ในการใช้ซอฟต์แวร์ที่ออกแบบมาเพื่อจุดประสงค์นี้เพราะมันจะใช้ประโยชน์จากโครงสร้างพิเศษของเพื่อให้ได้ผลลัพธ์อย่างมีประสิทธิภาพสำหรับช่วงเวลาที่หนาแน่นของทำให้คุณสามารถสำรวจว่าคำตอบแตกต่างกันอย่างไร กับ )Xλλ

ความงามอีกอย่างของการมองสิ่งต่าง ๆนี้คือวิธีที่จะช่วยให้เราเข้าใจการถดถอยของสันเขา เมื่อเราต้องการที่จะเข้าใจการถดถอยจริงๆก็มักจะช่วยในการคิดว่ามันเรขาคณิต: คอลัมน์ของเป็นการเวกเตอร์ในปริภูมิเวกเตอร์ที่แท้จริงของมิติnโดยการติดถึงดังนั้นจึงยืดพวกมันจาก -vector ถึง -vectors เรากำลังฝังเข้าไปในพื้นที่ขนาดใหญ่โดยรวม "จินตภาพ", ทิศทางตั้งฉากกัน คอลัมน์แรกของXpnνIXnn+pRnRn+ppXได้รับส่วนประกอบจินตภาพขนาดเล็กที่มีขนาดซึ่งจะเป็นการเพิ่มความยาวและย้ายออกจากพื้นที่ที่สร้างโดยคอลัมน์ต้นฉบับ คอลัมน์ที่สอง, สาม, ... ,มีความยาวคล้ายกันและถูกย้ายออกจากพื้นที่เดิมด้วยจำนวนเดียวกัน - แต่ทั้งหมดอยู่ในทิศทางใหม่ที่แตกต่างกัน ดังนั้นคอลลิเนียริตี้ใด ๆ ที่ปรากฏในคอลัมน์เดิมจะได้รับการแก้ไขทันที ยิ่งไปกว่านั้นยิ่งใหญ่ขึ้นเวกเตอร์ใหม่เหล่านี้ก็ยิ่งเข้าหาแต่ละνppthννpทิศทางในจินตนาการ: พวกมันมากขึ้นเรื่อย ๆ ดังนั้นการแก้ปัญหาของสมการปกติจะกลายเป็นทันทีที่เป็นไปได้และมันอย่างรวดเร็วจะกลายเป็นตัวเลขที่มีเสถียรภาพเป็นเพิ่มขึ้นจาก0ν0

คำอธิบายของกระบวนการนี้แนะนำวิธีการใหม่และสร้างสรรค์ในการจัดการกับปัญหาการถดถอยของสันถูกออกแบบมาเพื่อจัดการ ตัวอย่างเช่นการใช้วิธีการใด ๆ (เช่นการสลายตัวความแปรปรวนที่อธิบายโดย Belsley, Kuh และ Welsch ในหนังสือปี 1980 เรื่องการวินิจฉัยการถดถอยตอนที่ 3) คุณอาจสามารถระบุกลุ่มย่อยของคอลัมน์ collinear ของที่แต่ละกลุ่มย่อย เกือบจะตั้งฉากกับคนอื่น ๆ คุณต้องการเพียงติดกับเป็นแถวจำนวนมากเพื่อ (และศูนย์การ ) ที่มีองค์ประกอบในกลุ่มที่ใหญ่ที่สุดที่ทุ่มเทใหม่มิติหนึ่ง "จินตนาการ" สำหรับแทนที่องค์ประกอบของกลุ่มแต่ละห่างจากพี่น้อง: คุณไม่จำเป็นต้องจินตนาการ ขนาดที่ต้องทำXXyp


2
ผู้เขียนคนสุดท้ายของหนังสือเล่มนี้คือเวลส์ไม่ใช่ชาวเวลส์
Mark L. Stone

1
โอ้โหนี่แค่ทำให้ใจฉัน มีการอภิปรายเกี่ยวกับสิ่งที่จะเกิดขึ้นเมื่อสิ่งนี้ถูกทำให้เป็นรูปแบบเชิงเส้นภายนอกซึ่งก็คือแบบของ glm? การลงโทษไม่ควรเข้าแถวเหมือนการถดถอยสันเขา ... แต่การตีความนี้บ่งบอกว่ามันจะยังเป็นเครื่องมือประมาณค่าที่มีประโยชน์!
หน้าผา AB

2
@Cliff นั่นเป็นคำแนะนำที่น่าสนใจมาก ๆ อย่างไรก็ตามเนื่องจาก GLM ประมาณการขึ้นอยู่กับวิธีที่ซับซ้อนกว่าในและตัวประมาณของพวกมันไม่สามารถแยกตัวประกอบในรูปแบบเนื่องจากเป็น OLS (โดยที่และ ) มันอาจจะเป็นเรื่องยากที่จะสร้างความสัมพันธ์ระหว่างการจัดเก็บภาษีที่มีประโยชน์ฟังก์ชั่นการลงโทษและการปรับเปลี่ยนคอลัมน์ของXโดยเฉพาะอย่างยิ่งมันไม่ชัดเจนว่าค่าในจะต้องมีการเพิ่มเพื่อให้งานนี้ X
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
ใช่มันต้องใช้ความคิดบางอย่างในการพยายามกำหนดว่าโทษคืออะไร แต่ฉันไม่ได้กังวลเกี่ยวกับเรื่องนั้น ความคิดของสิ่งที่กับการใช้งานทั่วไปไม่ง่ายอย่างใดอย่างหนึ่ง ... อาจจะยกเว้นในกรณีของการถดถอยโลจิสติกที่เราสามารถเพิ่มสอง 's; หนึ่งใน 0 และหนึ่งใน 1 การเพิ่มนี้จะเป็นรุ่นทั่วไปของ "+2 ทวินามประมาณ" (มีชื่อที่เหมาะสมกว่าสำหรับตัวประมาณนี้ที่ฉันว่างในซึ่งโดยทั่วไปเมื่อคุณประมาณจากการแจกแจงทวินามโดยใช้ค่าเฉลี่ยหลังเป็น การประมาณด้วยเครื่องแบบก่อน ) y ypp
หน้าผา AB

@ Mark ขอบคุณสำหรับการแก้ไข คุณสามารถบอกได้ว่าฉันไปจากความทรงจำ ... :-)
whuber

20

การสืบทอดมารวมถึงเมทริกซ์แคลคูลัสซึ่งค่อนข้างน่าเบื่อ เราต้องการแก้ปัญหาต่อไปนี้:

minβ(YβTX)T(YβTX)+λβTβ

ตอนนี้ให้สังเกตว่า และ เราจะได้รับเงื่อนไขการสั่งซื้อร่วมกัน แยกให้ผลเฉลย:

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.

9

เมื่อเร็ว ๆ นี้ฉันได้พบคำถามเดียวกันในบริบทของ P-Splines และเนื่องจากแนวคิดนี้เหมือนกันฉันต้องการให้คำตอบโดยละเอียดเกี่ยวกับการได้มาของตัวประมาณสันเขา

เราเริ่มต้นด้วยฟังก์ชั่นเกณฑ์การลงโทษที่แตกต่างจากฟังก์ชั่น OLS-criterion คลาสสิกโดยใช้บทลงโทษในบทสรุปสุดท้าย:

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

ที่ไหน

  • p=จำนวน covariables ที่ใช้ในโมเดล
  • xiTβ=ตัวทำนายเชิงเส้นมาตรฐานของคุณ
  • การสรุปครั้งแรกนำเสนอ MSE อีกครั้ง (การเบี่ยงเบนกำลังสองของการทำนายจากค่าจริง) ที่เราต้องการย่อให้เล็กสุดตามปกติ
  • การสรุปครั้งที่สองแสดงถึงการลงโทษที่เราใช้กับค่าสัมประสิทธิ์ ที่นี่เราอยู่ในบริบทของสันเขาซึ่งแสดงถึงการวัดระยะทางแบบยุคลิดดังนั้นระดับ 2 ในระยะการลงโทษ ในกรณีของ Lasso-Penalization เราจะใช้ระดับ 1 และให้ค่าประมาณที่แตกต่างกันโดยสิ้นเชิง

เราสามารถเขียนเกณฑ์นี้ใหม่ในรูปสัญกรณ์เมทริกซ์และแยกย่อยลงได้อีก:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ โดยที่เป็นเมทริกซ์เอกลักษณ์I

=yTy2βTXTy+βT(XTX+λI)β

ตอนนี้เราค้นหาที่ลดเกณฑ์ของเราให้น้อยที่สุด เราใช้ประโยชน์จากกฎความแตกต่างของเมทริกซ์ซึ่งเราสามารถทำได้ สมัครที่นี่เป็น : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@ จาห์นคุณช่วยอธิบายได้ว่ากลายเป็นอย่างไร? ฉันคิดว่าคุณเพิ่งใช้ทรานสโพสต์กับมันใช่ไหม แต่คุณไม่สามารถใช้ทรานสโพสในเทอมเดียวได้โดยไม่ต้องใช้มันในสมการทั้งหมด สิ่งที่ฉันหายไปที่นี่?
yTXβ
βTXTy
นักบวช

1
@theateist สเกลาร์ transposed เป็นสเกลาร์เดียวกัน
Konstantin

2

มีบางสิ่งที่สำคัญที่ขาดหายไปในคำตอบที่ได้รับ

  1. วิธีแก้ปัญหาสำหรับมาจากเงื่อนไขที่จำเป็นในการสั่งซื้อครั้งแรก:ซึ่งให้ผลผลิตI) แต่สิ่งนี้เพียงพอหรือไม่ นั่นคือการแก้ปัญหาเป็นขั้นต่ำทั่วโลกเฉพาะเมื่อนูนอย่างเคร่งครัด สิ่งนี้สามารถแสดงให้เห็นว่าเป็นจริงβfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. อีกวิธีในการดูปัญหาคือดูความสมดุลระหว่างและจำกัด เพื่อที OLS ย่อมาจาก Ordinary Least Squares จากมุมมองนี้เป็นเพียงฟังก์ชัน Lagrangian ที่ใช้ในการค้นหา global minima ของฟังก์ชันวัตถุประสงค์นูนจำกัด ด้วยฟังก์ชันนูน .fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

คำอธิบายที่ดีเกี่ยวกับประเด็นเหล่านี้และการได้มาของสามารถพบได้ในบันทึกการบรรยายที่ดีเหล่านี้: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.