วิธีการหาค่าสัมประสิทธิ์การถดถอย


14

ในการถดถอยสันฟังก์ชันวัตถุประสงค์ที่จะลดลงคือ

RSS+λβj2.

สิ่งนี้สามารถเพิ่มประสิทธิภาพโดยใช้วิธีการเพิ่มทวีคูณ หรือมันคือความแตกต่างตรง?


1
อะไรคือความเชื่อมโยงระหว่างชื่อ (ซึ่งเน้นที่λ ) และคำถาม (ซึ่งดูเหมือนจะเกี่ยวกับβj ) ฉันกังวลว่า "ได้รับการปรับปรุงให้ดีที่สุด" อาจมีการตีความที่แตกต่างกันอย่างชัดเจนโดยขึ้นอยู่กับว่าตัวแปรใดบ้างที่ถูกพิจารณาว่าเป็นตัวแปรที่สามารถเปลี่ยนแปลงได้
whuber

1
ขอบคุณที่แก้ไขคำถาม ฉันได้อ่านว่าถูกพบโดยการตรวจสอบข้าม - แต่ผมเชื่อว่าวิธีการที่คุณมีβ เจอยู่แล้วและใช้ข้อมูลที่แตกต่างกันเพื่อหาสิ่งที่ดีที่สุดλคำถามคือ - วิธีการที่คุณจะพบβ J 's ในสถานที่แรก เมื่อλเป็นไม่ทราบ? λβjλβjλ
Minaj

คำตอบ:


22

มีสองสูตรสำหรับปัญหาสัน อันแรกก็คือ

βR=argminβ(yXβ)(yXβ)

ภายใต้

jβj2s.

สูตรนี้แสดงข้อ จำกัด ด้านขนาดของสัมประสิทธิ์การถดถอย สังเกตว่าข้อ จำกัด นี้มีความหมายว่าอย่างไร เราจะบังคับให้ค่าสัมประสิทธิ์การโกหกบอลรอบต้นกำเนิดที่มีรัศมี{s}s

สูตรที่สองคือปัญหาของคุณ

βR=argminβ(yXβ)(yXβ)+λβj2

ซึ่งอาจถูกมองว่าเป็นสูตรคูณทวีคูณ Largrange โปรดทราบว่าที่นี่เป็นพารามิเตอร์การปรับแต่งและค่าที่มากขึ้นของมันจะนำไปสู่การหดตัวมากขึ้น คุณสามารถแยกความแตกต่างของนิพจน์ที่เกี่ยวข้องกับและรับตัวประมาณสันที่รู้จักกันดีบีตาλβ

(1)βR=(XX+λI)1Xy

ทั้งสองสูตรเทียบเท่าสมบูรณ์เนื่องจากมีการติดต่อแบบหนึ่งต่อหนึ่งระหว่างและ\λsλ

ขอผมอธิบายเพิ่มเติมหน่อย ลองนึกภาพว่าคุณอยู่ในกรณีมุมฉากเหมาะ{I} นี่เป็นสถานการณ์ที่เรียบง่ายและไม่สมจริง แต่เราสามารถตรวจสอบตัวประมาณได้อย่างใกล้ชิดดังนั้นโปรดอดทนกับฉัน พิจารณาสิ่งที่เกิดขึ้นกับสมการ (1) ตัวประมาณค่าสันเขาลดลงไปXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

เช่นเดียวกับในกรณีมุมฉาก OLS ประมาณการจะได้รับจาก{y} ดูส่วนประกอบที่ชาญฉลาดตอนนี้เราได้รับแล้วβOLS=Xy

(2)βR=βOLS1+λ

สังเกตว่าตอนนี้การหดตัวนั้นคงที่สำหรับค่าสัมประสิทธิ์ทั้งหมด สิ่งนี้อาจไม่ถือในกรณีทั่วไปและแน่นอนมันสามารถแสดงให้เห็นว่าการหดตัวจะแตกต่างกันอย่างกว้างขวางหากมีความเสื่อมในเมทริกซ์XX

แต่ขอกลับไปที่ปัญหาการปรับให้เหมาะสมแบบ จำกัด โดยทฤษฎี KKTที่จำเป็นเงื่อนไขในการ optimality คือ

λ(βR,j2s)=0

ดังนั้นหรือ (ในกรณีนี้เราบอกว่าข้อ จำกัด มีผลผูกพัน) ถ้าจะไม่มีการลงโทษและเรากลับมาอยู่ในสถานการณ์ปกติของ OLS สมมติว่าข้อ จำกัด มีผลผูกพันและเราอยู่ในสถานการณ์ที่สอง ใช้สูตรใน (2) เราก็มีβ 2 R , j - s = 0 λ = 0λ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

เราได้มาจากไหน

λ=βOLS,j2s1

ความสัมพันธ์แบบหนึ่งต่อหนึ่งถูกอ้างสิทธิ์ก่อนหน้านี้ ฉันคาดหวังว่าสิ่งนี้จะยากกว่าที่จะสร้างในกรณีที่ไม่ใช่มุมฉาก แต่ผลลัพธ์จะดำเนินการโดยไม่คำนึงถึง

ดูอีกครั้งที่ (2) และแม้ว่าคุณจะเห็นเรายังคงหายไป\ในการรับค่าที่ดีที่สุดคุณสามารถใช้การตรวจสอบข้ามหรือดูร่องรอยของสันเขา วิธีหลังเกี่ยวข้องกับการสร้างลำดับของใน (0,1) และดูว่าการประมาณการเปลี่ยนแปลงอย่างไร จากนั้นคุณเลือกที่ทำให้เสถียร วิธีนี้เป็นวิธีที่แนะนำในครั้งที่สองของการอ้างอิงด้านล่างโดยวิธีการและเป็นวิธีที่เก่าแก่ที่สุดλ λλλλ

อ้างอิง

Hoerl, Arthur E. , และ Robert W. Kennard "การถดถอยของสันเขา: การประเมินแบบเอนเอียงสำหรับปัญหาที่ไม่เกี่ยวข้องกับภาคอื่น" Technometrics 12.1 (1970): 55-67

Hoerl, Arthur E. , และ Robert W. Kennard "การถดถอยของสันเขา: แอปพลิเคชันสำหรับปัญหาที่ไม่เกี่ยวกับนอกรีต" เทคนิค 12.1 (1970): 69-82


2
@Minaj Ridge ถดถอยมีการหดตัวคงที่สำหรับค่าสัมประสิทธิ์ทั้งหมด (นอกเหนือจากการสกัดกั้น) นั่นเป็นสาเหตุที่มีเพียงตัวคูณเดียว
JohnK

2
@amoeba นี่คือข้อเสนอแนะโดย Hoerl และ Kennard ผู้แนะนำสันเขาถดถอยในปี 1970 จากประสบการณ์ของพวกเขา - และของฉัน - ค่าสัมประสิทธิ์จะคงที่ในช่วงเวลานั้นแม้จะอยู่ในระดับที่สูงมากของความหลากสี แน่นอนว่านี่เป็นกลยุทธ์เชิงประจักษ์ดังนั้นจึงไม่รับประกันว่าจะทำงานตลอดเวลา
JohnK

2
นอกจากนี้คุณยังสามารถใช้วิธีการหลอกแบบสังเกตการณ์และรับค่าประมาณโดยไม่มีอะไรซับซ้อนกว่าโปรแกรมการถดถอยกำลังสองน้อยที่สุด คุณยังสามารถตรวจสอบผลกระทบของการเปลี่ยนในแบบเดียวกัน λ
Glen_b -Reinstate Monica

2
@amoeba มันเป็นความจริงที่สันเขาไม่ได้แปรขบวนนั่นเป็นเหตุผลว่าทำไมจึงเป็นเรื่องธรรมดาที่จะสร้างมาตรฐานของข้อมูลไว้ล่วงหน้า ฉันได้รวมการอ้างอิงที่เกี่ยวข้องในกรณีที่คุณต้องการดู พวกเขาน่าสนใจอย่างมากและไม่ใช่เทคนิค
JohnK

2
@JohnK ในผลการถดถอยสัน shrinks แต่ละตามจำนวนเงินที่แตกต่างกันดังนั้นการหดตัวไม่คงที่แม้ว่าจะมีเพียงคนเดียวคือการหดตัวพารามิเตอร์\λβλ
Frank Harrell

4

หนังสือของฉันถดถอยการสร้างแบบจำลองกลยุทธ์การขุดคุ้ยการใช้งานที่มีประสิทธิภาพของเอไอซีในการเลือก\สิ่งนี้มาจากความน่าจะเป็นบันทึกการลงโทษและองศาอิสระที่มีประสิทธิภาพซึ่งภายหลังเป็นหน้าที่ของความแตกต่างของที่ลดลงโดยการลงโทษ นำเสนอเกี่ยวกับเรื่องนี้ที่นี่ แพ็คเกจR พบที่ปรับประสิทธิภาพ AIC ให้เหมาะสมและยังอนุญาตให้ปรับค่าพารามิเตอร์หลายค่าได้ (เช่นหนึ่งสำหรับเอฟเฟ็กต์หลักเชิงเส้นหนึ่งอันสำหรับเอฟเฟ็กต์แบบไม่เชิงเส้นหนึ่งสำหรับเอฟเฟกต์เชิงเส้นเชิงเส้นบีตา λλβ^rmspentraceλ


1
+1 อะไรที่คุณคิดว่าการใช้ลาหนึ่งเอาข้อผิดพลาด CV คำนวณผ่านสูตรอย่างชัดเจน (เช่นโดยไม่ต้องปฏิบัติจริง CV) สำหรับการเลือก ? คุณมีความคิดเห็นเกี่ยวกับวิธีการเปรียบเทียบกับ "effective AIC" หรือไม่? λ
อะมีบาพูดว่า Reinstate Monica

ฉันไม่ได้ศึกษาเรื่องนั้น LOOCV ใช้การคำนวณจำนวนมาก
Frank Harrell

ไม่ได้ถ้าสูตรอย่างชัดเจนมีการใช้งาน: stats.stackexchange.com/questions/32542
อะมีบาพูดว่า Reinstate Monica

1
สูตรนั้นใช้ได้กับกรณีพิเศษของ OLS ไม่ใช่เพื่อโอกาสสูงสุดโดยทั่วไป แต่มีสูตรโดยประมาณโดยใช้คะแนนที่เหลืออยู่ ฉันรู้ว่าเรากำลังพูดถึง OLS เป็นหลักในการสนทนานี้
Frank Harrell

1

ฉันไม่ได้ทำการวิเคราะห์ แต่เป็นตัวเลข ฉันมักจะพล็อต RMSE กับλเช่น:

ป้อนคำอธิบายรูปภาพที่นี่

รูปที่ 1 RMSE และค่าคงที่λหรืออัลฟ่า


นี่หมายความว่าคุณแก้ไขค่าที่แน่นอนของแล้วแยกความแตกต่างของนิพจน์เพื่อค้นหาหลังจากนั้นคุณคำนวณ RMSE และทำกระบวนการทั้งหมดใหม่อีกครั้งเพื่อหาค่าของหรือไม่ บีตาเจ λλβjλ
Minaj
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.