การถดถอยเชิงเส้นเมื่อคุณรู้จักไม่ใช่โดยตรง


13

สมมติว่า YXβ=Y

เราไม่ทราบว่าตรงเพียงความสัมพันธ์กับแต่ละทำนาย YYXtY

วิธีแก้ปัญหาสแควร์สน้อย (OLS) สามัญคือและไม่มีปัญหาβ=(XtX)1XtY

แต่สมมติว่าอยู่ใกล้เอกพจน์ (multicollinearity) และคุณต้องประเมินพารามิเตอร์สันเขาที่ดีที่สุด ทุกวิธีที่ดูเหมือนว่าจะต้องมีค่าที่แน่นอนของYXtXY

มีวิธีการอื่นเมื่อมีเพียงเป็นที่รู้จักกัน?XtY


คำถามที่น่าสนใจ บางทีอัลกอริทึม EM บางอย่างอาจใช้งานได้ ...
ความน่าจะเป็นทาง

ฉันไม่เข้าใจคุณไม่สามารถใช้การตรวจสอบข้ามเพื่อประเมินค่าพารามิเตอร์สันที่ดีที่สุดได้หรือไม่?
Pardis

@Pardis: ไม่มีฟังก์ชั่นการสูญเสียในคำถามดังนั้นเราจึงไม่ทราบว่าวิธีการที่เหมาะสมที่สุด คุณเห็นปัญหาที่เราพบหรือไม่ถ้าฟังก์ชั่นการสูญเสียคือ MSE?
พระคาร์ดินัล

1
@ JohnSmith: คุณกำลังพูดถึงจุดที่ฉันขับรถไป ไม่มีข้อบ่งชี้ว่าจะวัด "optimality" ได้อย่างไร สิ่งที่คุณกำลังทำอย่างมีประสิทธิภาพคือการแนะนำตัวชี้วัดที่แตกต่างกัน (ฟังก์ชันระยะทาง) เพื่อวัด "คุณภาพ" ของการทำนายหรือแบบ เราต้องการรายละเอียดเพิ่มเติมจาก OP เพื่อให้ได้ไกลมากฉันสงสัย
พระคาร์ดินัล

1
@Pardis: การหาค่าประมาณนั้นไม่ใช่ปัญหาดังที่คุณทราบ :) อย่างไรก็ตามหากคุณตัดสินใจทำ crossvalidation คุณจะประมาณค่า MSE ที่ไม่อยู่ในกลุ่มตัวอย่างเช่นในครึ่งหน้าซ้ายของแต่ละรอบซ้ำได้อย่างไร :)
สำคัญ

คำตอบ:


8

นี่เป็นคำถามที่น่าสนใจ น่าแปลกที่มันเป็นไปได้ที่จะทำอะไรบางอย่างภายใต้สมมติฐานบางอย่าง แต่มีการสูญเสียข้อมูลเกี่ยวกับความแปรปรวนที่เหลือ มันขึ้นอยู่กับXว่าหายไปมากแค่ไหน

ลองพิจารณาดังต่อไปนี้ค่าการสลายตัวเอกพจน์ของกับเมทริกซ์ที่มีคอลัมน์ orthonormal,เส้นทแยงมุมเมทริกซ์ที่มีค่าเอกพจน์บวกในแนวทแยงมุมและ aเมทริกซ์มุมฉาก จากนั้นคอลัมน์ของสร้างพื้นฐาน orthonormal สำหรับพื้นที่คอลัมน์ของและ เป็นเวกเตอร์ของสัมประสิทธิ์สำหรับการประมาณค่าบนพื้นที่คอลัมน์นี้เมื่อขยายใน X U n × P D d 1d 2 . . d p > 0 V p × p U X Z =X=UDVtXUn×pDd1d2...dp>0Vp×pUXY U Z X

Z=UtY=D1VtVDUtY=D1VtXtY
YUพื้นฐาน column จากสูตรที่เราเห็นว่าคำนวณจากความรู้ของและเท่านั้นZXXtY

เนื่องจากการคาดการณ์การถดถอยสันสำหรับสามารถคำนวณได้เป็น เราเห็นว่าสัมประสิทธิ์สำหรับตัวทำนายการถดถอยของสันเขาในรูปแบบ column คือ ตอนนี้เราให้สมมติฐานว่าการกระจายมีหมายถึงมิติและความแปรปรวนเมทริกซ์I_n แล้วมีมิติเฉลี่ยและความแปรปรวนเมทริกซ์I_p ถ้าเราจินตนาการถึงความเป็นอิสระY = X ( X เสื้อ X + λ ฉัน) - 1 X T Y = U D ( D 2 + λ ฉัน) - 1 D Z Y n ξ σ 2 ฉันn Z พียูที ξ σ 2 ฉันP Y ใหม่λ U Z =D( D 2 +λI ) -

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
U
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNewมีการแจกแจงแบบเดียวกับ (ทุกอย่างที่มีเงื่อนไขบนจากที่นี่)สอดคล้องกันมีเหมือนกัน การกระจายเป็นและเป็นอิสระและ นี่คือความเท่าเทียมที่สามตามมาด้วย orthogonality ของและและที่สี่จากความจริงที่ว่าX Z ใหม่ = U T Y ใหม่ Z E | | Y ใหม่- Y | | 2YXZNew=UtYNewZYใหม่-UZใหม่UZใหม่-U Z Uเอ่อ0λ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^Uมีคอลัมน์ปกติ ปริมาณเป็นข้อผิดพลาดที่เราไม่สามารถได้รับข้อมูลใด ๆ เกี่ยวกับ แต่มันไม่ได้ขึ้นอยู่อย่างใดอย่างหนึ่ง เพื่อลดข้อผิดพลาดการทำนายที่ด้านซ้ายมือเราต้องลดคำที่สองทางด้านขวามือให้น้อยที่สุดErr0λ

โดยการคำนวณมาตรฐาน นี่เป็นที่รู้จักกันองศาที่มีประสิทธิภาพของเสรีภาพสำหรับถดถอยสันกับพารามิเตอร์\ตัวประมาณค่าที่เป็นกลางของคือ

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

เรารวมสิ่งนี้เข้ากับตัวประมาณ (ไม่เอนเอียง) ของระบุว่าเรารู้ซึ่งเราต้องลดให้น้อยที่สุด เห็นได้ชัดว่านี้สามารถทำได้ถ้าเรารู้หรือมีการคาดเดาที่เหมาะสมหรือประมาณการของ 2

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

การประมาณอาจเป็นปัญหาได้มากกว่า เป็นไปได้ที่จะแสดงว่า ดังนั้นหากมีความเป็นไปได้ที่จะเลือกน้อยมากจนไม่สามารถให้ความลำเอียงยกกำลังสองเราสามารถลองประมาณเป็น ถ้างานนี้จะขึ้นอยู่มากในXσ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2
σ^2=1pd(λ)||ZZ^||2.
X

สำหรับรายละเอียดบางอย่างดูหัวข้อ 3.4.1 และบทที่ 7 ในการสอนภาษาอังกฤษหรือบางทีอาจจะดียิ่งขึ้นในบทที่ 2 GAM


0

กำหนดตามคำถามและสำหรับพารามิเตอร์ต่างๆและตั้งค่าของตัวอย่างฉลาก จากนั้นคำนวณได้เนื่องจากไม่ทราบเมื่อขยายออกทั้งคู่ บรรทัดฐานββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKY e(λ,K):=Xβ(λ,K)Y2XβY2Y2

สิ่งนี้นำไปสู่อัลกอริทึมต่อไปนี้:

  • คำนวณในการเลือกบางส่วนของการฝึกอบรมชุดKKe(λ,K)K
  • พล็อตผลเป็นหน้าที่ของ\λ
  • ยอมรับค่าของโดยที่เนื้อเรื่องแบนλ
  • ใช้เป็นค่าประมาณสุดท้ายβ=[XTX+λI]1XTY

1
ฉันคาดเดา "ที่พล็อตเป็นราบเรียบ" จะอยู่ที่ขนาดเล็กมากเช่นประมาณ 0 :)λ
jbowman

@jbowman: สิ่งนี้จะเกิดขึ้นก็ต่อเมื่อปัญหาอยู่ในสภาพที่ดีและไม่ต้องการการทำให้เป็นมาตรฐานดังนั้นก็เพียงพอแล้ว ในกรณีที่ไม่มีเงื่อนไขการคาดการณ์ของรายการนอกจะไม่ดีเนื่องจากการใส่เกินและดังนั้นจึงมีขนาดใหญ่ λ=0e ( λ , K )Ke(λ,K)
Arnold Neumaier

3
@ArnoldNeumaier:ไม่สามารถคำนวณได้ เรารู้ความสัมพันธ์กับตัวทำนายแต่ละตัวเท่านั้น อยู่ใน "โดเมนทำนาย" ไม่ได้อยู่ใน "โดเมน Y" (ถ้า N เป็นขนาดตัวอย่างและ p จำนวนผู้ทำนายเรามีค่า p เท่านั้นหนึ่งค่าสำหรับแต่ละตัวทำนาย) ( X T Y )(XTY)K(XTY)
Jag

@Jag: แล้วมีข้อมูลไม่เพียงพอสำหรับการเลือก\แต่ต้องได้รับการรวบรวมอย่างใด หากในระหว่างการรวบรวมคุณแบ่งพาร์ติชันตัวอย่างออกเป็นแบทช์และประกอบแยกต่างหากสำหรับแต่ละแบทช์หนึ่งสามารถสำรองหนึ่งแบทช์แต่ละชุดสำหรับการตรวจสอบข้าม X T Y k X T YλXTYkXTY
Arnold Neumaier

@ArnoldNeumaier:ได้รับจากภายนอกไม่ได้รับการรวบรวม XTY
Jag
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.