แสดงว่าตัวประมาณ OLS เป็นมาตราส่วนที่เท่ากันหรือไม่


11

ฉันไม่ได้มีคำจำกัดความที่เป็นทางการของสเกลความแตกต่างขนาด แต่นี่คือสิ่งที่รู้เบื้องต้นเกี่ยวกับสถิติการเรียนรู้พูดเกี่ยวกับเรื่องนี้ในหน้า 217:

มาตรฐานไม่น้อยกว่าค่าสัมประสิทธิ์สี่เหลี่ยม ... มีequivariant ขนาด : คูณโดยคงเพียงแค่นำไปสู่การปรับขนาดอย่างน้อยสี่เหลี่ยมประมาณการค่าสัมประสิทธิ์โดยปัจจัยของ CXjc1/c

สำหรับความเรียบง่ายสมมติว่าโมเดลเชิงเส้นทั่วไปy=Xβ+ϵโดยที่yRN , Xคือเมทริกซ์N×(p+1) (โดยที่p+1<N ) พร้อมกับรายการทั้งหมดในR , βRp+1และϵเป็นNเวกเตอร์มิติของตัวแปรสุ่มค่าจริงกับE[ϵ]=0N×11}

จากการประมาณค่า OLS เรารู้ว่าถ้าXมีอันดับเต็ม (คอลัมน์)

β^X=(XTX)1XTy.
สมมติว่าเราคูณคอลัมน์X , พูดxkสำหรับk{1,2,,p+1}โดยคงc00 นี่จะเท่ากับเมทริกซ์
X[111c11]S=[x1x2cxkxp+1]X~
ที่รายการอื่น ๆ ทั้งหมดของเมทริกซ์Sข้างต้นเป็น0และcอยู่ในkรายการของเส้นทแยงมุมของ TH S{S} จากนั้นX~X~เป็นเมทริกซ์การออกแบบใหม่คือ
β^X~=(X~TX~)1X~Ty.
หลังจากทำงานเสร็จแล้วเราสามารถแสดงให้เห็นว่า
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} และ
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
ฉันจะไปจากที่นี่เพื่อแสดงการอ้างสิทธิ์ที่กล่าวถึงข้างต้นได้อย่างไร (นั่นคือβ^X~=1cβ^X )? มันไม่ชัดเจนให้ฉันวิธีการคำนวณ(X~TX~)11}

ฉันคิดว่าไม่ถูกต้องมันขาดคูณในแถวทั้งหมด X~TX~c
Firebug

1
โปรดจำไว้ว่าการอ้างสิทธิ์คือไม่ใช่ทุกคน\β^k,new=1cβ^k,oldβ
Firebug

@ Firebug ใช่ฉันเพิ่งคิดออกว่า ฉันโพสต์คำตอบ
คลาริเน็ต

2
คุณสามารถเปลี่ยนทุกพีชคณิตนี้โดยการวิเคราะห์หน่วยง่ายมากเพราะคูณโดยเพียงการเปลี่ยนแปลงหน่วยของการวัดและดังนั้นจึงมีการเปลี่ยนแปลงที่สอดคล้องกันในหน่วยงานที่เกี่ยวข้องกับค่าสัมประสิทธิ์คือการหารด้วยคไม่ได้พิสูจน์ว่าต้องถูกหารด้วยน่าเสียดาย อย่างไรก็ตามห่วงโซ่ความคิดนี้อาจเตือนเราว่าการถดถอยหลายครั้งสามารถดำเนินการได้โดยการสืบทอดการถดถอยหนึ่งครั้งต่อการถดถอยหนึ่งครั้งซึ่งเห็นได้ชัดว่าถูกหารด้วยและดังนั้นการพิสูจน์จึงสมบูรณ์ Xjcβjcβ^jcβ^jc
whuber

@whuber ในขณะที่สัญชาตญาณของผลลัพธ์ชัดเจน แต่ดูเหมือนว่าจะต้องมีพีชคณิตนิดหน่อยในการพิสูจน์ หลังจากที่ทุกปัจจัยปรับจะต้องมีการคว่ำ c
user795305

คำตอบ:


11

เนื่องจากการยืนยันในใบเสนอราคาคือชุดของข้อความสั่งเกี่ยวกับการลดขนาดคอลัมน์ของคุณอาจพิสูจน์ได้ทั้งหมดในคราวเดียว อันที่จริงมันไม่ได้ใช้งานอีกต่อไปที่จะพิสูจน์ความเป็นมาตรฐานของการยืนยัน:X

เมื่อถูกขวาคูณโดย invertible เมทริกซ์แล้วประมาณการค่าสัมประสิทธิ์ใหม่เท่ากับเท้าซ้ายทางขวาคูณด้วย1}XAβ^Aβ^A1

ข้อเท็จจริงเกี่ยวกับพีชคณิตเพียงอย่างเดียวที่คุณต้องการคือ (พิสูจน์ได้ง่ายและเป็นที่รู้จักกันดี) ที่สำหรับเมทริกซ์ใด ๆและสำหรับการฝึกอบรม invertible และB(รุ่นที่ชัดเจนของหลังเป็นสิ่งจำเป็นเมื่อทำงานกับแปรผกผันกันทั่วไปสำหรับ invertible และและใด ๆ ,1} )(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


พิสูจน์โดยพีชคณิต :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED (เพื่อให้การพิสูจน์นี้เป็นแบบทั่วไปอย่างสมบูรณ์ตัวยกหมายถึงสิ่งที่ตรงกันข้ามทั่วไป)


พิสูจน์ด้วยเรขาคณิต :

ฐานที่กำหนดและของและตามลำดับหมายถึงการแปลงเชิงเส้นจากจะ n การคูณด้วยทางขวานั้นถือว่าเป็นการคงการเปลี่ยนแปลงนี้ไว้แต่การเปลี่ยนเป็น (นั่นคือเป็นคอลัมน์ของ ) ภายใต้การเปลี่ยนแปลงของพื้นฐานที่ว่าตัวแทนของใด ๆเวกเตอร์ต้องเปลี่ยนผ่านทางซ้ายคูณโดย ,EpEnRnRpXRpRnXAEpAEpAβ^RpA1QED

(หลักฐานนี้ใช้งานไม่ได้แก้ไขแม้เมื่อไม่สามารถย้อนกลับได้)XX


ใบเสนอราคาโดยเฉพาะหมายถึงกรณีของเมทริกซ์ทแยงมุมกับสำหรับและ cAAii=1ijAjj=c


เชื่อมต่อกับกำลังสองน้อยที่สุด

วัตถุประสงค์นี่คือการใช้หลักการแรกเพื่อให้ได้ผลลัพธ์โดยมีหลักการที่ว่ากำลังสองน้อยที่สุด: การประมาณค่าสัมประสิทธิ์ที่ลดผลรวมของกำลังสองของการตกค้าง

อีกครั้งการพิสูจน์ความกว้าง (ใหญ่) พิสูจน์ไม่ยากและค่อนข้างเปิดเผย สมมติว่าคือแผนที่ใด ๆ (เชิงเส้นหรือไม่) ของเวกเตอร์พื้นที่จริงและคิดว่าใด ๆ ฟังก์ชั่นมูลค่าจริงใน n ปล่อยให้เป็นชุด (อาจว่างเปล่า) ของคะแนนซึ่งย่อเล็กสุด

ϕ:VpWn
QWnUVpvQ(ϕ(v))

ส่งผลให้เกิด: ซึ่งจะถูกกำหนด แต่เพียงผู้เดียวโดยและไม่ได้ขึ้นอยู่กับทางเลือกของพื้นฐานใด ๆใช้แทนเวกเตอร์ใน PUQϕEpVp

พิสูจน์: QED

ไม่มีอะไรจะพิสูจน์!

แอปพลิเคชันของผลลัพธ์:ให้เป็นรูปสมการกำลังสอง semidefinite เชิงบวกบน , ให้ , และสมมติว่าเป็นแผนที่เชิงเส้นที่แทนด้วยเมื่อฐานของและถูกเลือก กำหนดx) เลือกพื้นฐานของและสมมติว่าเป็นตัวแทนของบางอย่างในพื้นฐานนั้น นี่คือสองน้อยที่สุด :ลดระยะ Squaredx) เพราะFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xเป็นเส้นแผนที่การเปลี่ยนแปลงพื้นฐานของสอดคล้องกับขวาคูณโดยบางส่วนผกผันเมทริกซ์ ที่จะซ้ายคูณโดย , QEDRpXAβ^A1


6

กำหนดตัวประมาณกำลังสองน้อยที่สุดที่เมทริกซ์การออกแบบมีระดับเต็ม สมมติว่าเมทริกซ์การปรับกลับด้านได้β^=argminβRpyXβ22XRn×pSRp×p

กำหนดใหม่นี้ปรับขนาดประมาณการ 2 ซึ่งหมายความว่าสำหรับทั้งหมด การนิยามเราสามารถเขียนความไม่เท่าเทียมกันที่แสดงด้านบนเป็นสำหรับทั้งหมด\ ดังนั้นและตามด้วยตัวประมาณกำลังสองน้อยที่สุด start เนื่องจากการกลับหัวของเมทริกซ์การปรับขนาดα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
Sมันตามที่\ ในกรณีของเรานี้แตกต่างจากโดยรายการถูกปรับขนาดโดย{C}α~=S1β^β^kth1c

1
ฉันไม่คุ้นเคยกับการทำงานกับและฟังก์ชั่นที่คล้ายกันคุณช่วยอธิบายการเปลี่ยนจากสมการที่สองเป็นบรรทัดที่สามได้ไหม? arg min
Clarinetist

ฉันเขียนมันต่างออกไปเล็กน้อยซึ่งน่าจะทำให้ขั้นตอนชัดเจนขึ้น
user795305

นี่ฉลาดจริงๆ (+1)
คลาริเน็ต

4

ฉันคิดออกหลังจากโพสต์คำถาม อย่างไรก็ตามหากงานของฉันถูกต้องฉันก็ตีความการอ้างสิทธิ์ผิด ๆ ปรับเกิดขึ้นเฉพาะในองค์ประกอบหนึ่งของสอดคล้องกับคอลัมน์ของถูกคูณด้วยค1cβXc

ขอให้สังเกตว่าในสัญกรณ์ข้างต้นเป็นเส้นทแยงมุมสมมาตรเมทริกซ์และมีการผกผัน (เพราะมันเป็นแนวทแยงมุม) โปรดสังเกตว่าเป็นเมทริกซ์สมมติว่า S(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
ดังนั้น และคูณด้วยมีผลคล้ายกับสิ่งที่คูณโดยได้ - มันยังคงเหมือนเดิมถูกคูณด้วย
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : ดังนั้น
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
ตามที่ต้องการ

มีการพิมพ์ผิดใน{y} คุณจำเป็นต้อง transpose{S}) S1(XTX)1S1(XS)y(XS)
JohnK

3

หลักฐานที่ไม่สำคัญที่สุดเท่าที่เคยมีมา

คุณเริ่มต้นด้วยสมการเชิงเส้นของคุณ: ตอนนี้คุณต้องการเปลี่ยนสเกลของ regressors ของคุณอาจแปลงจากระบบเมตริกเป็น Imperial คุณรู้กิโลกรัมเป็นปอนด์เมตรเป็นหลาเป็นต้นคุณก็จะเกิดขึ้น กับการแปลงเมทริกซ์ซึ่งแต่ละเป็นค่าสัมประสิทธิ์การแปลงสำหรับตัวแปร (คอลัมน์)ในการออกแบบเมทริกซ์X

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

ลองเขียนสมการอีกครั้ง:

Y=(XS)(S1β)+ε

ตอนนี้เห็นได้ชัดว่าการปรับขนาดเป็นสมบัติของความเป็นเชิงเส้นของสมการของคุณไม่ใช่วิธี OLS ของการประมาณค่าสัมประสิทธิ์ โดยไม่คำนึงถึงวิธีการประมาณค่าด้วยสมการเชิงเส้นคุณจะเห็นว่าเมื่อรีจีสเตอร์ถูกปรับขนาดเป็นค่าสัมประสิทธิ์ใหม่ของคุณควรถูกปรับสัดส่วนเป็นXSS1β

พิสูจน์โดยพีชคณิตสำหรับ OLS เท่านั้น

มาตราส่วนคือ: ที่ปัจจัยระดับของแต่ละตัวแปร (คอลัมน์) และรุ่นปรับขนาดของXขอเรียกขนาดเส้นทแยงมุมเมทริกซ์s_n) ตัวประมาณ OLS ของคุณคือ ลองเสียบเมทริกซ์ที่มีขนาดแทนและใช้พีชคณิตเมทริกซ์ : ดังนั้นคุณจะเห็นว่าค่าสัมประสิทธิ์ใหม่เป็นเพียงค่าสัมประสิทธิ์เก่าที่ลดลงตามที่คาดไว้

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
ฉันชอบแนวทางของคุณ แต่ไม่มั่นใจใน "หลักฐานที่น่าจดจำที่สุด" คุณสันนิษฐานโดยปริยายและยังคงต้องแสดงว่าโมเดลที่เขียนใหม่จะต้องมีขนาดพอดีกับต้นฉบับหากต้องการดูอย่างเข้มงวดยิ่งขึ้น: หากเราดูขั้นตอนการปรับให้เหมาะสมเป็นฟังก์ชั่นโดยที่คือชุดของข้อมูลที่เป็นไปได้ทั้งหมด (ซึ่งเราสามารถเขียนเป็นคู่ที่ได้รับคำสั่ง ) และเป็นชุดของการประมาณค่าสัมประสิทธิ์ที่เป็นไปได้ทั้งหมดจากนั้นคุณต้องแสดงให้เห็นว่าสำหรับทุก invertibleทั้งหมดและทุกY(นี่ไม่จริงเสมอไป!)δ:MRpM(X,Y)Rpδ(X,Y)=S1δ(XS,Y)SXY
เสียงหวีด

@ โฮเบอร์จริงๆแล้วเป็นอีกวิธีหนึ่ง: ขั้นตอนการปรับที่เหมาะสมควรเป็นไปตามเงื่อนไขนี้มิฉะนั้นการเปลี่ยนแปลงหน่วยวัดอย่างง่ายจะทำให้การคาดการณ์ / การคาดการณ์แตกต่างกัน ฉันจะอัปเดตคำตอบของฉันจะลองคิดดูสักหน่อย
Aksakal

ฉันเห็นด้วย - แต่ฉันสามารถจินตนาการได้ว่ามีข้อยกเว้นในกรณีที่ไม่ได้เป็นอันดับเต็ม นั่นคือสิ่งที่แนะนำให้ฉันรู้สถานการณ์ก็ไม่ได้สำคัญอะไรอย่างที่คิด X
whuber

3
คู่ครองของจักรพรรดิไม่ใช่พระราช ... : D (คำตอบที่ดี +1)
usεr11852

@ usεr11852ฉันได้เรียนรู้บางสิ่งบางอย่างในวันนี้ :)
Aksakal

2

วิธีง่ายๆในการรับผลลัพธ์นี้คือการจำไว้ว่าคือการฉายภาพของบนพื้นที่คอลัมน์ของเป็นเวกเตอร์ของสัมประสิทธิ์เมื่อแสดงเป็นเส้นตรง การรวมกันของคอลัมน์ของXถ้าคอลัมน์บางส่วนจะถูกปรับขนาดโดยปัจจัยก็เป็นที่ชัดเจนว่าค่าสัมประสิทธิ์ที่สอดคล้องกันในการรวมกันเชิงเส้นจะต้องมีการปรับขนาดโดย Cy^yX. β^y^Xc1/c

ให้เป็นค่าของและเป็นค่าของโซลูชัน OLS เมื่อหนึ่งคอลัมน์ถูกปรับอัตราส่วนโดยbiβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

หมายความว่าโดยที่และสมมติว่าคอลัมน์ของมีความเป็นอิสระเชิงเส้นbj=ajjibi=aicX

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.