จะหาค่าตัวประมาณกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นหลายเส้นได้อย่างไร


30

ในกรณีที่เรียบง่ายเชิงเส้นถดถอยy=β0+β1xคุณสามารถได้รับมาอย่างน้อยประมาณตารางβ 1 = Σ ( x ฉัน - ˉ x ) ( Y ฉัน - ˉ Y )β^1=(xix¯)(yiy¯)(xix¯)2เช่นที่คุณไม่จำเป็นต้องรู้ β 0เพื่อประเมิน β 1β^0β^1

สมมติว่าฉันมีy=β1x1+β2x2 , วิธีการที่ฉันไม่ได้รับมาβ 1โดยไม่ต้องประเมินβ 2 ? หรือเป็นไปไม่ได้?β^1β^2


1
คุณสามารถละเว้นตัวแปรตัวใดตัวหนึ่งได้และยังคงได้ค่าประมาณของค่าอื่น ๆ ที่ไม่เอนเอียงหากเป็นอิสระ
david25272

คำตอบ:


51

ที่มาในสัญกรณ์เมทริกซ์

เริ่มจากy=Xb+ϵซึ่งจริงๆแล้วก็เหมือนกับ

[y1y2yN]=[x11x12x1Kx21x22x2KxN1xN2xNK][b1b2bK]+[ϵ1ϵ2ϵN]

มันทั้งหมดลงมาเพื่อ minimzing :ee

ϵϵ=[e1e2eN][e1e2eN]=i=1Nei2

ดังนั้นการลดขนาดให้กับเรา:ee

e e = ( y - X b ) ( y - X b )minb ee=(yXb)(yXb)

e e = y y - 2 b X y + b X X bminb ee=yy2bXy+bXXb

(ee)b=2Xy+2XXb=!0

XXb=Xy

b=(XX)1Xy

สิ่งสุดท้ายทางคณิตศาสตร์เงื่อนไขลำดับที่สองสำหรับค่าต่ำสุดกำหนดให้เมทริกซ์นั้นเป็นค่าบวกแน่นอน ข้อกำหนดนี้เป็นจริงในกรณีที่Xมีอันดับเต็มXXX

ความแม่นยำที่มาซึ่งผ่านขั้นตอนทั้งหมดในเชิงลึกมากขึ้นสามารถดูได้ที่http://economictheoryblog.com/2015/02/19/ols_estimator/


3
รากศัพท์นี้เป็นสิ่งที่ฉันกำลังค้นหา ไม่มีขั้นตอนที่ข้ามได้ น่าแปลกใจที่หายากเหมือนกัน
javadba

1
ในสมการเมทริกซ์อันที่สองไม่ควร*เป็น+? นอกจากนี้ไม่ควรเป็นแทนb Nเพื่อให้มิติตรงกัน bKbN
Alexis Olson

อเล็กซิสโอลสันคุณพูดถูก! ฉันแก้ไขคำตอบของฉัน
Andreas Dibiasi

13

เป็นไปได้ที่จะประมาณค่าสัมประสิทธิ์เพียงอย่างเดียวในการถดถอยแบบหลายค่าโดยไม่ต้องประมาณค่าอื่น ๆ

β1x2yx1


ในกรณีปัจจุบันการถดถอยหลายครั้งสามารถทำได้โดยใช้สามขั้นตอนการถดถอยปกติ:

  1. yx2y=αy,2x2+δ

    αy,2=iyix2iix2i2.
    δ=yαy,2x2.
    δyx2
  2. x1x2x1=α1,2x2+γ

    α1,2=ix1ix2iix2i2.
    γ=x1α1,2x2.
    γx1x2
  3. δγ

    β^1=iδiγiiγi2.
    δ=β^1γ+εβ^1δyx2γx1x2

β2β^0β^1εyx1x2

x2

β^1yx1y


1
คำตอบที่ยอดเยี่ยมนี่คือทฤษฎีบททั่วไปen.wikipedia.org/wiki/…
JohnK

4

ββYiXki

(β0,β1,...,βk)

Yi=β0+β1X1i+...+βkXki+ϵi

ϵiiidN(0,σ2)i=1,...,nXn×knkthXkβ^=(β^0,β^1,...,β^k)ซึ่งก็คือ

β^=(XX)1XY

สมมติว่าสิ่งที่ตรงกันข้ามมีอยู่ ค่าสัมประสิทธิ์โดยประมาณเป็นหน้าที่ของข้อมูลไม่ใช่จากค่าสัมประสิทธิ์โดยประมาณอื่น ๆ(XX)1


ฉันมีคำถามติดตามในกรณีการถดถอยแบบง่ายคุณสร้างจากนั้นกลายเป็นเมทริกซ์ของและจากนั้นทำตามผ่าน\ฉันควรเขียนสมการใหม่ในกรณีของฉันอย่างไร yi=β0+β1x¯+β1(xix¯)+eiX(1,...,1)(x1x¯,...,xnx¯)β^=(XX)(1)XY
เซเบอร์ CN

และคำถามอีก 1 ข้อสิ่งนี้นำไปใช้กับกรณีที่และไม่ตรงหรือไม่ แต่โมเดลยังคงเป็นเชิงเส้นหรือไม่ ตัวอย่างเช่นเส้นโค้งการสลายฉันจะแทนที่เลขชี้กำลังด้วยและดังนั้นมันจึงกลายเป็นคำถามเดิมของฉัน x1x2y=β1ex1t+β2ex2tx1x2
เซเบอร์ CN

ในความคิดเห็นแรกของคุณคุณสามารถจัดกึ่งกลางของตัวแปร (ลบค่าเฉลี่ยของมันออก) และใช้นั่นคือตัวแปรอิสระของคุณ ค้นหา "การถดถอยมาตรฐาน" สูตรที่คุณเขียนในรูปของเมทริกซ์ไม่ถูกต้อง สำหรับคำถามที่สองของคุณคุณอาจทำเช่นนั้นแบบจำลองเชิงเส้นคือแบบเชิงเส้นในดังนั้นตราบใดที่เท่ากับการรวมเชิงเส้นของคุณก็โอเค βyβ
caburke

2
(+1) แต่ไม่ควรเป็น " matrix" แทนที่จะเป็น ? n×kk×n
miura

3

หมายเหตุเล็กน้อยหนึ่งเกี่ยวกับทฤษฎีและการปฏิบัติ ทางคณิตศาสตร์สามารถประมาณได้ด้วยสูตรต่อไปนี้:β0,β1,β2...βn

β^=(XX)1XY

โดยที่คือข้อมูลอินพุตดั้งเดิมและเป็นตัวแปรที่เราต้องการประมาณ สิ่งนี้ตามมาจากการลดข้อผิดพลาดให้น้อยที่สุด ฉันจะทำสิ่งนี้ก่อนที่จะทำประเด็นเล็ก ๆXY

ให้มีข้อผิดพลาดที่ทำให้การถดถอยเชิงเส้นที่จุดฉันแล้ว:eii

ei=yiyi^

ข้อผิดพลาดกำลังสองทั้งหมดที่เราทำคือตอนนี้:

i=1nei2=i=1n(yiyi^)2

เพราะเรามีโมเดลเชิงเส้นเรารู้ว่า:

yi^=β0+β1x1,i+β2x2,i+...+βnxn,i

ซึ่งสามารถเขียนใหม่ในเมทริกซ์สัญกรณ์เป็น:

Y^=Xβ

เรารู้ว่า

i=1nei2=EE

เราต้องการลดข้อผิดพลาดกำลังสองทั้งหมดให้น้อยที่สุดเท่าที่จะทำได้

EE=(YY^)(YY^)

นี่เท่ากับ:

EE=(YXβ)(YXβ)

การเขียนใหม่อาจดูสับสน แต่มันมาจากพีชคณิตเชิงเส้น ขอให้สังเกตว่าเมทริกซ์ทำงานคล้ายกับตัวแปรเมื่อเราคูณมันในบางเรื่อง

เราต้องการค้นหาค่าของเพื่อให้นิพจน์นี้มีขนาดเล็กที่สุดเท่าที่จะทำได้ เราจะต้องแยกความแตกต่างและตั้งค่าอนุพันธ์เท่ากับศูนย์ เราใช้กฎลูกโซ่ที่นี่β

dEEdβ=2XY+2XXβ=0

สิ่งนี้ให้:

XXβ=XY

เช่นนั้นในที่สุด:

β=(XX)1XY

ในทางคณิตศาสตร์ดูเหมือนว่าเราจะได้พบทางออก มีปัญหาหนึ่งข้อและนั่นคือนั้นยากมากที่จะคำนวณว่าเมทริกซ์นั้นใหญ่มาก สิ่งนี้อาจทำให้เกิดปัญหาความแม่นยำเชิงตัวเลข อีกวิธีในการค้นหาค่าที่เหมาะสมที่สุดสำหรับในสถานการณ์นี้คือการใช้วิธีการไล่ระดับสีแบบไล่ระดับ ฟังก์ชั่นที่เราต้องการเพิ่มประสิทธิภาพนั้นไม่ได้ถูก จำกัด และนูนดังนั้นเราจะใช้วิธีการไล่ระดับสีในทางปฏิบัติหากจำเป็น (XX)1Xβ


ยกเว้นว่าคุณไม่จำเป็นต้องคำนวณ ...(XX)1
user603

จุดที่ถูกต้อง เราสามารถใช้กระบวนการ gram schmidt ได้ แต่ฉันแค่ต้องการสังเกตว่าการหาค่าที่เหมาะสมที่สุดสำหรับ vector สามารถทำได้ด้วยตัวเลขเนื่องจากความนูน β
Vincent Warmerdam

2

การได้มาอย่างง่ายสามารถทำได้โดยใช้การตีความทางเรขาคณิตของ LR

การถดถอยเชิงเส้นสามารถตีความได้ว่าการฉายของบนพื้นที่คอลัมน์Xดังนั้นข้อผิดพลาดตั้งฉากกับพื้นที่คอลัมน์ของX YXϵ^X

ดังนั้นผลิตภัณฑ์ภายในระหว่างและข้อผิดพลาดจะต้องเป็น 0 คือ X

<X,yXβ^>=0

XyXXβ^=0

Xy=XXβ^

ซึ่งหมายความว่า

(XX)1Xy=β^เบต้า}

ตอนนี้สามารถทำได้โดย:

(1) การฉายบน (ข้อผิดพลาด ), ,YX2δ=YX2D^D^=(X2X2)1X2y

(2) การฉายสู่ (ข้อผิดพลาด ), ,X 2 γ = X 1 - X 2 G G = ( X ' 1 X 1 ) - 1 X 1 X 2X1X2γ=X1X2G^G^=(X1X1)1X1X2

และในที่สุดก็,

(3) การฉายไปยัง ,แกมมาบีตา 1δγβ^1

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.