คำถามติดแท็ก least-squares

อ้างถึงเทคนิคการประมาณค่าทั่วไปที่เลือกค่าพารามิเตอร์เพื่อลดความแตกต่างกำลังสองระหว่างสองปริมาณเช่นค่าที่สังเกตได้ของตัวแปรและค่าที่คาดหวังของการสังเกตที่กำหนดไว้ในค่าพารามิเตอร์ แบบจำลองเชิงเส้นแบบเกาส์นั้นมีความเหมาะสมน้อยที่สุดและกำลังสองน้อยที่สุดคือแนวคิดที่ใช้การหาค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) เป็นวิธีการประเมินตัวประมาณ

3
ประโยชน์ของทฤษฎีบท Frisch-Waugh
ฉันควรจะสอนทฤษฎีบท Frish Waugh ในสาขาเศรษฐศาสตร์ซึ่งฉันไม่ได้ศึกษา ฉันเข้าใจคณิตศาสตร์ที่อยู่ข้างหลังและฉันก็หวังว่าความคิดนี้เช่นกัน "ค่าสัมประสิทธิ์ที่คุณได้รับสำหรับค่าสัมประสิทธิ์เฉพาะจากแบบจำลองเชิงเส้นหลายเส้นนั้นเท่ากับสัมประสิทธิ์ของตัวแบบการถดถอยอย่างง่ายถ้าคุณ" กำจัด "อิทธิพลของตัวถดถอยอื่น ๆ ดังนั้นแนวคิดทางทฤษฎีจึงเจ๋งมาก (ถ้าฉันเข้าใจผิดโดยสิ้นเชิงฉันยินดีต้อนรับการแก้ไข) แต่มันมีประเพณีดั้งเดิม / การปฏิบัติบางอย่าง? แก้ไข : ฉันยอมรับคำตอบแล้ว แต่ยังยินดีที่จะมีคำตอบใหม่ที่นำตัวอย่าง / แอปพลิเคชันอื่นมาใช้

2
ฟังก์ชั่นที่มีอิทธิพลและ OLS
ฉันพยายามที่จะเข้าใจว่าการทำงานของฟังก์ชั่นมีอิทธิพลอย่างไร มีคนอธิบายได้ในบริบทของการถดถอย OLS แบบง่าย ๆ yi=α+β⋅xi+εiyi=α+β⋅xi+εi\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation} ที่ฉันต้องการฟังก์ชั่นที่มีอิทธิพลสำหรับ\ββ\beta

4
ทำไมเป็น
หมายเหตุ: SSTSSTSST = ผลรวมของกำลังสองรวมSSESSESSE = ผลรวมของข้อผิดพลาดกำลังสองและSSRSSRSSR = ผลรวมการถดถอยของกำลังสอง สมการในชื่อเรื่องมักเขียนเป็น: ∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 คำถามตรงไปตรงมาสวย แต่ฉันกำลังมองหาคำอธิบายที่ใช้งานง่าย อย่างสังหรณ์ใจดูเหมือนว่าฉันชอบSST≥SSE+SSRSST≥SSE+SSRSST\geq SSE+SSRจะทำให้รู้สึกมากขึ้น ตัวอย่างเช่นสมมติว่าจุดxixix_iได้ค่า y ที่สอดคล้องyi=5yi=5y_i=5และYฉัน = 3ที่Yฉันเป็นจุดที่สอดคล้องกันบนเส้นถดถอย นอกจากนี้ยังคิดว่าค่าเฉลี่ยค่า y สำหรับชุดข้อมูลที่เป็นˉ Y = 0 จากนั้นสำหรับจุดนี้ฉัน, Sy^i=3y^i=3\hat y_i=3y^iy^i\hat y_iy¯=0y¯=0\bar y=0SST=(5−0)2=52=25SST=(5−0)2=52=25SST=(5-0)^2=5^2=25ในขณะที่SSE=(5−3)2=22=4SSE=(5−3)2=22=4SSE=(5-3)^2=2^2=4และSSR=(3−0)2=32=9SSR=(3−0)2=32=9SSR=(3-0)^2=3^2=9 9 เห็นได้ชัดว่า9+4&lt;259+4&lt;259+4<25 25 ผลลัพธ์นี้จะไม่ทำให้เป็นชุดข้อมูลทั้งหมดหรือไม่ ฉันไม่เข้าใจ

3
ข้อสมมติฐานในการรับค่าประมาณ OLS
บางคนสามารถอธิบายสั้น ๆ ให้ฉันได้ทำไมจึงต้องใช้สมมติฐานทั้งหกเพื่อคำนวณค่าประมาณ OLS ฉันพบเฉพาะเกี่ยวกับความหลากหลายทางชีวภาพ - ว่าถ้ามันมีอยู่เราไม่สามารถสลับเมทริกซ์ (X'X) และประมาณการตัวประมาณโดยรวม แล้วคนอื่น ๆ (เช่นลิเนียริตี้เชิงเส้นศูนย์ข้อผิดพลาดเฉลี่ย ฯลฯ )?

1
R-squared ในแบบจำลองเชิงเส้นข้อเบี่ยงเบนในแบบจำลองเชิงเส้นทั่วไป?
นี่คือบริบทของฉันสำหรับคำถามนี้: จากสิ่งที่ฉันสามารถบอกได้เราไม่สามารถเรียกใช้การถดถอยกำลังสองน้อยสุดธรรมดาใน R เมื่อใช้ข้อมูลที่มีน้ำหนักและsurveyแพคเกจ ที่นี่เราต้องใช้svyglm()ซึ่งใช้โมเดลเชิงเส้นทั่วไปแทน (ซึ่งอาจเป็นสิ่งเดียวกันหรือไม่ฉันคลุมเครือที่นี่ในแง่ของสิ่งที่แตกต่างกัน) ใน OLS และผ่านlm()ฟังก์ชั่นมันจะคำนวณค่า R-squared ซึ่งเป็นการตีความที่ฉันเข้าใจ อย่างไรก็ตามsvyglm()ดูเหมือนจะไม่สามารถคำนวณสิ่งนี้ได้และให้ค่าเบี่ยงเบนมาตรฐานแทนซึ่งการเดินทางสั้น ๆ รอบอินเทอร์เน็ตของฉันบอกฉันว่าเป็นการวัดความดีที่พอดีซึ่งตีความได้แตกต่างจาก R-squared ดังนั้นฉันเดาว่าฉันมีคำถามสองข้อที่ฉันหวังว่าจะได้รับทิศทาง: ทำไมเราไม่สามารถเรียกใช้ OLS ในsurveyแพ็คเกจได้ แต่ดูเหมือนว่าเป็นไปได้ที่จะทำกับข้อมูลที่มีน้ำหนักใน Stata อะไรคือความแตกต่างในการตีความระหว่างความเบี่ยงเบนของตัวแบบเส้นตรงทั่วไปกับค่า r-squared?

5
มีอคติต่อจำนวนธรรมชาติในกรณีที่กำลังสองน้อยที่สุด
ทำไมเราพยายามที่จะลดการx^2แทนของการลดหรือ|x|^1.95 |x|^2.05มีเหตุผลว่าทำไมจำนวนควรเป็นสองเท่าหรือเป็นเพียงการประชุมที่มีประโยชน์ในการทำให้คณิตศาสตร์ง่ายขึ้น?

1
NumPy แก้ปัญหากำลังสองน้อยที่สุดสำหรับระบบที่บ่อนทำลายได้อย่างไร
สมมุติว่าเรามีรูปร่าง X (2, 5) และรูปร่าง y (2,) งานนี้: np.linalg.lstsq(X, y) เราคาดหวังว่าสิ่งนี้จะทำงานได้ก็ต่อเมื่อ X มีรูปร่าง (N, 5) โดยที่ N&gt; = 5 แต่ทำไมและอย่างไร เราได้รับน้ำหนักกลับมา 5 เท่าตามที่คาดไว้ แต่วิธีนี้แก้ไขได้อย่างไร มันไม่เหมือนเรามี 2 สมการและ 5 ไม่รู้จักใช่ไหม วิธีแก้ปัญหาแบบนี้ได้ดีแค่ไหน? มันต้องทำอะไรซักอย่างเพื่อการสร้างสมการประดิษฐ์ขึ้นมาอีก ..

3
การถดถอยเชิงเส้นอย่างง่ายค่า p และ AIC
ฉันรู้ว่าหัวข้อนี้เกิดขึ้นหลายครั้งก่อนเช่นที่นี่แต่ฉันยังไม่แน่ใจว่าจะตีความผลลัพธ์การถดถอยของฉันได้ดีที่สุดอย่างไร ฉันมีชุดข้อมูลที่ง่ายมากประกอบด้วยคอลัมน์ของค่า xและคอลัมน์ค่า yแบ่งออกเป็นสองกลุ่มตามที่ตั้ง (loc) คะแนนมีลักษณะเช่นนี้ เพื่อนร่วมงานได้ตั้งสมมติฐานว่าเราควรใส่การถดถอยเชิงเส้นอย่างง่ายแยกกันในแต่ละกลุ่มซึ่งฉันได้ใช้y ~ x * C(loc)ไปแล้ว เอาท์พุทที่แสดงด้านล่าง OLS Regression Results ============================================================================== Dep. Variable: y R-squared: 0.873 Model: OLS Adj. R-squared: 0.866 Method: Least Squares F-statistic: 139.2 Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27 Time: 14:18:50 Log-Likelihood: -27.981 No. Observations: 65 AIC: 63.96 Df Residuals: …

4
อะไรคือความแตกต่างของ "เชิงกล" ระหว่างการถดถอยเชิงเส้นแบบหลายจุดด้วย lags และอนุกรมเวลา
ฉันสำเร็จการศึกษาด้านธุรกิจและเศรษฐศาสตร์ซึ่งกำลังศึกษาระดับปริญญาโทด้านวิศวกรรมข้อมูล ในขณะที่กำลังศึกษาการถดถอยเชิงเส้น (LR) และการวิเคราะห์อนุกรมเวลา (TS) คำถามหนึ่งก็ผุดขึ้นในใจของฉัน เหตุใดจึงต้องสร้างวิธีการใหม่ทั้งหมดเช่นอนุกรมเวลา (ARIMA) แทนที่จะใช้การถดถอยเชิงเส้นหลายเส้นและการเพิ่มตัวแปรที่ล้าหลัง (โดยใช้คำสั่งล่าช้าที่กำหนดโดยใช้ ACF และ PACF) ดังนั้นอาจารย์แนะนำให้ฉันเขียนเรียงความเล็ก ๆ น้อย ๆ เกี่ยวกับปัญหา ฉันจะไม่ขอความช่วยเหลือจากมือเปล่าดังนั้นฉันจึงทำการวิจัยในหัวข้อนี้ ฉันรู้แล้วว่าเมื่อใช้ LR หากการละเมิดสมมติฐานของเกาส์ - มาร์คอฟการถดถอยของ OLS นั้นไม่ถูกต้องและสิ่งนี้เกิดขึ้นเมื่อใช้ข้อมูลอนุกรมเวลา (ความสัมพันธ์อัตโนมัติเป็นต้น) (คำถามอื่นเกี่ยวกับเรื่องนี้สมมุติฐานของจีเอ็มหนึ่งข้อคือตัวแปรอิสระควรแจกแจงตามปกติหรือเพียงแค่ตัวแปรตามเงื่อนไขให้กับตัวแปรอิสระ) ฉันรู้ด้วยว่าเมื่อใช้การถดถอยแบบกระจายแบบกระจายซึ่งเป็นสิ่งที่ฉันคิดว่าฉันเสนอที่นี่และการใช้ OLS เพื่อประเมินค่าพารามิเตอร์ความหลากหลายทางหลายทางระหว่างตัวแปรอาจเกิดขึ้นอย่างชัดเจนดังนั้นการประมาณจึงผิด ในโพสต์ที่คล้ายกันเกี่ยวกับ TS และ LRที่นี่ @IrishStat กล่าวว่า: ... แบบจำลองการถดถอยเป็นกรณีเฉพาะของ Transfer Function Model หรือที่รู้จักกันในชื่อรุ่นการถดถอยแบบไดนามิกหรือรุ่น XARMAX จุดสำคัญคือการระบุรูปแบบในอนุกรมเวลานั่นคือความแตกต่างที่เหมาะสมความล่าช้าที่เหมาะสมของ X โครงสร้าง ARIMA ที่เหมาะสมการระบุที่เหมาะสมของโครงสร้างที่ไม่ระบุรายละเอียดที่กำหนดเช่นพัลส์ระดับเลื่อนแนวโน้มเวลาท้องถิ่นฤดูกาลและการรวม บริษัท …

3
ดำเนินการถดถอยเชิงเส้น แต่บังคับให้โซลูชันหาจุดข้อมูลบางจุด
ฉันรู้วิธีดำเนินการถดถอยเชิงเส้นในชุดของคะแนน นั่นคือฉันรู้วิธีปรับให้พอดีกับพหุนามที่ฉันเลือกกับชุดข้อมูลที่กำหนด (ในความหมาย LSE) อย่างไรก็ตามสิ่งที่ฉันไม่ทราบคือวิธีการบังคับให้วิธีการแก้ปัญหาของฉันผ่านบางจุดที่ฉันเลือก ฉันเคยเห็นสิ่งนี้ทำมาก่อน แต่ฉันจำไม่ได้ว่ากระบวนการนั้นเรียกว่าอะไร เป็นตัวอย่างที่เรียบง่ายและเป็นรูปธรรมขอให้เราบอกว่าฉันมี 100 จุดกระจายอยู่บนระนาบ xy และฉันเลือกที่จะใส่พหุนามตามลำดับ ฉันรู้วิธีการดำเนินการถดถอยเชิงเส้นนี้เป็นอย่างดี อย่างไรก็ตามขอให้เราบอกว่าฉันต้องการ 'บังคับ' วิธีแก้ปัญหาของฉันเพื่อบอกว่าจุดข้อมูลสามจุดที่พิกัด , x = 19 , และx = 89 , (และพิกัด y ที่สอดคล้องกัน แน่นอน).x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 ขั้นตอนทั่วไปนี้เรียกว่าทำอย่างไรและมีข้อผิดพลาดเฉพาะที่ฉันต้องระวังหรือไม่ แก้ไข: ฉันต้องการเพิ่มว่าฉันกำลังมองหาวิธีที่เป็นรูปธรรมในการทำเช่นนี้ ฉันได้เขียนโปรแกรมที่จริงแล้วการถดถอยเชิงเส้นในวิธีใดวิธีหนึ่งโดยการคว่ำเมทริกซ์ความแปรปรวนร่วมโดยตรงหรือผ่านการไล่ระดับสี สิ่งที่ฉันถามคือฉันจะปรับเปลี่ยนสิ่งที่ฉันทำทีละขั้นตอนเช่นนั้นฉันบังคับให้คำตอบพหุนามต้องผ่านจุดที่เฉพาะเจาะจงหรือไม่ ขอบคุณ!

6
การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง
คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่

3
เหตุใดจึงมีค่าสัมประสิทธิ์จำนวนมากสำหรับพหุนามลำดับที่สูงขึ้น
ในหนังสือของบิชอปเกี่ยวกับการเรียนรู้ของเครื่องมันกล่าวถึงปัญหาของการปรับฟังก์ชั่นพหุนามให้เหมาะกับจุดข้อมูล ให้ M เป็นคำสั่งของพหุนามที่พอดี มันระบุว่า เราเห็นว่าเมื่อ M เพิ่มขึ้นขนาดของสัมประสิทธิ์มักจะใหญ่ขึ้น โดยเฉพาะอย่างยิ่งสำหรับ M = 9 พหุนามสัมประสิทธิ์ได้ถูกปรับให้เข้ากับข้อมูลอย่างละเอียดโดยการพัฒนาค่าบวกและลบขนาดใหญ่เพื่อให้ฟังก์ชั่นพหุนามที่ตรงกันจับคู่แต่ละจุดข้อมูลตรง แต่ระหว่างจุดข้อมูล (โดยเฉพาะใกล้จุดสิ้นสุดของ ช่วง) ฟังก์ชั่นการจัดแสดงการสั่นขนาดใหญ่ ฉันไม่เข้าใจว่าทำไมค่าขนาดใหญ่จึงหมายถึงการปรับจุดข้อมูลให้ละเอียดยิ่งขึ้น ฉันคิดว่าค่าจะแม่นยำมากขึ้นหลังจากจุดทศนิยมแทนเพื่อการปรับที่ดีขึ้น

3
การถดถอยเชิงเส้น: การแจกแจงแบบไม่ปกติใด ๆ ที่แสดงเอกลักษณ์ของ OLS และ MLE?
คำถามนี้ได้รับแรงบันดาลใจจากการอภิปรายที่ยาวนานในความคิดเห็นที่นี่: การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร ในรูปแบบการถดถอยเชิงเส้นตามปกติเพื่อความง่ายในการเขียนนี่มีเพียงตัวทำนายเดียว: โดยที่เป็นค่าคงที่ที่รู้จักกันและเป็นข้อผิดพลาดอิสระที่ไม่มีค่าเฉลี่ยศูนย์ หากเรายังถือว่าการแจกแจงปกติสำหรับข้อผิดพลาดตัวประมาณกำลังสองน้อยที่สุดและตัวประมาณความน่าจะเป็นสูงสุดของจะเหมือนกันx ฉันϵ ฉันβ 0 , β 1Yi=β0+β1xi+ϵiYi=β0+β1xi+ϵi Y_i = \beta_0 + \beta_1 x_i + \epsilon_i xixix_iϵiϵi\epsilon_iβ0,β1β0,β1\beta_0, \beta_1 ดังนั้นคำถามง่าย ๆ ของฉัน: มีการแจกแจงอื่น ๆ สำหรับข้อผิดพลาดเช่นนั้น mle เหมือนกันกับตัวประมาณค่า squaeres น้อยที่สุดหรือไม่? ความหมายหนึ่งแสดงให้เห็นได้ง่ายส่วนอีกเรื่องหนึ่งไม่เป็นเช่นนั้น

3
ทำไมการติดตาม
ในโมเดลY= Xβ+ ϵy=Xβ+ϵ{y} = X \beta + \epsilonเราสามารถประมาณββ\betaโดยใช้สมการปกติ: β^= ( X'X)- 1X'Y,β^=(X′X)−1X′y,\hat{\beta} = (X'X)^{-1}X'y,และเราจะได้รับ Y =XβY^= Xβ^.y^=Xβ^.\hat{y} = X \hat{\beta}. เวกเตอร์ของส่วนที่เหลือประมาณโดย ε^= y- Xβ^= ( I- X( X'X)- 1X') y= Q y= Q ( Xβ+ ϵ ) = Q ϵ ,ϵ^=y−Xβ^=(I−X(X′X)−1X′)y=Qy=Q(Xβ+ϵ)=Qϵ,\hat{\epsilon} = y - X \hat{\beta} = (I - X …

1
ใช้ MLE กับ OLS
เมื่อใดควรเลือกใช้การประมาณความน่าจะเป็นสูงสุดแทนการใช้กำลังสองน้อยที่สุดแบบธรรมดา? จุดแข็งและข้อ จำกัด ของแต่ละจุดคืออะไร ฉันกำลังพยายามรวบรวมความรู้ที่เป็นประโยชน์เกี่ยวกับสถานที่ที่จะใช้ในสถานการณ์ทั่วไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.