คำถามติดแท็ก least-squares

อ้างถึงเทคนิคการประมาณค่าทั่วไปที่เลือกค่าพารามิเตอร์เพื่อลดความแตกต่างกำลังสองระหว่างสองปริมาณเช่นค่าที่สังเกตได้ของตัวแปรและค่าที่คาดหวังของการสังเกตที่กำหนดไว้ในค่าพารามิเตอร์ แบบจำลองเชิงเส้นแบบเกาส์นั้นมีความเหมาะสมน้อยที่สุดและกำลังสองน้อยที่สุดคือแนวคิดที่ใช้การหาค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) เป็นวิธีการประเมินตัวประมาณ

1
ความเท่าเทียมกันระหว่างกำลังสองน้อยที่สุดและ MLE ในแบบจำลองเกาส์เซียน
ฉันยังใหม่กับการเรียนรู้ของเครื่องและกำลังพยายามเรียนรู้ด้วยตัวเอง เมื่อเร็ว ๆ นี้ฉันกำลังอ่านบันทึกการบรรยายและมีคำถามพื้นฐาน สไลด์ 13 กล่าวว่า "Least Square Estimate เหมือนกับประมาณการความน่าจะเป็นสูงสุดภายใต้แบบจำลอง Gaussian" ดูเหมือนว่ามันเป็นอะไรที่เรียบง่าย แต่ฉันไม่สามารถเห็นสิ่งนี้ได้ บางคนช่วยอธิบายสิ่งที่เกิดขึ้นที่นี่ได้ไหม? ฉันสนใจที่จะเห็นคณิตศาสตร์ หลังจากนั้นฉันจะพยายามดูความน่าจะเป็นของการถดถอยแบบสันและแบบบ่วงบาศเช่นกันดังนั้นหากมีข้อเสนอแนะใด ๆ ที่จะช่วยฉันได้สิ่งนั้นก็จะได้รับการชื่นชมเช่นกัน

2
ความสัมพันธ์ระหว่างตัวประมาณค่า OLS สำหรับการสกัดกั้นและความชัน
ในรูปแบบการถดถอยอย่างง่าย Y= β0+ β1x + ε ,Y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, ตัวประมาณ OLSและมีความสัมพันธ์กันββ^O L S0β^0OLS\hat{\beta}_0^{OLS}β^O L S1β^1OLS\hat{\beta}_1^{OLS} สูตรสำหรับความสัมพันธ์ระหว่างตัวประมาณสองตัวคือ (ถ้าฉันได้มาอย่างถูกต้อง): Corr( β^O L S0, β^O L S1) = - ∑ni = 1xผมn--√Σni = 1x2ผม-------√.Corr⁡(β^0OLS,β^1OLS)=-Σผม=1nxผมnΣผม=1nxผม2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. คำถาม: คำอธิบายที่เข้าใจง่ายสำหรับการปรากฏตัวของความสัมพันธ์คืออะไร? การปรากฏตัวของความสัมพันธ์มีนัยสำคัญหรือไม่? โพสต์ได้รับการแก้ไขและยืนยันว่าความสัมพันธ์หายไปกับขนาดตัวอย่างได้ถูกลบออก (ขอบคุณ @whuber และ @ChristophHanck)

4
ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น? ทำไม ANOVA จึงถูกใช้กันอย่างแพร่หลายในการศึกษาทดลอง?
ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น? ฉันเข้าใจว่าวิธีการทั้งสองนี้ดูเหมือนจะใช้ตัวแบบสถิติเดียวกัน อย่างไรก็ตามภายใต้สถานการณ์ใดฉันควรใช้วิธีใด อะไรคือข้อดีและข้อเสียของวิธีการเหล่านี้เมื่อเปรียบเทียบ? ทำไม ANOVA จึงถูกนำมาใช้กันอย่างแพร่หลายในการศึกษาทดลองและฉันแทบจะไม่เคยพบการถดถอย

1
ช่วงการทำนายการถดถอยเชิงเส้น
หากการประมาณเชิงเส้นที่ดีที่สุด (โดยใช้กำลังสองน้อยที่สุด) ของจุดข้อมูลของฉันคือเส้นฉันจะคำนวณข้อผิดพลาดการประมาณได้อย่างไร ถ้าฉันคำนวณค่าเบี่ยงเบนมาตรฐานของความแตกต่างระหว่างการสังเกตและการคาดการณ์ฉันจะพูดในภายหลังว่าค่าจริง (แต่ไม่ได้สังเกต)เป็นของช่วง ( ) ที่มีความน่าจะเป็น ~ 68% สมมติว่ามีการแจกแจงแบบปกติหรือไม่?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ …

1
จะคำนวณช่วงเวลาการทำนายสำหรับการถดถอยแบบหลายจุดได้อย่างไร
สัญลักษณ์เกี่ยวกับพีชคณิตในการคำนวณช่วงการทำนายสำหรับการถดถอยหลายครั้งคืออะไร ฟังดูงี่เง่า แต่ฉันมีปัญหาในการค้นหาสัญกรณ์พีชคณิตที่ชัดเจนของเรื่องนี้

6
ทำไมเราถึงเลือกที่จะลดผลรวมของข้อผิดพลาดแบบสี่เหลี่ยม (SSE) ให้น้อยที่สุดเมื่อทำการประกอบโมเดล?
คำถามนั้นง่ายมาก: ทำไมเมื่อเราพยายามปรับตัวแบบให้เข้ากับข้อมูลเชิงเส้นหรือไม่เชิงเส้นเรามักจะพยายามลดผลรวมของกำลังสองของข้อผิดพลาดเพื่อให้ได้ตัวประมาณแบบพารามิเตอร์? ทำไมไม่เลือกฟังก์ชั่นวัตถุประสงค์อื่นเพื่อลดขนาด ฉันเข้าใจว่าด้วยเหตุผลทางเทคนิคฟังก์ชั่นสมการกำลังสองนั้นดีกว่าฟังก์ชั่นอื่น ๆ เช่นผลรวมของส่วนเบี่ยงเบนสัมบูรณ์ แต่นี่ยังไม่เป็นคำตอบที่น่าเชื่อมาก นอกจากเหตุผลทางเทคนิคแล้วทำไมผู้คนถึงชอบฟังก์ชั่น 'Euclidean' ระยะทางนี้ มีความหมายเฉพาะหรือการตีความสำหรับสิ่งนั้นหรือไม่? ตรรกะที่อยู่เบื้องหลังความคิดของฉันคือ: เมื่อคุณมีชุดข้อมูลคุณต้องตั้งค่าแบบจำลองของคุณเป็นอันดับแรกโดยสร้างชุดของสมมติฐานการทำงานหรือการแจกแจง ในแบบจำลองของคุณมีพารามิเตอร์บางตัว (สมมติว่าเป็นแบบจำลองพารามิเตอร์) จากนั้นคุณต้องหาวิธีประมาณค่าพารามิเตอร์เหล่านี้อย่างสม่ำเสมอและหวังว่าตัวประมาณของคุณจะมีความแปรปรวนต่ำและคุณสมบัติที่ดีอื่น ๆ ไม่ว่าคุณจะลด SSE หรือ LAD หรือฟังก์ชั่นวัตถุประสงค์อื่น ๆ ฉันคิดว่ามันเป็นเพียงวิธีการที่แตกต่างกันในการรับตัวประมาณค่า ตามตรรกะนี้ฉันคิดว่าคนใช้กำลังสองน้อยที่สุดต้องเป็น 1) มันสร้างตัวประมาณที่สอดคล้องกันของตัวแบบ 2) อย่างอื่นที่ฉันไม่รู้ ในเศรษฐมิติเรารู้ว่าในตัวแบบการถดถอยเชิงเส้นถ้าคุณคิดว่าข้อผิดพลาดมี 0 หมายถึงการปรับสภาพของตัวทำนายและความเหมือนกันและข้อผิดพลาดจะไม่เกี่ยวข้องกันจากนั้นการลดผลรวมของความคลาดเคลื่อนกำลังสอง พารามิเตอร์และตามทฤษฎีบทเกาส์ - มาร์คอฟตัวประมาณนี้คือสีน้ำเงิน ดังนั้นสิ่งนี้จะแนะนำว่าถ้าคุณเลือกที่จะลดฟังก์ชั่นวัตถุประสงค์อื่น ๆ ที่ไม่ใช่ SSE ดังนั้นจึงไม่มีการรับประกันว่าคุณจะได้รับการประมาณค่าพารามิเตอร์โมเดล ความเข้าใจของฉันถูกต้องหรือไม่ ถ้ามันถูกต้องการลด SSE ให้น้อยกว่าฟังก์ชั่นวัตถุประสงค์อื่น ๆ สามารถพิสูจน์ได้ด้วยความมั่นคงซึ่งเป็นที่ยอมรับในความเป็นจริงดีกว่าการพูดว่าฟังก์ชั่นสมการกำลังสองนั้นดีกว่า ในบทสนทนาฉันเห็นหลายกรณีที่ผู้คนลดจำนวนผลรวมของความผิดพลาดแบบสแควร์โดยตรงโดยไม่ได้ระบุรูปแบบที่สมบูรณ์ก่อนเช่นการตั้งสมมติฐานแบบกระจาย จากนั้นสิ่งนี้ดูเหมือนว่าผู้ใช้วิธีการนี้ต้องการดูว่าข้อมูลใกล้เคียงกับ 'รุ่น' มากแค่ไหน …

3
“ ความเท่าเทียมกันอย่างอื่น” หมายถึงอะไรในการถดถอยหลายครั้ง?
เมื่อเราทำการถดถอยหลายครั้งและบอกว่าเรากำลังดูการเปลี่ยนแปลงเฉลี่ยในตัวแปรสำหรับการเปลี่ยนแปลงในตัวแปรถือค่าคงที่ตัวแปรอื่น ๆ ทั้งหมดค่าใดที่เราถือตัวแปรคงที่ที่? หมายความว่าอย่างไร ศูนย์? มีค่าไหม?yyyxxx ฉันอยากจะคิดว่ามันมีค่า แค่มองหาคำอธิบาย หากใครมีหลักฐานก็คงจะดีเช่นกัน

5
การถดถอยเชิงปริมาณเมื่อใดที่แย่กว่า OLS
นอกเหนือจากสถานการณ์เฉพาะบางอย่างที่เราต้องเข้าใจความสัมพันธ์ที่มีเงื่อนไขอย่างมีเงื่อนไขแล้วสถานการณ์ใดที่นักวิจัยควรเลือก OLS เหนือ Quantile Regression ฉันไม่ต้องการคำตอบว่า "ถ้าไม่มีประโยชน์ในการทำความเข้าใจความสัมพันธ์ท้าย" เพราะเราสามารถใช้การถดถอยแบบมัธยฐานแทน OLS

4
เหตุใดการแก้ปัญหาแบบกำลังสองน้อยที่สุดจึงให้ผลลัพธ์ไม่ดีในกรณีนี้
มีรูปภาพในหน้า 204 บทที่ 4 ของ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" โดย Bishop ซึ่งฉันไม่เข้าใจว่าทำไม Least Square solution จึงให้ผลลัพธ์ที่ไม่ดีที่นี่: ย่อหน้าก่อนหน้านี้เกี่ยวกับข้อเท็จจริงที่ว่าวิธีแก้ปัญหากำลังสองน้อยที่สุดนั้นไม่มีความทนทานต่อค่าผิดปกติอย่างที่คุณเห็นในภาพต่อไปนี้ แต่ฉันไม่เข้าใจว่าเกิดอะไรขึ้นในภาพอื่นและทำไม LS จึงให้ผลลัพธ์ที่แย่เช่นกัน

2
พิสูจน์ว่าสถิติ F ตามการกระจายตัวของ F
ในแง่ของคำถามนี้: พิสูจน์ว่าสัมประสิทธิ์ในแบบจำลอง OLS เป็นไปตามการแจกแจงแบบ t- ด้วย (nk) องศาอิสระ ฉันชอบที่จะเข้าใจว่าทำไม F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, โดยที่คือจำนวนพารามิเตอร์โมเดลและจำนวนการสังเกตและความแปรปรวนรวม,ค่าความแปรปรวนที่เหลือตามการกระจายn T S S R S S F พี- 1 , n - พีpppnnnTSSTSSTSSRSSRSSRSSFp−1,n−pFp−1,n−pF_{p-1,n-p} ฉันต้องยอมรับว่าฉันไม่ได้พยายามพิสูจน์มันเพราะฉันไม่รู้ว่าจะเริ่มจากตรงไหน

2
มีข้อได้เปรียบของ SVD บน PCA หรือไม่?
ฉันรู้วิธีการคำนวณ PCA และ SVD ทางคณิตศาสตร์และฉันรู้ว่าทั้งสองสามารถนำไปใช้กับการถดถอยเชิงเส้นสแควร์น้อยที่สุด ข้อได้เปรียบหลักของ SVD ในทางคณิตศาสตร์ดูเหมือนว่าสามารถนำไปใช้กับเมทริกซ์ที่ไม่ได้เป็นแบบสแควร์ได้ ทั้งสองมุ่งเน้นไปที่การสลายตัวของเมทริกซ์นอกเหนือจากข้อได้เปรียบของ SVD ที่กล่าวมามีข้อได้เปรียบหรือข้อมูลเชิงลึกเพิ่มเติมใด ๆ จากการใช้ SVD ผ่าน PCA หรือไม่X⊤XX⊤XX^\top X ฉันกำลังมองหาสัญชาตญาณมากกว่าความแตกต่างทางคณิตศาสตร์
20 pca  least-squares  svd 

2
มันสมเหตุสมผลที่จะทำ OLS หลังจากการเลือกตัวแปร LASSO อย่างไร
เมื่อเร็ว ๆ นี้ฉันได้พบว่าในวรรณคดีเศรษฐศาสตร์ประยุกต์ที่ใช้เมื่อจัดการกับปัญหาการเลือกคุณสมบัติมันไม่แปลกที่จะทำ LASSO ตามด้วย OLS ถดถอยโดยใช้ตัวแปรที่เลือก ฉันสงสัยว่าเราจะมีคุณสมบัติที่ถูกต้องของกระบวนการดังกล่าวได้อย่างไร มันจะทำให้เกิดปัญหาเช่นตัวแปรที่ละเว้นหรือไม่ หลักฐานใด ๆ ที่แสดงว่ามีประสิทธิภาพมากขึ้นหรือผลลัพธ์สามารถตีความได้มากกว่านี้? นี่คือการสนทนาที่เกี่ยวข้อง: การเลือกตัวแปรกับ LASSO การใช้ต้นไม้หลังจากการเลือกตัวแปรโดยใช้ Lasso / Random ถ้าตามที่ระบุไว้ขั้นตอนดังกล่าวไม่ถูกต้องโดยทั่วไปแล้วทำไมยังมีงานวิจัยมากมายที่ทำเช่นนั้น? ฉันสามารถพูดได้ไหมว่ามันเป็นเพียงแค่กฎของหัวแม่มือวิธีการประนีประนอมเนื่องจากคุณสมบัติที่ไม่สบาย ๆ ของเครื่องประมาณ LASSO และความชื่นชอบของผู้คนที่มีต่อ OLS?

2
จะเกิดอะไรขึ้นเมื่อฉันรวมตัวแปรกำลังสองลงในการถดถอย
ฉันเริ่มต้นด้วยการถดถอย OLS ของฉัน: โดยที่ D เป็นตัวแปรจำลองการประมาณการจะแตกต่างจากศูนย์ด้วยค่า p ต่ำ ฉัน preform การทดสอบ Ramsey RESET และพบว่าฉันมีการคลาดเคลื่อนของสมการฉันจึงรวมกำลังสอง x: y=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon คำสองคำนี้อธิบายอะไร? (การเพิ่มขึ้นแบบไม่ใช่เชิงเส้นเป็น Y?) ด้วยการทำเช่นนี้การประมาณค่า D ของฉันจะไม่แตกต่างจากค่าศูนย์อีกต่อไปด้วยค่า p สูง ฉันจะตีความคำศัพท์ยกกำลังสองในสมการของฉัน (โดยทั่วไป) ได้อย่างไร แก้ไข: การปรับปรุงคำถาม

3
จะมีคำตอบที่ดีที่สุดในท้องถิ่นหลายอย่างเมื่อเราแก้ปัญหาการถดถอยเชิงเส้นหรือไม่?
ฉันอ่านข้อความนี้ในการสอบจริง / เท็จหนึ่งครั้ง: เราสามารถหาวิธีแก้ปัญหาที่เหมาะสมในท้องถิ่นได้หลายอย่างหากเราแก้ปัญหาการถดถอยเชิงเส้นโดยการลดผลรวมของข้อผิดพลาดกำลังสองโดยใช้การไล่ระดับสี วิธีแก้ปัญหา: เท็จ คำถามของฉันคือส่วนใดของคำถามนี้ผิด ทำไมข้อความนี้ถึงเป็นเท็จ?

6
คำอธิบายที่ใช้งานง่ายของคำในความแปรปรวนของตัวประมาณกำลังสองน้อยที่สุด
ถ้าอยู่ในอันดับเต็มค่าผกผันของมีอยู่และเราจะได้ค่าประมาณกำลังสองน้อยที่สุด: และXXXXTXXTXX^TXˆβ=(XTX)−1XYβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XYVar(ˆβ)=σ2(XTX)−1Var(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} เราจะอธิบายอย่างสังหรณ์ใจได้อย่างไรในสูตรผลต่าง เทคนิคของการได้มานั้นชัดเจนสำหรับฉัน(XTX)−1(XTX)−1(X^TX)^{-1}

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.