คำถามติดแท็ก least-squares

อ้างถึงเทคนิคการประมาณค่าทั่วไปที่เลือกค่าพารามิเตอร์เพื่อลดความแตกต่างกำลังสองระหว่างสองปริมาณเช่นค่าที่สังเกตได้ของตัวแปรและค่าที่คาดหวังของการสังเกตที่กำหนดไว้ในค่าพารามิเตอร์ แบบจำลองเชิงเส้นแบบเกาส์นั้นมีความเหมาะสมน้อยที่สุดและกำลังสองน้อยที่สุดคือแนวคิดที่ใช้การหาค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) เป็นวิธีการประเมินตัวประมาณ

4
ทำไมสแควร์ธรรมดาน้อยที่สุดจึงทำงานได้ดีกว่าการถดถอยปัวซอง?
ฉันกำลังพยายามทำให้การถดถอยเพื่ออธิบายจำนวนคดีฆาตกรรมในแต่ละเขตของเมือง แม้ว่าฉันจะรู้ว่าข้อมูลของฉันเป็นไปตามการแจกแจงปัวซอง แต่ฉันก็พยายามปรับให้เหมาะสมกับ OLS ดังนี้: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon จากนั้นฉันก็ลอง (ปฎิบัติ!) การถดถอยแบบปัวซอง ปัญหาคือว่าฉันมีผลลัพธ์ที่ดีกว่าในการถดถอย OLS: หลอก -สูงกว่า (0.71 เทียบกับ 0.57) และ RMSE เช่นกัน (3.8 vs 8.88 มาตรฐานที่มีหน่วยเดียวกัน)R2R2R^2 ทำไม? เป็นเรื่องปกติหรือไม่ มีอะไรผิดปกติในการใช้ OLS ไม่ว่าการเผยแพร่ข้อมูลจะเป็นอย่างไร แก้ไข ตามคำแนะนำของ kjetil b halvorsen และอื่น ๆ ฉันได้ติดตั้งข้อมูลผ่านสองรุ่น: OLS และ Negative Binomial GLM (NB) ฉันเริ่มด้วยฟีเจอร์ทั้งหมดที่ฉันมีจากนั้นฉันก็ทำการลบฟีเจอร์ที่ไม่สำคัญออกไปทีละแบบ …

1
พิสูจน์สูตร LOOCV
จากบทนำสู่การเรียนรู้เชิงสถิติโดย James et al. การประมาณค่าการตรวจสอบความถูกต้องแบบข้ามใบ (LOOCV) ถูกกำหนดโดย ที่ 2CV ( n ) = 1n n Σฉัน=1MSEฉันCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEฉัน=(y ที่ฉัน - Yฉัน)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 โดยไม่มีการพิสูจน์สมการ (5.2) ระบุว่าสำหรับการถดถอยแบบพหุนามหรือพหุนามอย่างน้อยที่สุด (ไม่ว่าสิ่งนี้จะนำไปใช้กับการถดถอยของตัวแปรเพียงตัวเดียวไม่รู้จักกับฉัน) โดยที่ "คือ TH ค่าติดตั้งจากน้อยสแควร์เดิมพอดี ( ความคิดที่ไม่มีสิ่งนี้หมายความว่าโดยวิธีการที่มันไม่ได้หมายความว่าจากการใช้ทั้งหมดของจุดในชุดข้อมูล?) และคืองัด" ซึ่งถูกกำหนดโดยCV ( n ) = 1n n Σฉัน=1( Y ฉัน- Yฉัน1 - เอชฉัน )2ปีฉันฉันCV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i …

1
MLE เทียบกับกำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม
ความประทับใจที่ฉันได้รับจากบทความหนังสือและบทความต่าง ๆ ที่ฉันอ่านคือวิธีที่แนะนำในการกระจายความน่าจะเป็นในชุดของข้อมูลที่แนะนำโดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) อย่างไรก็ตามในฐานะนักฟิสิกส์วิธีที่ง่ายกว่าคือการใส่ pdf ของโมเดลให้ตรงกับ pdf เชิงประจักษ์ของข้อมูลโดยใช้กำลังสองน้อยที่สุด ทำไม MLE จึงดีกว่ากำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม? ใครช่วยกรุณาชี้ให้ฉันไปที่กระดาษ / หนังสือวิทยาศาสตร์ที่ตอบคำถามนี้ ลางสังหรณ์ของฉันเป็นเพราะ MLE ไม่คิดว่ารูปแบบเสียงและ "เสียง" ในรูปแบบไฟล์ PDF ประจักษ์เป็น heteroscedastic และไม่ปกติ

3
ทำไมไม่ใช้ "สมการปกติ" เพื่อหาค่าสัมประสิทธิ์กำลังสองน้อยที่สุดอย่างง่าย?
ฉันเห็นรายการนี้ที่นี่และไม่อยากจะเชื่อว่ามีวิธีมากมายในการแก้ปัญหากำลังสองน้อยที่สุด "การสมปกติ" ในวิกิพีเดียดูเหมือนจะเป็นทางข้างหน้าค่อนข้างตรง: αα^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} ดังนั้นทำไมไม่ใช้เพียงแค่พวกเขา? ฉันสันนิษฐานว่าจะต้องมีปัญหาการคำนวณหรือความแม่นยำเนื่องจากในลิงค์แรกเหนือ Mark L. Stone กล่าวว่า SVD หรือ QR เป็นวิธีที่ได้รับความนิยมในซอฟต์แวร์ทางสถิติและสมการปกติคือ "TERRIBLE จากความน่าเชื่อถือและความแม่นยำเชิงตัวเลข" อย่างไรก็ตามในรหัสต่อไปนี้สมการปกติทำให้ฉันมีความแม่นยำถึง ~ 12 ตำแหน่งทศนิยมเมื่อเทียบกับสามฟังก์ชั่นหลามยอดนิยม: numpy polyfit ; SciPy ของlinregress ; และ scikit การเรียนรู้ของการถดถอยเชิงเส้น สิ่งที่น่าสนใจกว่าคือวิธีสมการปกตินั้นเร็วที่สุดเมื่อ n = 100000000 เวลาในการคำนวณสำหรับฉันคือ: …

1
ละเว้นอคติของตัวแปรในการถดถอยโลจิสติกกับอคติของตัวแปรที่ละเว้นในการถดถอยกำลังสองน้อยสุดสามัญ
ฉันมีคำถามเกี่ยวกับการละเว้นความเอนเอียงของตัวแปรในการถดถอยโลจิสติกส์และเชิงเส้น สมมติว่าฉันตัดตัวแปรบางตัวออกจากตัวแบบการถดถอยเชิงเส้น แกล้งทำเป็นว่าตัวแปรที่ละเว้นนั้นไม่สัมพันธ์กับตัวแปรที่รวมอยู่ในแบบจำลองของฉัน ตัวแปรที่ละเว้นเหล่านั้นไม่ได้ให้ค่าสัมประสิทธิ์ในแบบจำลองของฉัน แต่ในการถดถอยโลจิสติกฉันเพิ่งรู้ว่านี่ไม่เป็นความจริง ตัวแปรที่ถูกละเว้นจะมีอคติกับค่าสัมประสิทธิ์ของตัวแปรที่รวมแม้ว่าตัวแปรที่ละเว้นจะไม่สัมพันธ์กับตัวแปรที่รวมอยู่ ฉันพบบทความในหัวข้อนี้ แต่ฉันไม่สามารถทำหัวหรือก้อยได้ นี่คือกระดาษและสไลด์ PowerPointบางอัน อคตินั้นดูเหมือนจะเป็นศูนย์เสมอ มีใครอธิบายได้บ้างว่ามันทำงานอย่างไร?

4
ความสัมพันธ์ระหว่าง
ฉันสงสัยว่ามีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่ โดยปกติR2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}และจะวัดความแข็งแรงของความสัมพันธ์เชิงเส้นในการถดถอย การทดสอบ F-Test เป็นการพิสูจน์สมมติฐาน มีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่?

1
การย้อนกลับของการถดถอยสัน: รับเมทริกซ์การตอบสนองและค่าสัมประสิทธิ์การถดถอยค้นหาตัวทำนายที่เหมาะสม
พิจารณาปัญหาการถดถอย OLS มาตรฐาน\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}: ฉันมีเมทริกซ์YY\YและXX\Xและฉันต้องการหาเพื่อลด โซลูชันได้รับโดย\ hat \ B = \ argmin_ \ B \ {L \} = (\ X ^ \ top \ X) ^ + \ X ^ \ top \ Yββ\B β = argmin β { L } = ( X ⊤ X ) + X …

2
"บางส่วน" ในวิธีกำลังสองน้อยที่สุดคืออะไร?
ในการถดถอยสมการกำลังสองน้อยที่สุด (PLSR) หรือการสร้างแบบจำลองสมการเชิงโครงสร้างบางส่วน (PLS-SEM) คำว่า "บางส่วน" หมายถึงอะไร

1
คำถามเกี่ยวกับวิธีการทำให้ค่าสัมประสิทธิ์การถดถอยเป็นปกติ
ไม่แน่ใจว่าคำว่า normalize เป็นคำที่ถูกต้องที่จะใช้ที่นี่หรือไม่ แต่ฉันจะพยายามอย่างดีที่สุดเพื่ออธิบายสิ่งที่ฉันพยายามถาม ตัวประมาณที่ใช้ในที่นี้คือกำลังสองน้อยสุด สมมติว่าคุณมีy = β 0 + β 1 x 1y=β0+β1x1y=\beta_0+\beta_1x_1คุณสามารถจัดให้อยู่กึ่งกลางค่าเฉลี่ยโดยy = β ′ 0 + β 1 x ′ 1y=β′0+β1x′1y=\beta_0'+\beta_1x_1'โดยที่β ′ 0 = β 0 + β 1 ˉ x 1β′0=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1และx ′ 1 = x - ˉ xx′1=x−x¯x_1'=x-\bar x , ดังนั้นβ ′ 0β′0\beta_0'ไม่มีอิทธิพลต่อการประมาณβ 1β1\beta_1อีกต่อไป โดยที่ผมหมายถึงนี้β …

1
ความหมายและการบรรจบกันของกำลังสองน้อยที่สุดที่ได้รับคืน
ฉันได้ใช้กำลังสองน้อยที่สุดซ้ำอย่างน้อยกำลังสอง (IRLS) เพื่อย่อฟังก์ชันของแบบฟอร์มต่อไปนี้ J(m)=∑Ni=1ρ(|xi−m|)J(m)=∑i=1Nρ(|xi−m|)J(m) = \sum_{i=1}^{N} \rho \left(\left| x_i - m \right|\right) โดยที่NNNคือจำนวนอินสแตนซ์ของxi∈Rxi∈Rx_i \in \mathbb{R} , m∈Rm∈Rm \in \mathbb{R}คือค่าประมาณที่ฉันต้องการและρρ\rhoเป็นฟังก์ชันการปรับค่าที่เหมาะสม สมมติว่ามันเป็นนูน (แต่ไม่จำเป็นต้องเข้มงวด) และเปลี่ยนแปลงได้ในตอนนี้ เป็นตัวอย่างที่ดีของดังกล่าวρρ\rhoเป็นฟังก์ชั่นการสูญเสีย Huber สิ่งที่ฉันทำคือแยกความแตกต่างJ(m)J(m)J(m)เทียบกับmmm (และจัดการ) ที่จะได้รับ dJdm=∑Ni=1ρ′(|xi−m|)|xi−m|(xi−m)dJdm=∑i=1Nρ′(|xi−m|)|xi−m|(xi−m)\frac{dJ}{dm}= \sum_{i=1}^{N} \frac{\rho'\left( \left|x_i-m\right|\right) }{\left|x_i-m\right|} \left( x_i-m \right) และแก้ปัญหานี้ซ้ำ ๆ โดยการตั้งค่าให้เท่ากับ 0 และกำหนดน้ำหนักที่การวนซ้ำkkkเป็นwi(k)=ρ′(|xi−m(k)|)|xi−m(k)|wi(k)=ρ′(|xi−m(k)|)|xi−m(k)|w_i(k) = \frac{\rho'\left( \left|x_i-m{(k)}\right|\right) }{\left|x_i-m{(k)}\right|}(หมายเหตุว่าภาวะเอกฐานการรับรู้ที่xi=m(k)xi=m(k)x_i=m{(k)}คือจริงๆเอกพจน์ที่ถอดออกได้ในทุกρρ\rho's ฉันอาจจะเกี่ยวกับการดูแล) จากนั้นฉันก็จะได้ ∑Ni=1wi(k)(xi−m(k+1))=0∑i=1Nwi(k)(xi−m(k+1))=0\sum_{i=1}^{N} w_i(k) \left( x_i-m{(k+1)} …

2
มาตรการต่าง ๆ ของความต่างระดับ
ลิงค์วิกิพีเดียนี้แสดงเทคนิคต่าง ๆ ในการตรวจสอบความหลงไหลของ OLS ที่เหลืออยู่ ฉันต้องการเรียนรู้ว่าเทคนิคการลงมือปฏิบัติแบบใดที่มีประสิทธิภาพมากกว่าในการตรวจจับภูมิภาคที่ได้รับผลกระทบจากความแตกต่างทางเพศ ตัวอย่างเช่นที่นี่พื้นที่ภาคกลางในพล็อตเรื่อง 'Residuals vs vs Fitted' ของ OLS เห็นว่ามีความแปรปรวนสูงกว่าด้านข้างของพล็อต (ฉันไม่แน่ใจในข้อเท็จจริงทั้งหมด เพื่อยืนยันการดูป้ายข้อผิดพลาดในพล็อต QQ เราจะเห็นว่าพวกเขาตรงกับป้ายข้อผิดพลาดในใจกลางของพล็อตที่เหลือ แต่เราจะหาปริมาณส่วนที่เหลือที่มีความแปรปรวนสูงกว่าอย่างมีนัยสำคัญได้อย่างไร?

2
ทำไมเมทริกซ์สำหรับการฉายภาพของการฉายฉากแบบฉากฉาก?
ฉันค่อนข้างใหม่สำหรับเรื่องนี้ดังนั้นฉันหวังว่าคุณจะยกโทษให้ฉันถ้าคำถามไร้เดียงสา (บริบท: ฉันกำลังเรียนรู้เศรษฐมิติจากหนังสือ Davidson & MacKinnon เรื่อง"เศรษฐมิติเชิงทฤษฎีและวิธีการ"และพวกเขาดูเหมือนจะไม่อธิบายสิ่งนี้ฉันยังได้ดูหนังสือการเพิ่มประสิทธิภาพของ Luenbergerที่เกี่ยวข้องกับการคาดการณ์ในระดับที่สูงขึ้นอีกเล็กน้อย ไม่มีโชค) สมมติว่าผมมีฉากฉายกับมีการเชื่อมโยงการฉายเมทริกซ์P ฉันสนใจในการฉายแต่ละเวกเตอร์ในเป็นบางส่วนสเปซ n P R n A ⊂ R nPP\mathbb PPP\bf PRnRn\mathbb{R}^nA ⊂ RnA⊂RnA \subset \mathbb{R}^n คำถาม : ทำไมมันเป็นไปตามนั้นนั่นคือสมมาตร? ฉันสามารถดูตำราแบบใดสำหรับผลลัพธ์นี้T PP = PP=P\bf{P}=PTT^TPP\bf P

1
เหตุใดการถดถอยนี้จึงไม่ล้มเหลวเนื่องจากความสัมพันธ์ระหว่างกันที่สมบูรณ์แบบแม้ว่าตัวแปรหนึ่งจะเป็นการรวมเชิงเส้นของตัวแปรอื่น ๆ
วันนี้ฉันกำลังเล่นกับชุดข้อมูลขนาดเล็กและดำเนินการถดถอย OLS ง่าย ๆ ซึ่งฉันคาดว่าจะล้มเหลวเนื่องจากมีความหลากหลายทางสมบูรณ์แบบ อย่างไรก็ตามมันไม่ได้ นี่ก็หมายความว่าความเข้าใจของฉันเกี่ยวกับความหลากสีเป็นสิ่งที่ผิด คำถามของฉันคือที่ไหนผมผิดหรือเปล่า? ฉันคิดว่าฉันสามารถแสดงให้เห็นว่าหนึ่งในตัวแปรของฉันคือการรวมกันเชิงเส้นของคนอื่น ๆ สิ่งนี้ควรนำไปสู่เมทริกซ์การถดถอยที่ไม่มีอันดับเต็มดังนั้นค่าสัมประสิทธิ์ไม่ควรถูกระบุ ฉันสร้างชุดข้อมูลที่ทำซ้ำได้ขนาดเล็ก(รหัสด้านล่าง) : exporter importer flow dist intraUS 1 Canada Canada 996.8677 6.367287 0 2 Florida Canada 995.8219 9.190562 0 3 Texas Canada 1001.6475 4.359063 0 4 Mexico Canada 1002.4371 7.476649 0 5 Canada Florida 1002.8789 5.389223 0 6 Florida …

1
ตัวประมาณที่ไม่ลำเอียงอื่น ๆ กว่า BLUE (โซลูชัน OLS) สำหรับแบบจำลองเชิงเส้น
สำหรับโมเดลเชิงเส้นโซลูชัน OLS ให้ตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุดสำหรับพารามิเตอร์ แน่นอนว่าเราสามารถแลกเปลี่ยนอคติเพื่อลดความแปรปรวนได้เช่นการถดถอยของสัน แต่คำถามของฉันเกี่ยวกับการไม่มีอคติ มีตัวประมาณอื่น ๆ ที่ค่อนข้างใช้กันทั่วไปซึ่งไม่เอนเอียง แต่มีความแปรปรวนสูงกว่าพารามิเตอร์ประมาณ OLS หรือไม่ ถ้าฉันมีชุดข้อมูลขนาดใหญ่ฉันสามารถย่อยตัวอย่างและคาดการณ์พารามิเตอร์ด้วยข้อมูลน้อยลงและเพิ่มความแปรปรวน ฉันคิดว่านี่อาจเป็นประโยชน์ในเชิงสมมุติฐาน นี่เป็นคำถามเกี่ยวกับวาทศิลป์มากกว่าเพราะเมื่อฉันอ่านเกี่ยวกับตัวประมาณค่าสีน้ำเงินแล้วไม่มีตัวเลือกที่แย่กว่านี้ ฉันเดาว่าการให้ทางเลือกที่แย่กว่านั้นอาจช่วยให้ผู้คนเข้าใจพลังของตัวประมาณค่า BLUE ได้ดีขึ้น

1
ฉันมีแนวที่ดีที่สุด ฉันต้องการจุดข้อมูลที่จะไม่เปลี่ยนแนวที่ดีที่สุดของฉัน
ฉันกำลังนำเสนอเกี่ยวกับเส้นสายที่กระชับ ฉันมีฟังก์ชั่นเชิงเส้นอย่างง่าย, ข ฉันกำลังพยายามหาจุดข้อมูลที่กระจัดกระจายที่ฉันสามารถใส่ในพล็อตกระจายที่จะทำให้แถวของฉันเหมาะสมที่สุดสมการเดียวกันy=1x+by=1x+by=1x+b ฉันชอบที่จะเรียนรู้เทคนิคนี้ใน R หรือ Excel - แล้วแต่ว่าจะง่ายกว่ากัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.