คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
วิธีการปรับโมเดลข้อผิดพลาดในการวัด“ แบบง่าย”
ฉันกำลังมองหาวิธีการที่สามารถใช้ในการประมาณรูปแบบข้อผิดพลาดในการวัด "OLS" x i = X i + e x , i Y i = α + β X iyi=Yi+ey,iyi=Yi+ey,iy_{i}=Y_{i}+e_{y,i} xผม= Xผม+ ex , ixi=Xi+ex,ix_{i}=X_{i}+e_{x,i} Yผม= α + βXผมYi=α+βXiY_{i}=\alpha + \beta X_{i} ในกรณีที่ข้อผิดพลาดที่มีความเป็นอิสระปกติที่ไม่รู้จักแปรปรวนและ{2} OLS "มาตรฐาน" จะไม่ทำงานในกรณีนี้ σ 2 xσ2Yσy2\sigma_{y}^{2}σ2xσx2\sigma_{x}^{2} วิกิพีเดียมีวิธีแก้ปัญหาที่ไม่น่าสนใจ - ทั้งสองบังคับให้คุณคิดว่า "อัตราส่วนแปรปรวน"หรือ " อัตราส่วนความน่าเชื่อถือ "เป็นที่รู้จักที่คือความแปรปรวนของ regressor จริงx_iฉันไม่พอใจกับสิ่งนี้เพราะคนที่ไม่รู้ความแปรปรวนจะรู้อัตราส่วนได้อย่างไร λ=σ 2 …

3
GLMNET หรือ LARS สำหรับการคำนวณโซลูชัน LASSO?
ฉันต้องการรับค่าสัมประสิทธิ์สำหรับปัญหา LASSO | | Y- Xβ| | +λ | | β| |1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. ปัญหาคือฟังก์ชั่น glmnet และ lars ให้คำตอบที่ต่างกัน สำหรับฟังก์ชั่น glmnet ฉันขอสัมประสิทธิ์ของλ / | | Y| |λ/||Y||\lambda/||Y||แทนที่จะเป็นλλ\lambdaแต่ฉันยังได้คำตอบที่ต่างออกไป คาดหวังหรือไม่ ความสัมพันธ์ระหว่างลาร์สλλ\lambdaและ glmnet λλ\lambdaคืออะไร? ฉันเข้าใจว่า glmnet นั้นเร็วกว่าสำหรับปัญหา LASSO แต่ฉันอยากจะรู้ว่าวิธีใดที่มีประสิทธิภาพมากกว่า deps_stats ฉันกลัวว่าขนาดของชุดข้อมูลของฉันมีขนาดใหญ่มากจน LARS ไม่สามารถจัดการได้ในขณะที่ glmnet สามารถจัดการกับชุดข้อมูลขนาดใหญ่ของฉันได้ mpiktas ฉันต้องการหาคำตอบของ (Y-Xb) ^ 2 + L \ sum …

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp<20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

3
การเพิ่มค่าสัมประสิทธิ์เพื่อให้ได้เอฟเฟกต์การโต้ตอบ - จะทำอย่างไรกับ SEs?
ฉันมีการถดถอยหลายตัวแปรซึ่งรวมถึงการโต้ตอบ ตัวอย่างเช่นเพื่อให้ได้ค่าประมาณของผลการรักษาสำหรับควินไทล์ที่แย่ที่สุดฉันจำเป็นต้องเพิ่มค่าสัมประสิทธิ์จาก regressor ของการรักษาไปที่ค่าสัมประสิทธิ์จากตัวแปรปฏิสัมพันธ์ (ซึ่งมีปฏิสัมพันธ์กับการรักษาและควินไทล์ 1) เมื่อเพิ่มสองสัมประสิทธิ์จากการถดถอยหนึ่งจะได้รับข้อผิดพลาดมาตรฐานได้อย่างไร เป็นไปได้หรือไม่ที่จะเพิ่มข้อผิดพลาดมาตรฐานจากสัมประสิทธิ์ทั้งสองนี้? สิ่งที่เกี่ยวกับสถิติ t? เป็นไปได้ที่จะเพิ่มเหล่านี้เช่นกัน? ฉันคาดเดาไม่ได้ แต่ฉันไม่พบคำแนะนำเกี่ยวกับเรื่องนี้ ขอบคุณล่วงหน้ามากสำหรับความช่วยเหลือของคุณ!

2
มีปัญหาทางทฤษฎีเกี่ยวกับค่าสัมประสิทธิ์การถดถอยเฉลี่ยเพื่อสร้างแบบจำลองหรือไม่?
ฉันต้องการสร้างแบบจำลองการถดถอยซึ่งเป็นค่าเฉลี่ยของแบบจำลอง OLS หลายตัวโดยแต่ละแบบจะอิงตามส่วนย่อยของข้อมูลทั้งหมด แนวคิดเบื้องหลังนี้อ้างอิงจากบทความนี้ ฉันสร้าง k เท่าและสร้างแบบจำลอง k OLS แต่ละอันบนข้อมูลโดยไม่มีการพับหนึ่งครั้ง ฉันเฉลี่ยค่าสัมประสิทธิ์การถดถอยเพื่อให้ได้แบบจำลองขั้นสุดท้าย สิ่งนี้ทำให้ฉันรู้สึกคล้ายกับบางอย่างเช่นการถดถอยของป่าแบบสุ่มซึ่งต้นไม้การถดถอยจำนวนมากถูกสร้างและเฉลี่ย อย่างไรก็ตามประสิทธิภาพของแบบจำลอง OLS โดยเฉลี่ยดูเหมือนจะแย่กว่าการสร้างแบบจำลอง OLS เพียงตัวเดียวบนข้อมูลทั้งหมด คำถามของฉันคือ: มีเหตุผลทางทฤษฎีว่าทำไมค่าเฉลี่ยหลายรุ่น OLS ผิดหรือไม่พึงประสงค์? เราคาดหวังว่าค่าเฉลี่ยของ OLS หลายรุ่นเพื่อลดการ overfitting หรือไม่ ด้านล่างเป็นตัวอย่าง R #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- …

1
2SLS นั้นได้รับการจำแนกโดยชอบธรรม
ในเศรษฐมิติที่ไม่เป็นอันตรายส่วนใหญ่: สหายของนักประจักษ์ (Angrist and Pischke, 2009: หน้า 209) ฉันได้อ่านสิ่งต่อไปนี้: ( ... ) ในความเป็นจริง 2SLS เพียงระบุ (พูด, ประมาณการ Wald ง่าย) จะอยู่ที่ประมาณเป็นกลาง นี่เป็นเรื่องยากที่จะแสดงอย่างเป็นทางการเพราะ 2SLS ที่เพิ่งระบุมีช่วงเวลาไม่นาน (เช่นการกระจายตัวตัวอย่างมีหางอ้วน) อย่างไรก็ตามถึงแม้จะมีเครื่องมือที่อ่อนแอ แต่ 2SLS ที่เพิ่งได้รับการระบุก็ยังมีศูนย์กลางอยู่ที่ควร ดังนั้นเราจึงกล่าวว่า 2SLS ที่เพิ่งระบุมีค่ามัธยฐาน ( ... ) แม้ว่าผู้เขียนบอกว่า 2SLS เพียงระบุเป็นค่ามัธยฐาน-เป็นกลางพวกเขาไม่พิสูจน์มันมิได้ให้การอ้างอิงถึงหลักฐาน ที่หน้า 213 พวกเขากล่าวถึงข้อเสนออีกครั้ง แต่ไม่มีการอ้างอิงถึงข้อพิสูจน์ นอกจากนี้ฉันไม่สามารถหาแรงจูงใจสำหรับข้อเสนอในบันทึกการบรรยายของพวกเขาเกี่ยวกับตัวแปรเครื่องมือจาก MIT , หน้า 22 เหตุผลอาจเป็นไปได้ว่าเรื่องที่เป็นเท็จตั้งแต่พวกเขาปฏิเสธมันในข้อความในบล็อกของพวกเขา อย่างไรก็ตาม 2SLS ที่เพิ่งได้รับการระบุนั้นมีค่ามัธยฐานโดยประมาณโดยประมาณพวกเขาเขียน …

2
“ กำลังสองน้อยที่สุด” และ“ การถดถอยเชิงเส้น” เป็นคำพ้องความหมายหรือไม่?
ความแตกต่างระหว่างกำลังสองน้อยที่สุดกับการถดถอยเชิงเส้นคืออะไร มันเป็นสิ่งเดียวกันหรือไม่?

2
มีสถานการณ์ใดบ้างที่ควรใช้การถดถอยแบบขั้นตอน?
การถดถอยแบบขั้นตอนได้รับการใช้มากเกินไปในเอกสารชีวการแพทย์จำนวนมากในอดีต แต่สิ่งนี้ดูเหมือนว่าจะดีขึ้นด้วยการศึกษาที่ดีขึ้นของปัญหามากมาย ผู้ตรวจสอบรุ่นเก่าหลายคนยังคงขอมัน สถานการณ์ใดที่การถดถอยแบบขั้นตอนมีบทบาทและควรใช้ถ้ามี

1
AIC ของการถดถอยของสันเขา: องศาอิสระเทียบกับจำนวนพารามิเตอร์
ฉันต้องการคำนวณ AICc ของตัวแบบการถดถอยแนวสัน ปัญหาคือจำนวนพารามิเตอร์ สำหรับการถดถอยเชิงเส้นคนส่วนใหญ่แนะนำว่าจำนวนของพารามิเตอร์เท่ากับจำนวนของค่าสัมประสิทธิ์โดยประมาณพร้อมซิกม่า (ความแปรปรวนของข้อผิดพลาด) เมื่อพูดถึงการถดถอยของสันเขาฉันได้อ่านว่าร่องรอยของเมทริกซ์ของหมวก - ระดับความเป็นอิสระ (df) - นั้นถูกใช้เป็นจำนวนพารามิเตอร์ในสูตร AIC (เช่นที่นี่หรือที่นี่ ) ถูกต้องหรือไม่ ฉันสามารถใช้ df เพื่อคำนวณ AICc ได้หรือไม่ ฉันสามารถเพิ่ม +1 ลงในบัญชี df เพื่อดูความแปรปรวนข้อผิดพลาดได้หรือไม่

1
คุณช่วยอธิบายวิธีการ IRLS ที่ใช้งานง่ายเพื่อหา MLE ของ GLM ได้หรือไม่?
พื้นหลัง: ฉันพยายามที่จะทำตามการตรวจสอบพรินซ์ตันของการประมาณค่า MLE สำหรับ GLM ฉันเข้าใจพื้นฐานของการประมาณค่า MLE นี้likelihood, scoreข้อสังเกตและคาดว่าFisher informationและFisher scoringเทคนิค และฉันรู้ว่าวิธีการที่จะแสดงให้เห็นถึงการถดถอยเชิงเส้นที่เรียบง่ายด้วยการประมาณค่า MLE คำถาม: ฉันไม่เข้าใจแม้แต่บรรทัดแรกของวิธีนี้ :( สัญชาตญาณของตัวแปรการทำงานของZผมziz_iหมายถึงอะไร: Zผม= η^ผม+ ( yผม- μ^ผม) dηผมdμผมzi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} ทำไมพวกเขาจะนำมาใช้แทนYผมyiy_iที่จะประเมินββ\beta ? และสิ่งที่พวกเขามีความสัมพันธ์กับresponse/link functionซึ่งคือการเชื่อมต่อระหว่างηη\etaและμμ\mu หากใครมีคำอธิบายง่าย ๆ หรือสามารถนำฉันไปที่ข้อความระดับพื้นฐานเพิ่มเติมเกี่ยวกับเรื่องนี้ฉันจะขอบคุณ

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

2
วิธีการกำหนดเขตการปฏิเสธเมื่อไม่มี UMP
พิจารณาโมเดลการถดถอยเชิงเส้น ,y=Xβ+uy=Xβ+u\mathbf{y}=\mathbf{X\beta}+\mathbf{u} ,u∼N(0,σ2I)u∼N(0,σ2I)\mathbf{u}\sim N(\mathbf{0},\sigma^2\mathbf{I}) 0E( u ∣ X ) = 0E(u∣X)=0E(\mathbf{u}\mid\mathbf{X})=\mathbf{0} ขอ VS H 1 : σ 2 0 ≠ σ 2H0: σ20= σ2H0:σ02=σ2H_0: \sigma_0^2=\sigma^2H1: σ20≠ σ2H1:σ02≠σ2H_1: \sigma_0^2\neq\sigma^2 เราสามารถอนุมานได้ว่าที่วันที่ฉันm(X)=n×k และเอ็มเอ็กซ์เป็นสัญกรณ์ปกติสำหรับเมทริกซ์สังหาร,MXY= Yที่ YคือตัวแปรYถดถอยบนXYTMXYσ2∼ χ2( n - k )yTMXyσ2∼χ2(n−k)\frac{\mathbf{y}^T\mathbf{M_X}\mathbf{y}}{\sigma^2}\sim \chi^2(n-k)dฉันm ( X ) = n × kdim(X)=n×kdim(\mathbf{X})=n\times kMXMX\mathbf{M_X}MXy = y^MXy=y^\mathbf{M_X}\mathbf{y}=\hat{\mathbf{y}}Y^y^ \hat{\mathbf{y}}Yy\mathbf{y}XX\mathbf{X} หนังสือที่ฉันอ่านระบุดังต่อไปนี้: …

2
เหตุใดจึงใช้กลุ่มบ่วงบาศแทนสายบ่วง
ฉันได้อ่านว่ากลุ่ม lasso ใช้สำหรับการเลือกตัวแปรและ sparsity ในกลุ่มของตัวแปร ฉันต้องการทราบสัญชาตญาณที่อยู่เบื้องหลังการเรียกร้องนี้ เหตุใดจึงเลือกกลุ่มบาศกลุส ทำไมเส้นทางการแก้ปัญหาแบบกลุ่มแบบไม่ต่อเนื่องเป็นเส้นตรง

2
สูตรสำหรับช่วงความมั่นใจ 95% สำหรับ
ฉันค้นหาและค้นหาบน stats.stackexchange แต่ไม่พบสูตรการคำนวณช่วงความมั่นใจ 95% สำหรับค่าสำหรับการถดถอยเชิงเส้น ทุกคนสามารถให้ได้หรือไม่R2R2R^2 ยิ่งไปกว่านั้นสมมติว่าฉันใช้การถดถอยเชิงเส้นด้านล่างในอาร์ฉันจะคำนวณช่วงความมั่นใจ 95% สำหรับค่าโดยใช้รหัส R ได้อย่างไรR2R2R^2 lm_mtcars <- lm(mpg ~ wt, mtcars)

2
การจับภาพฤดูกาลในการถดถอยหลายครั้งสำหรับข้อมูลรายวัน
ฉันมีข้อมูลยอดขายรายวันสำหรับผลิตภัณฑ์ซึ่งเป็นไปตามฤดูกาล ฉันต้องการบันทึกฤดูกาลตามโมเดลการถดถอย ฉันได้อ่านว่าหากคุณมีข้อมูลรายไตรมาสหรือรายเดือนในกรณีนี้คุณสามารถสร้างตัวแปรจำลอง 3 และ 11 ตัวตามลำดับ - แต่ฉันสามารถจัดการกับข้อมูลรายวันได้หรือไม่ ฉันมีข้อมูลรายวันสามปี ตัวแปรอิสระคือจุดราคาแฟล็กการส่งเสริมการขาย (ใช่ / ไม่ใช่) และอุณหภูมิ ตัวแปรตามคือยอดขายของผลิตภัณฑ์นั้น ฉันไม่ได้กำลังมองหาโมเดลอนุกรมเวลาเนื่องจากฉันใช้โมเดลการถดถอยหลายแบบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.