คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

4
ทำไมไม่บันทึกการแปลงตัวแปรทั้งหมดที่ไม่เป็นที่สนใจหลัก?
หนังสือและการอภิปรายมักระบุว่าเมื่อเผชิญกับปัญหา (ซึ่งมีไม่กี่) กับตัวทำนาย, log-transformimg มันเป็นไปได้ ตอนนี้ฉันเข้าใจว่าสิ่งนี้ขึ้นอยู่กับการแจกแจงและความปกติในตัวทำนายไม่ได้เป็นข้อสันนิษฐานของการถดถอย แต่การบันทึกการเปลี่ยนแปลงจะทำให้ข้อมูลมีความสม่ำเสมอมากขึ้นได้รับผลกระทบจากค่าผิดปกติน้อยลงเรื่อย ๆ ฉันคิดเกี่ยวกับการบันทึกการเปลี่ยนตัวแปรต่อเนื่องทั้งหมดของฉันซึ่งไม่ได้เป็น interesr หลักเช่นตัวแปรที่ฉันปรับเท่านั้น มันผิดหรือเปล่า? ดี? ไร้ประโยชน์?

2
การถดถอยด้วยตัวแปรอิสระผกผัน
สมมุติว่าฉันมี -vectorของตัวแปรตามและ -vectorของตัวแปรอิสระ เมื่อได้วางแผนกับฉันเห็นว่ามีความสัมพันธ์เชิงเส้น (แนวโน้มสูงขึ้น) ระหว่างทั้งสอง ตอนนี้ก็หมายความว่ามีแนวโน้มลดลงเชิงเส้นตรงระหว่างและXY N X Y 1ยังไม่มีข้อความNNYYYยังไม่มีข้อความNNXXXYYY YX1X1X\frac{1}{X}YYYXXX ตอนนี้ถ้าฉันใช้การถดถอย: และรับค่าที่ติดตั้งY = β XY= β∗ X+ ϵY=β∗X+ϵY = \beta * X + \epsilonY^= β^XY^=β^X\hat{Y} = \hat{\beta}X จากนั้นฉันก็ทำการถดถอย:และรับค่าติดตั้ง ~ Y = α 1Y= α ∗ 1X+ ϵY=α∗1X+ϵY = \alpha * \frac{1}{X} + \epsilonY~= α^1XY~=α^1X\tilde{Y} = \hat{\alpha} \frac{1}{X} ค่าสองค่าที่คาดการณ์ไว้และจะเท่ากันหรือไม่? …

2
การแทรกแซงด้วยความแตกต่าง
เมื่อทำการวิเคราะห์การแทรกแซงด้วยข้อมูลอนุกรมเวลา (อนุกรมเวลาขัดจังหวะ aka) ดังที่กล่าวไว้ที่นี่ตัวอย่างหนึ่งข้อกำหนดที่ฉันมีคือการประเมินผลรวม (หรือการสูญเสีย) เนื่องจากการแทรกแซง - จำนวนหน่วยที่ได้รับหรือสูญหาย (ตัวแปร Y ) ไม่เข้าใจวิธีการประมาณฟังก์ชั่นการแทรกแซงโดยใช้ฟังก์ชั่นตัวกรองภายใน R ฉันไปเกี่ยวกับมันในลักษณะเดรัจฉานแรงหวังว่านี่เป็นเรื่องทั่วไปพอที่จะทำงานในสถานการณ์ใด ๆ ให้บอกว่าได้รับข้อมูล cds<- structure(c(2580L, 2263L, 3679L, 3461L, 3645L, 3716L, 3955L, 3362L, 2637L, 2524L, 2084L, 2031L, 2256L, 2401L, 3253L, 2881L, 2555L, 2585L, 3015L, 2608L, 3676L, 5763L, 4626L, 3848L, 4523L, 4186L, 4070L, 4000L, 3498L), .Dim = c(29L, 1L), …

3
เป็นไปได้ใน R (หรือโดยทั่วไป) เพื่อบังคับให้สัมประสิทธิ์การถดถอยเป็นสัญญาณที่แน่นอน?
ฉันกำลังทำงานกับข้อมูลโลกแห่งความจริงและตัวแบบการถดถอยกำลังให้ผลลัพธ์ที่ตรงข้าม โดยปกติฉันเชื่อถือสถิติ แต่ในความเป็นจริงสิ่งเหล่านี้ไม่สามารถเป็นจริงได้ ปัญหาหลักที่ฉันเห็นคือการเพิ่มขึ้นของตัวแปรหนึ่งทำให้การตอบสนองเพิ่มขึ้นเมื่อในความเป็นจริงในความเป็นจริงพวกเขาจะต้องมีความสัมพันธ์เชิงลบ มีวิธีการบังคับให้ลงชื่อเฉพาะสำหรับแต่ละสัมประสิทธิ์การถดถอยหรือไม่? รหัส R ใด ๆ ในการทำเช่นนี้ก็จะได้รับการชื่นชมเช่นกัน ขอบคุณสำหรับความช่วยเหลือใด ๆ !

2
สมการความสัมพันธ์ตัวอย่างและสถิติ R สำหรับการถดถอยเชิงเส้นอย่างง่าย
มันมักจะระบุว่าสแควร์ของความสัมพันธ์ตัวอย่างเทียบเท่ากับสัมประสิทธิ์การตัดสินใจสำหรับการถดถอยเชิงเส้นอย่างง่าย ฉันไม่สามารถแสดงให้เห็นถึงสิ่งนี้ได้ด้วยตนเองและขอขอบคุณที่พิสูจน์ความจริงทั้งหมดนี้R 2r2r2r^2R2R2R^2

1
เหตุใดข้อผิดพลาดที่ไม่ได้กระจายทั่วไปทำให้ความถูกต้องของข้อความสำคัญของเราไม่เป็นจริง
มีการสันนิษฐานว่าเป็นเรื่องปกติเมื่อพิจารณารูปแบบของ OLS และนั่นคือข้อผิดพลาดที่ได้รับการกระจายตามปกติ ฉันเรียกดูผ่านการตรวจสอบข้ามและดูเหมือนว่า Y และ X ไม่จำเป็นต้องเป็นปกติเพื่อให้ข้อผิดพลาดเป็นปกติ คำถามของฉันคือสาเหตุที่เมื่อเรามีข้อผิดพลาดที่ไม่ได้กระจายทั่วไปความถูกต้องของข้อความสำคัญของเราถูกบุกรุก ทำไมช่วงความมั่นใจจะกว้างหรือแคบเกินไป

1
ติดตั้ง GARCH (1,1) - รุ่นที่มี covariates ใน R
ฉันมีประสบการณ์เกี่ยวกับการสร้างแบบจำลองอนุกรมเวลาในรูปแบบของ ARIMA แบบง่าย ๆ เป็นต้น ตอนนี้ฉันมีข้อมูลบางส่วนที่แสดงการจัดกลุ่มความผันผวนและฉันอยากจะลองเริ่มต้นด้วยการปรับโมเดล GARCH (1,1) ให้พอดีกับข้อมูล ฉันมีชุดข้อมูลและตัวแปรหลายอย่างที่ฉันคิดว่ามีอิทธิพลต่อมัน ดังนั้นในแง่การถดถอยพื้นฐานดูเหมือนว่า: Yเสื้อ= α + β1xt 1+ β2xt 2+ ϵเสื้อ.yt=α+β1xt1+β2xt2+ϵt. y_t = \alpha + \beta_1 x_{t1} + \beta_2 x_{t2} + \epsilon_t . แต่ฉันกำลังสูญเสียอย่างสมบูรณ์ในวิธีการนำสิ่งนี้ไปใช้ในแบบจำลอง GARCH (1,1)? ฉันดูที่rugarch- แพ็คเกจและfGarch- แพ็คเกจRแต่ฉันไม่สามารถทำอะไรที่มีความหมายนอกเหนือจากตัวอย่างที่พบได้บนอินเทอร์เน็ต
10 r  regression  garch 

1
ปัจจัยเงินเฟ้อความแปรปรวนสำหรับตัวแบบเสริมทั่วไป
ในการคำนวณ VIF ตามปกติสำหรับการถดถอยเชิงเส้นแต่ละตัวแปรอิสระ / อธิบายจะถือว่าเป็นตัวแปรตามในการถดถอยกำลังสองน้อยที่สุดธรรมดา กล่าวคือXJXJX_j XJ= β0+ ∑i = 1 , ฉัน≠ jnβผมXผมXJ=β0+Σผม=1,ผม≠JnβผมXผม X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i ค่าจะถูกเก็บไว้สำหรับแต่ละการถดถอยและ VIF ถูกกำหนดโดยR2R2R^2nnn VผมFJ= 11 - R2JVผมFJ=11-RJ2 VIF_j = \frac{1}{1-R^2_j} สำหรับตัวแปรอธิบายโดยเฉพาะ สมมติว่าโมเดลเสริมทั่วไปของฉันใช้รูปแบบ Y= β0+ ∑i = 1nβผมXผม+ ∑j = 1ม.sJ( Xผม) .Y=β0+Σผม=1nβผมXผม+ΣJ=1ม.sJ(Xผม). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + …

1
การประเมินประสิทธิภาพของตัวแบบการถดถอยโดยใช้ชุดฝึกอบรมและชุดทดสอบ?
ฉันมักจะได้ยินเกี่ยวกับการประเมินประสิทธิภาพของรูปแบบการจำแนกประเภทโดยถือชุดทดสอบและฝึกอบรมแบบจำลองในชุดฝึกอบรม จากนั้นสร้างเวกเตอร์ 2 ตัวหนึ่งรายการสำหรับค่าที่คาดการณ์และอีกหนึ่งรายการสำหรับค่าจริง เห็นได้ชัดว่าการเปรียบเทียบช่วยให้ผู้ตัดสินประสิทธิภาพของแบบจำลองโดยใช้พลังการทำนายโดยใช้สิ่งต่าง ๆ เช่นคะแนน F, สถิติ Kappa, ความแม่นยำ & การเรียกคืน, เส้นโค้ง ROC เป็นต้น สิ่งนี้เปรียบเทียบกับการประเมินการทำนายตัวเลขเช่นการถดถอยอย่างไร ฉันจะสมมติว่าคุณสามารถฝึกรูปแบบการถดถอยในชุดฝึกอบรมใช้เพื่อทำนายค่าจากนั้นเปรียบเทียบค่าที่ทำนายเหล่านี้กับค่าจริงที่อยู่ในชุดทดสอบ เห็นได้ชัดว่าการวัดประสิทธิภาพจะต้องแตกต่างกันเนื่องจากนี่ไม่ใช่งานจัดหมวดหมู่ สถิติทั่วไปและเหลือเป็นมาตรการที่ชัดเจน แต่มีวิธีที่ดีกว่า / ดีกว่าในการประเมินประสิทธิภาพสำหรับตัวแบบการถดถอยหรือไม่? ดูเหมือนว่าการจัดประเภทมีตัวเลือกมากมาย แต่การถดถอยถูกปล่อยไว้ที่และส่วนที่เหลือR2R2R^2R2R2R^2

1
อะไรคือความแตกต่างพื้นฐานระหว่างตัวแบบการถดถอยสองตัวนี้
สมมติว่าฉันมีการตอบสนองแบบ bivariate ที่มีความสัมพันธ์อย่างมีนัยสำคัญ ฉันพยายามเปรียบเทียบทั้งสองวิธีเพื่อจำลองผลลัพธ์เหล่านี้ วิธีหนึ่งคือการสร้างแบบจำลองความแตกต่างระหว่างผลลัพธ์ทั้งสอง: อีกวิธีหนึ่งคือการใช้หรือสร้างแบบจำลองพวกเขา: ( y i j = β 0 + เวลา+ X ′ β )(yi2−yi1=β0+X′β)(yi2−yi1=β0+X′β)(y_{i2}-y_{i1}=\beta_0+X'\beta)glsgee(yij=β0+time+X′β)(yij=β0+time+X′β)(y_{ij}=\beta_0+\text{time}+X'\beta) นี่คือตัวอย่างของ foo: #create foo data frame require(mvtnorm) require(reshape) set.seed(123456) sigma <- matrix(c(4,2,2,3), ncol=2) y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma) cor(y) x1<-rnorm(500) x2<-rbinom(500,1,0.4) df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2) df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long") df.long<-df.long[order(df.long$id),] df.wide$diff_y<-df.wide$y2-df.wide$y1 #regressions fit1<-lm(diff_y~x1+x2,data=df.wide) fit2<-lm(y~time+x1+x2,data=df.long) fit3<-gls(y~time+x1+x2,data=df.long, correlation = …

2
การอนุมานการถดถอยที่แข็งแกร่งและตัวประมาณแซนวิช
คุณช่วยยกตัวอย่างการใช้ตัวประมาณค่าแซนวิชเพื่อทำการอนุมานการถดถอยที่มีประสิทธิภาพได้หรือไม่? ฉันสามารถดูตัวอย่างใน?sandwichแต่ฉันไม่เข้าใจวิธีการที่เราสามารถไปจากlm(a ~ b, data)( R -coded) เพื่อการประมาณการและPsandwichคุ้มค่าที่เกิดจากรูปแบบการถดถอยโดยใช้เมทริกซ์ความแปรปรวนแปรปรวนส่งกลับโดยฟังก์ชั่น
10 r  regression  lm  sandwich 

3
การเปรียบเทียบแบบจำลองการถดถอยแบบโลจิสติกไบนารีที่ซ้อนกันเมื่อมีขนาดใหญ่
ที่ดีกว่าการถามคำถามของฉันฉันได้ให้บางส่วนของเอาท์พุทจากทั้งรุ่น 16 ตัวแปร ( fit) และรุ่น 17 ตัวแปร ( fit2) ด้านล่าง (ทุกตัวแปรในรูปแบบเหล่านี้เป็นอย่างต่อเนื่องที่แตกต่างระหว่างรุ่นเหล่านี้ก็คือfitไม่ได้ มีตัวแปร 17 (var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma …

3
ความสับสนที่เกี่ยวข้องกับตาข่ายยืดหยุ่น
ฉันกำลังอ่านบทความนี้เกี่ยวข้องกับเครือข่ายอีลาสติก พวกเขาบอกว่าพวกเขาใช้ตาข่ายยืดหยุ่นเพราะถ้าเราแค่ใช้ Lasso มันก็มีแนวโน้มที่จะเลือกตัวทำนายเพียงตัวเดียวในกลุ่มที่มีความสัมพันธ์สูง แต่นี่ไม่ใช่สิ่งที่เราต้องการ ฉันหมายความว่ามันช่วยเราจากปัญหาความหลากสีไม่ได้ ข้อเสนอแนะ / ชี้แจง?

4
การถดถอยของ x กับ y ดีกว่า y ใน x ในกรณีนี้หรือไม่
เครื่องมือที่ใช้ในการวัดระดับกลูโคสในเลือดของบุคคลนั้นจะถูกตรวจสอบจากกลุ่มตัวอย่าง 10 คน นอกจากนี้ยังมีการวัดระดับด้วยวิธีการทางห้องปฏิบัติการที่แม่นยำมาก เครื่องมือวัดจะถูกแทนด้วย x การวัดขั้นตอนในห้องปฏิบัติการนั้นเขียนด้วย y โดยส่วนตัวแล้วฉันคิดว่า y on x นั้นถูกต้องมากขึ้นเพราะความตั้งใจที่จะใช้เครื่องมือการอ่านเพื่อทำนายการอ่านในห้องปฏิบัติการ และ y on x ลดข้อผิดพลาดของการคาดคะเนดังกล่าว แต่คำตอบที่ให้คือ x กับ y

1
การตรวจสอบความทนทานของการถดถอยโลจิสติกกับการละเมิดความเป็นเชิงเส้นของ logit
ฉันกำลังทำการถดถอยโลจิสติกด้วยผลลัพธ์ไบนารี (เริ่มต้นและไม่เริ่ม) การผสมผสานของผู้ทำนายของฉันนั้นล้วน แต่เป็นตัวแปรแบบต่อเนื่องหรือแบบแบ่งขั้ว การใช้วิธี Box-Tidwell หนึ่งในเครื่องมือทำนายอย่างต่อเนื่องของฉันอาจละเมิดสมมติฐานของความเป็นเชิงเส้นของ logit ไม่มีข้อบ่งชี้จากสถิติความดีพอดีว่าเป็นปัญหา ฉันได้เรียกใช้โมเดลการถดถอยอีกครั้งโดยแทนที่ตัวแปรต่อเนื่องดั้งเดิมด้วย: ประการแรกการแปลงรากที่สองและที่สองคือตัวแปรที่มีการแบ่งขั้ว ในการตรวจสอบผลลัพธ์ดูเหมือนว่าความดีของพอดีช่วยปรับปรุงเล็กน้อย แต่เศษเหลือเป็นปัญหา การประมาณพารามิเตอร์, ข้อผิดพลาดมาตรฐานและยังคงคล้ายกัน การตีความข้อมูลไม่เปลี่ยนแปลงตามสมมติฐานของฉันทั้ง 3 แบบประสบการณ์( β)ประสบการณ์⁡(β)\exp(\beta) ดังนั้นในแง่ของประโยชน์ของผลลัพธ์และความหมายในการตีความข้อมูลของฉันมันดูเหมือนว่าจะเหมาะสมที่จะรายงานตัวแบบการถดถอยโดยใช้ตัวแปรต่อเนื่องดั้งเดิม ฉันสงสัยว่านี้: การถดถอยโลจิสติกส์แข็งแกร่งเมื่อใดเมื่อเปรียบเทียบกับการละเมิดความเป็นเส้นตรงของข้อสมมติฐาน logit จากตัวอย่างข้างต้นของฉันดูเหมือนจะยอมรับได้หรือไม่ที่จะรวมตัวแปรต่อเนื่องดั้งเดิมไว้ในโมเดล มีการอ้างอิงหรือคำแนะนำสำหรับการแนะนำเมื่อเป็นที่พอใจหรือไม่ที่จะยอมรับว่าแบบจำลองนั้นมีความทนทานต่อการละเมิดความเป็นเส้นตรงของ logit หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.