คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

2
ข้อมูลระยะยาว: อนุกรมเวลาการวัดซ้ำหรืออย่างอื่น
ในภาษาอังกฤษธรรมดา: ฉันมีการถดถอยหลายครั้งหรือแบบจำลอง ANOVA แต่ตัวแปรการตอบสนองสำหรับแต่ละบุคคลเป็นฟังก์ชัน curvilinear ของเวลา ฉันจะบอกได้อย่างไรว่าตัวแปรด้านขวามือใดที่รับผิดชอบความแตกต่างที่สำคัญในรูปร่างหรือการชดเชยแนวดิ่งของเส้นโค้ง นี่เป็นปัญหาอนุกรมเวลาปัญหาซ้ำหลายครั้งหรืออย่างอื่นทั้งหมดหรือไม่ อะไรคือแนวปฏิบัติที่ดีที่สุดสำหรับการวิเคราะห์ข้อมูลดังกล่าว (ควรใช้Rแต่ฉันเปิดให้ใช้ซอฟต์แวร์อื่น) ในแง่ที่แม่นยำยิ่งขึ้น: สมมุติว่าฉันมีแบบจำลองแต่เป็นชุดของข้อมูลที่รวบรวมจากจุดkบุคคลเดียวกันที่เวลาหลายจุดtซึ่งถูกบันทึกเป็นตัวแปรตัวเลข การพล็อตข้อมูลแสดงให้เห็นว่าสำหรับแต่ละy_ {ijkt}เป็นฟังก์ชันกำลังสองหรือวัฏจักรของเวลาซึ่งออฟเซ็ตแนวตั้งรูปร่างหรือความถี่ (ในกรณีวัฏจักร) อาจขึ้นอยู่กับ covariates โควาเรียตไม่เปลี่ยนแปลงตลอดเวลา - กล่าวคือบุคคลมีน้ำหนักตัวคงที่หรือกลุ่มการรักษาในช่วงระยะเวลาของการรวบรวมข้อมูลy ฉันj k k t y ฉันj k tYฉันเจk= β0+ β1xผม+ β2xJ+ β3xผมxJ+ ϵkyijk=β0+β1xi+β2xj+β3xixj+ϵky_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kYฉันเจkyijky_{ijk}kkkเสื้อttYผม j k tyijkty_{ijkt} …

1
คำแนะนำในการระบุรูปร่างโค้งโดยใช้ quantreg
ฉันใช้แพ็คเกจquantregเพื่อสร้างแบบจำลองการถดถอยโดยใช้เปอร์เซ็นไทล์ที่ 99 ของค่าของฉันในชุดข้อมูล ตามคำแนะนำจากคำถาม stackoverflow ก่อนหน้านี้ที่ฉันถามฉันใช้โครงสร้างรหัสต่อไปนี้ mod <- rq(y ~ log(x), data=df, tau=.99) pDF <- data.frame(x = seq(1,10000, length=1000) ) pDF <- within(pDF, y <- predict(mod, newdata = pDF) ) ซึ่งฉันแสดงพล็อตที่ด้านบนของข้อมูลของฉัน ฉันวางแผนเรื่องนี้โดยใช้ ggplot2 โดยมีค่าอัลฟาสำหรับจุด ฉันคิดว่าหางของการแจกแจงของฉันไม่ได้รับการพิจารณาอย่างเพียงพอในการวิเคราะห์ของฉัน บางทีนี่อาจเป็นเพราะความจริงที่ว่ามีแต่ละจุดที่ถูกละเว้นโดยการวัดประเภทเปอร์เซ็นไทล์ หนึ่งในความคิดเห็นที่แนะนำว่า บทความสั้นรวมถึงส่วนที่เกี่ยวกับการถดถอยเชิงเส้นไม่เชิงเส้นและรุ่นที่มีเส้นโค้งเรียบ จากคำถามก่อนหน้านี้ฉันถือว่าความสัมพันธ์ลอการิทึม แต่ฉันไม่แน่ใจว่าถูกต้องหรือไม่ ฉันคิดว่าฉันสามารถแยกคะแนนทั้งหมดในช่วงเวลาเปอร์เซ็นไทล์ที่ 99 แล้วตรวจสอบแยกกัน แต่ฉันไม่แน่ใจว่าจะทำอย่างไรหรือว่าเป็นวิธีที่ดี ฉันขอขอบคุณคำแนะนำเกี่ยวกับวิธีปรับปรุงการระบุความสัมพันธ์นี้

2
การเปรียบเทียบตัวแบบผสม (ตัวแบบสุ่ม) กับตัวแบบเชิงเส้นอย่างง่าย (ตัวแบบเป็นเอฟเฟกต์คงที่)
ฉันกำลังทำการวิเคราะห์บางอย่างกับชุดข้อมูลขนาดใหญ่ ฉันต้องการใช้โมเดลเชิงเส้นที่ใช้ในส่วนแรกของงานและปรับให้เหมาะสมโดยใช้โมเดลเชิงเส้นผสม (LME) LME จะคล้ายกันมากกับข้อยกเว้นว่าหนึ่งในตัวแปรที่ใช้ในแบบจำลองจะถูกใช้เป็นเอฟเฟกต์แบบสุ่ม ข้อมูลนี้มาจากการสังเกตหลายครั้ง (> 1,000) ในกลุ่มวิชาเล็ก ๆ (~ 10) และฉันรู้ว่าการสร้างแบบจำลองผลกระทบของเรื่องจะทำได้ดีกว่าเป็นเอฟเฟกต์แบบสุ่ม (นี่คือตัวแปรที่ฉันต้องการเปลี่ยน) รหัส R จะเป็นดังนี้: my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') ทุกอย่างทำงานได้ดีและผลลัพธ์ก็คล้ายคลึงกันอย่างมากมาย มันจะดีถ้าฉันสามารถใช้อะไรเช่น RLRsim หรือ AIC / BIC เพื่อเปรียบเทียบทั้งสองรุ่นและตัดสินใจว่าแบบใดที่เหมาะสมที่สุด เพื่อนร่วมงานของฉันไม่ต้องการรายงาน LME เพราะไม่มีวิธีเข้าถึงได้ง่ายในการเลือกว่า "ดีกว่า" …

2
ใช้สูตรเส้นแนวโน้มเพื่อรับค่า X ใด ๆ ที่กำหนดด้วย Excel
มีวิธีง่าย ๆ ในการใช้สูตรเส้นแนวโน้มจากแผนภูมิกับค่า X ที่กำหนดใน Excel หรือไม่ ตัวอย่างเช่นฉันต้องการได้รับค่า Y สำหรับ X ที่กำหนด = $ 2,006.00 ฉันได้นำสูตรไปแล้วและพิมพ์อีกครั้งเป็น: =-0.000000000008*X^3 - 0.00000001*X^2 + 0.0003*X - 0.0029 ฉันทำการปรับเทรนด์ไลน์อย่างต่อเนื่องโดยการเพิ่มข้อมูลมากขึ้นและไม่ต้องการพิมพ์สูตรซ้ำทุกครั้ง
10 regression  excel 

2
พล็อตการถดถอยเชิงซ้อนใน R
ฉันต้องการวาดกราฟิกที่ซับซ้อนสำหรับการวิเคราะห์ข้อมูลภาพ ฉันมี 2 ตัวแปรและกรณีจำนวนมาก (> 1,000) ตัวอย่างเช่น (หมายเลขคือ 100 ถ้าทำให้การกระจายน้อยลง "ปกติ"): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1) ฉันต้องการพล็อตข้อมูลดิบที่มีขนาดพอยต์ซึ่งสอดคล้องกับความถี่สัมพัทธ์ของความบังเอิญดังนั้นจึงplot(x,y)ไม่ใช่ตัวเลือก - ฉันต้องการขนาดพอยต์ สิ่งที่ควรทำเพื่อให้บรรลุสิ่งนี้? 2) ในพล็อตเดียวกันฉันต้องพล็อตความมั่นใจช่วง 95% วงรีและบรรทัดที่แสดงถึงการเปลี่ยนแปลงของสหสัมพันธ์ (ไม่รู้วิธีตั้งชื่ออย่างถูกต้อง) - บางอย่างเช่นนี้: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) แต่มีกราฟทั้งสองที่หนึ่งพล็อต 3) ในที่สุดฉันต้องวาดโมเดลการถดถอยของ linar ที่เกิดขึ้นจากสิ่งเหล่านี้ทั้งหมด: r<-lm(y~x, data=d) abline(r,col=2,lwd=2) แต่มีช่วงข้อผิดพลาด ... คล้ายกับ QQ-plot: แต่สำหรับข้อผิดพลาดที่เหมาะสมถ้าเป็นไปได้ …

1
พล็อตเส้นการถดถอยแบบต่อเนื่อง
มีวิธีการพล็อตบรรทัดการถดถอยของตัวแบบทีละชิ้นเช่นนี้นอกเหนือจากการใช้linesเพื่อพล็อตแต่ละเซ็กเมนต์แยกจากกันหรือใช้geom_smooth(aes(group=Ind), method="lm", fill=FALSE)? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients ขอบคุณ.

2
จะคำนวณช่วงความเชื่อมั่นของสัมประสิทธิ์การถดถอยใน PLS ได้อย่างไร?
แบบจำลองพื้นฐานของPLSคือ matrixและ vectorกำหนดสัมพันธ์กับ ที่คือเวลาแฝงเมทริกซ์และเป็นคำที่มีเสียงรบกวน (sssumingอยู่กึ่งกลาง)X n y X = T P ′ + E , y = T q ′ + f , T n × k E , f X , yn × mn×mn \times mXXXnnnYyyX=TP′+E,X=TP′+E,X = T P' + E, y=Tq′+f,y=Tq′+f,y = T q' + f,TTTn×kn×kn \times kE,fE,fE, …

3
แหล่งข้อมูลสำหรับการเรียนรู้เกี่ยวกับการถดถอยอนุกรมเวลาแบบเผด็จการ
"การปลอมแบบน่าเกรงขาม" (ในบริบทของอนุกรมเวลา) และคำที่เกี่ยวข้องเช่นการทดสอบรูทยูนิทเป็นสิ่งที่ฉันได้ยินมามากมายเกี่ยวกับเรื่องนี้ แต่ไม่เข้าใจเลย มันเกิดขึ้นเมื่อใดโดยสัญชาตญาณ (ฉันเชื่อว่ามันเป็นตอนที่อนุกรมเวลาสองชุดของคุณถูกรวมกันนั่นคือชุดค่าผสมเชิงเส้นบางส่วนของชุดแบบคงที่ แต่ฉันไม่เห็นว่าทำไมตัวกรองควรนำไปสู่ ฉันกำลังมองหาความเข้าใจระดับสูงของการทดสอบ cointegration / unit root / Granger causality เกี่ยวกับการถดถอยแบบเผ็ด ดังนั้นการตอบสนองที่กำหนดเองหรือลิงก์ไปยังการอ้างอิงที่ฉันสามารถเรียนรู้เพิ่มเติมจะดีมาก

1
ใน R“ glmnet” พอดีกับการสกัดกั้นหรือไม่?
glmnetฉันกำลังกระชับรูปแบบเชิงเส้นในการวิจัยโดยใช้ โมเดลดั้งเดิม (ที่ไม่ทำให้เป็นปกติ) ถูกติดตั้งโดยใช้lmและไม่มีเทอมคงที่ (นั่นคือในรูปแบบlm(y~0+x1+x2,data)) glmnetใช้เมทริกซ์ของผู้ทำนายและเวกเตอร์ของการตอบสนอง ฉันอ่านglmnetเอกสารแล้วและไม่สามารถเอ่ยถึงคำศัพท์คงที่ได้ ดังนั้นมีวิธีขอglmnetให้บังคับให้พอดีเชิงเส้นผ่านจุดกำเนิดหรือไม่
10 r  regression  lasso 

1
ความแตกต่างระหว่าง GLS และ SUR
ฉันได้อ่านเรื่อง Generalized Least Squares (GLS) บ้างแล้วและพยายามที่จะผูกมันกลับไปที่พื้นฐานทางเศรษฐศาสตร์พื้นฐานของฉัน ฉันจำได้ว่าตอนเรียนอยู่ชั้นมัธยมปลายโดยใช้ Seemingly Unrelated Regression (SUR) ซึ่งดูเหมือนจะค่อนข้างคล้ายกับ GLS กระดาษหนึ่งที่ฉันสะดุดแม้แต่เรียกว่า SUR เป็น "กรณีพิเศษ" ของ GLS แต่ฉันก็ยังไม่สามารถห่อหุ้มสมองของฉันเกี่ยวกับความคล้ายคลึงและความแตกต่าง ดังนั้นคำถาม: อะไรคือความเหมือนและความแตกต่างระหว่าง GLS และ SUR? จุดเด่นของปัญหาที่ควรใช้วิธีหนึ่งเหนืออีกวิธีคืออะไร?

1
คุณใช้การวิเคราะห์เศษซากแบบหลังพอดีชนิดใด
เมื่อดำเนินการถดถอยเชิงเส้นหลายครั้งของ OLS แทนที่จะวางแผนส่วนที่เหลือเทียบกับค่าติดตั้งฉันวางแผนส่วนที่เหลือแบบนักเรียน (ภายใน) กับค่าติดตั้ง (เหมือนกันสำหรับ covariates) ส่วนที่เหลือเหล่านี้ถูกกำหนดเป็น: อี* * * *ผม= eผมs2( 1 - ชมฉันฉัน)---------√อีผม* * * *=อีผมs2(1-ชั่วโมงผมผม)\begin{equation} e^*_i = \frac{e_i}{\sqrt{s^2 (1-h_{ii})}} \end{equation} โดยที่คือส่วนตกค้างและh i iเป็นองค์ประกอบในแนวทแยงของเมทริกซ์หมวก ในการรับค่าส่วนที่เหลือเป็นรายนักศึกษาเหล่านี้ใน R คุณสามารถใช้คำสั่งอีผมอีผมe_iชั่วโมงฉันฉันชั่วโมงผมผมh_{ii}rstandard คนประเภทใดที่ใช้เป็นประจำในบริบทนี้ ตัวอย่างเช่นคุณแค่ติดกับหรือคุณใช้ของเหลือของ jackknife หรืออย่างอื่นทั้งหมดอีผมอีผมe_i หมายเหตุ: ฉันไม่สนใจเอกสารที่กำหนดประเภทใหม่ของสารตกค้างที่ไม่มีใครเคยใช้

2
ในการถดถอยเชิงเส้นเหตุใดเราจึงควรรวมเทอมกำลังสองเมื่อเราสนใจเฉพาะเงื่อนไขการโต้ตอบ
สมมติว่าฉันสนใจโมเดลการถดถอยเชิงเส้นสำหรับ Yผม=β0+β1x1+β2x2+β3x1x2Yi=β0+β1x1+β2x2+β3x1x2Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2เพราะฉันต้องการดูว่าปฏิสัมพันธ์ระหว่าง covariates ทั้งสองมีผลต่อ Y หรือไม่ ในบันทึกรายวิชาของอาจารย์ (ซึ่งฉันไม่ได้ติดต่อด้วย) จะกล่าวถึง: เมื่อรวมถึงคำศัพท์เชิงโต้ตอบคุณควรรวมคำศัพท์ระดับปริญญาที่สองของพวกเขาไว้ด้วย กล่าวคือYผม=β0+β1x1+β2x2+β3x1x2+β4x21+β5x22Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2 ควรรวมอยู่ในการถดถอย ทำไมหนึ่งควรรวมถึงข้อกำหนดระดับที่สองเมื่อเราสนใจเฉพาะการโต้ตอบ?

2
เหตุใดเราใช้เหลือเพื่อทดสอบสมมติฐานเกี่ยวกับข้อผิดพลาดในการถดถอย
สมมติว่าเรามีรูปแบบ Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i. การถดถอยมีข้อสมมติฐานหลายประการเช่นข้อผิดพลาด ϵiϵi\epsilon_iควรกระจายตามปกติด้วยค่าเฉลี่ยศูนย์และความแปรปรวนคงที่ ฉันได้รับการสอนให้ตรวจสอบสมมติฐานเหล่านี้โดยใช้พล็อต QQ ปกติเพื่อทดสอบความเป็นไปได้ของส่วนที่เหลือei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_i และส่วนที่เหลือเทียบกับพล็อตที่ติดตั้งเพื่อตรวจสอบว่าส่วนที่เหลือแตกต่างกันไปรอบ ๆ ศูนย์ด้วยความแปรปรวนคงที่ อย่างไรก็ตามการทดสอบเหล่านี้ทั้งหมดเกี่ยวกับส่วนที่เหลือไม่ใช่ข้อผิดพลาด จากสิ่งที่ฉันเข้าใจข้อผิดพลาดหมายถึงการเบี่ยงเบนของการสังเกตแต่ละครั้งจากค่าเฉลี่ยที่แท้จริงของพวกเขา ดังนั้นเราสามารถเขียนϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]. เราไม่สามารถสังเกตเห็นข้อผิดพลาดเหล่านี้ได้ * * * * คำถามของฉันคือสิ่งนี้: สิ่งที่เหลืออยู่ของงานทำอย่างไรในการเลียนแบบข้อผิดพลาด? หากสมมติฐานปรากฏว่าพอใจในส่วนที่เหลือหมายความว่าพวกเขามีความพึงพอใจต่อข้อผิดพลาดด้วยหรือไม่? มีวิธีอื่น ๆ (ดีกว่า) ในการทดสอบสมมติฐานเช่นการปรับโมเดลให้เหมาะกับชุดข้อมูลการทดสอบและรับส่วนที่เหลือจากที่นั่นหรือไม่? * นอกจากนี้สิ่งนี้ไม่ต้องการให้มีการระบุรุ่นอย่างถูกต้องหรือไม่? นั่นคือการตอบสนองจะมีความสัมพันธ์กับผู้ทำนายX1,X2,X1,X2,X_1, X_2, ฯลฯ …

1
decision_function, predict_proba, และฟังก์ชันทำนายความแตกต่างของปัญหาการถดถอยโลจิสติกคืออะไร
ฉันได้อ่านเอกสารเกี่ยวกับ sklearn แล้ว แต่ฉันไม่สามารถเข้าใจวัตถุประสงค์ของฟังก์ชันเหล่านี้ในบริบทของการถดถอยโลจิสติกส์ เพราะdecision_functionมันบอกว่าระยะห่างระหว่างไฮเปอร์เพลนกับอินสแตนซ์การทดสอบ ข้อมูลเฉพาะนี้มีประโยชน์อย่างไร? และสิ่งนี้เกี่ยวข้องกับpredictและpredict-probaวิธีการอย่างไร

1
การเพิ่มตัวทำนายการถดถอยเชิงเส้นจะลด R กำลังสอง
ชุดข้อมูลของฉัน (ยังไม่มีข้อความ≈ 10 , 000ยังไม่มีข้อความ≈10,000N \approx 10,000) มีตัวแปรตาม (DV), "baseline" อิสระห้าตัวแปร (P1, P2, P3, P4, P5) และหนึ่งตัวแปรอิสระที่น่าสนใจ (Q) ฉันใช้การถดถอยเชิงเส้น OLS สำหรับรุ่นสองรุ่นต่อไปนี้: DV ~ 1 + P1 + P2 + P3 + P4 + P5 -> R-squared = 0.125 DV ~ 1 + P1 + P2 + P3 + P4 + …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.