คำถามติดแท็ก linear-model

อ้างถึงโมเดลใด ๆ ที่ตัวแปรสุ่มเกี่ยวข้องกับตัวแปรสุ่มหนึ่งตัวหรือมากกว่าโดยฟังก์ชันที่เป็นเส้นตรงในพารามิเตอร์จำนวน จำกัด


9
เมื่อใดที่จะเอาการสกัดกั้นในตัวแบบการถดถอยเชิงเส้นเมื่อใด
ฉันกำลังใช้ตัวแบบการถดถอยเชิงเส้นและสงสัยว่าเงื่อนไขสำหรับการลบคำดักจับนั้นคืออะไร ในการเปรียบเทียบผลลัพธ์จากการถดถอยสองแบบที่หนึ่งมีการสกัดกั้นและอื่น ๆ ไม่ได้ฉันสังเกตว่าของฟังก์ชันที่ไม่มีการสกัดกั้นนั้นสูงกว่ามาก มีเงื่อนไขหรือข้อสมมติฐานบางอย่างที่ฉันควรปฏิบัติตามเพื่อให้แน่ใจว่าการลบคำดักฟังนั้นถูกต้องหรือไม่R2R2R^2

2
การกำจัดคำดักจับทางสถิติสำคัญเพิ่มในตัวแบบเชิงเส้น
ในโมเดลเชิงเส้นอย่างง่ายพร้อมตัวแปรอธิบายเดียว αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i ฉันพบว่าการลบคำดักจับช่วยเพิ่มความพอดีอย่างมาก (ค่าจาก 0.3 เป็น 0.9) อย่างไรก็ตามคำว่าการดักจับนั้นมีนัยสำคัญทางสถิติR2R2R^2 ด้วยการสกัดกั้น: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta …

9
การถดถอยเชิงเส้นใน y กับ x กับ x กับ y แตกต่างกันอย่างไร?
สัมประสิทธิ์สหสัมพันธ์ของ Pearson ของ x และ y ไม่ว่าคุณจะคำนวณ pearson (x, y) หรือ pearson (y, x) นี่แสดงให้เห็นว่าการทำการถดถอยเชิงเส้นของ y ที่ให้ x หรือ x ที่ให้ y ควรเหมือนกัน แต่ฉันไม่คิดว่าเป็นเช่นนั้น ใครบางคนสามารถแสดงความคิดเห็นได้เมื่อความสัมพันธ์ไม่สมมาตรและวิธีการที่เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน (ซึ่งฉันคิดเสมอว่าเป็นการสรุปว่าเหมาะสมที่สุด)

4
PCA และสัดส่วนของความแปรปรวนอธิบาย
โดยทั่วไปสิ่งที่มีความหมายโดยบอกว่าเศษส่วนของความแปรปรวนในการวิเคราะห์เช่น PCA อธิบายโดยองค์ประกอบหลักแรก ใครสามารถอธิบายสิ่งนี้อย่างสังหรณ์ใจ แต่ยังให้คำจำกัดความทางคณิตศาสตร์ที่แม่นยำของสิ่งที่ "แปรปรวนอธิบาย" หมายถึงในแง่ของการวิเคราะห์องค์ประกอบหลัก (PCA)?xxx สำหรับการถดถอยเชิงเส้นอย่างง่าย r-squared ของเส้นพอดีที่ดีที่สุดจะถูกอธิบายเสมอตามสัดส่วนของความแปรปรวนที่อธิบาย แต่ฉันไม่แน่ใจว่าจะต้องทำอะไร สัดส่วนความแปรปรวนตรงนี้เป็นเพียงการขยายส่วนเบี่ยงเบนของคะแนนจากเส้นที่พอดีที่สุดหรือไม่?

2
รูปร่างของช่วงความมั่นใจสำหรับค่าที่คาดการณ์ไว้ในการถดถอยเชิงเส้น
ฉันสังเกตเห็นว่าช่วงความมั่นใจสำหรับค่าที่ทำนายในการถดถอยเชิงเส้นมีแนวโน้มแคบลงรอบค่าเฉลี่ยของตัวทำนายและไขมันรอบค่าต่ำสุดและค่าสูงสุดของตัวทำนาย สิ่งนี้สามารถเห็นได้ในพล็อตของการถดถอยเชิงเส้น 4 แบบนี้: ตอนแรกฉันคิดว่าเป็นเพราะค่านิยมของผู้ทำนายส่วนใหญ่กระจุกตัวอยู่กับค่าเฉลี่ยของผู้ทำนาย อย่างไรก็ตามฉันสังเกตเห็นว่าช่วงกลางที่แคบของช่วงความมั่นใจจะเกิดขึ้นแม้ว่าค่าจำนวนมากจะกระจุกตัวอยู่รอบสุดขั้วของตัวทำนายเช่นเดียวกับในการถดถอยเชิงเส้นด้านล่างซ้ายซึ่งค่าของตัวทำนายจำนวนมากนั้นมีสมาธิ ผู้ทำนาย ไม่มีใครสามารถอธิบายได้ว่าทำไมช่วงเวลาความเชื่อมั่นสำหรับค่าที่ทำนายไว้ในการถดถอยเชิงเส้นมีแนวโน้มที่จะแคบลงตรงกลางและไขมันที่สุดขั้ว?

4
การเลือกระหว่าง LM และ GLM สำหรับตัวแปรตอบกลับที่บันทึกการเปลี่ยนแปลง
ฉันพยายามที่จะเข้าใจปรัชญาที่อยู่เบื้องหลังโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) เทียบกับแบบจำลองเชิงเส้น (LM) ฉันได้สร้างชุดข้อมูลตัวอย่างด้านล่างโดยที่: เข้าสู่ระบบ( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon ตัวอย่างไม่ได้มีข้อผิดพลาดเป็นฟังก์ชันของขนาดของyดังนั้นฉันจะสมมติว่าโมเดลเชิงเส้นของบันทึกการแปลง y จะดีที่สุด ในตัวอย่างด้านล่างนี่เป็นกรณี (ฉันคิดว่า) - เนื่องจาก AIC ของ LM ในข้อมูลการแปลงบันทึกมีค่าต่ำที่สุด AIC ของการแจกแจงแกมมา GLM ที่มีฟังก์ชั่นบันทึกการเชื่อมโยงมีผลรวมของกำลังสองน้อยลง (SS) แต่การเพิ่มระดับความอิสระเพิ่มขึ้นส่งผลให้ AIC ที่สูงขึ้นเล็กน้อย ฉันรู้สึกประหลาดใจที่การแจกแจงแบบเกาส์ AIC นั้นสูงกว่ามาก (แม้ว่า SS จะเป็นรุ่นที่ต่ำที่สุด)εε\varepsilonYyy ฉันหวังว่าจะได้รับคำแนะนำเมื่อควรเข้าใกล้รุ่น GLM - มีบางสิ่งที่ฉันควรมองหาในโมเดล LM ของฉันที่พอดีกับส่วนที่เหลือเพื่อบอกฉันว่าการกระจายอื่นเหมาะสมกว่าหรือไม่ นอกจากนี้เราควรเลือกตระกูลการแจกจ่ายที่เหมาะสมอย่างไร ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของคุณ [แก้ไข]: ตอนนี้ฉันได้ปรับสถิติสรุปเพื่อให้ …

4
การถดถอยเชิงเส้นอย่างรวดเร็วแข็งแกร่งต่อค่าผิดปกติ
ฉันกำลังจัดการกับข้อมูลเชิงเส้นที่มีค่าผิดปกติซึ่งบางส่วนอยู่ที่ 5 ส่วนเบี่ยงเบนมาตรฐานห่างจากเส้นการถดถอยโดยประมาณ ฉันกำลังมองหาเทคนิคการถดถอยเชิงเส้นที่ลดอิทธิพลของจุดเหล่านี้ จนถึงตอนนี้สิ่งที่ฉันทำคือการประมาณค่าเส้นถดถอยกับข้อมูลทั้งหมดแล้วทิ้งจุดข้อมูลที่มีค่ากำลังสองเหลือมาก (พูดยอด 10%) และทำซ้ำการถดถอยซ้ำโดยไม่มีจุดเหล่านั้น ในวรรณคดีมีวิธีการที่เป็นไปได้มากมาย: สี่เหลี่ยมจัตุรัสที่ถูกตัดทอนน้อยที่สุดการถดถอยแบบควอไทล์เอ็ม - ตัวประมาณ ฯลฯ ฉันไม่รู้จริง ๆ ว่าวิธีใดที่ฉันควรลองดังนั้นฉันกำลังมองหาคำแนะนำ สิ่งสำคัญสำหรับฉันคือวิธีการที่เลือกควรเร็วเนื่องจากการคำนวณที่ถดถอยจะถูกคำนวณในแต่ละขั้นตอนของการปรับให้เหมาะสม ขอบคุณมาก!

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
ความเข้าใจผิดที่ Y ต้องแจกจ่ายตามปกติมาจากไหน
แหล่งที่เชื่อถือได้ดูเหมือนจะอ้างว่าตัวแปรตามต้องกระจายตามปกติ: รุ่นสมมติฐาน: YYYมีการกระจายตามปกติข้อผิดพลาดที่มีการกระจายตามปกติei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)และอิสระและXXXได้รับการแก้ไขและความแปรปรวนคงที่σ2σ2\sigma^2 2 การวิเคราะห์ข้อมูลที่ไม่ต่อเนื่องของ Penn State, STAT 504 ประการที่สองการวิเคราะห์การถดถอยเชิงเส้นกำหนดให้ตัวแปรทั้งหมดเป็นแบบหลายตัวแปรปกติ สถิติสรุปข้อสมมติฐานของการถดถอยเชิงเส้น สิ่งนี้เหมาะสมเมื่อตัวแปรตอบกลับมีการแจกแจงแบบปกติ Wikipedia, โมเดลเชิงเส้นทั่วไป มีคำอธิบายที่ดีเกี่ยวกับความเข้าใจผิดว่าทำไมหรือทำไมถึงเกิดการแพร่กระจาย? เป็นที่รู้จักหรือไม่? ที่เกี่ยวข้อง การถดถอยเชิงเส้นและสมมติฐานเกี่ยวกับตัวแปรตอบสนอง

3
ผลของการมีตัวทำนายที่สัมพันธ์กันในตัวแบบการถดถอยหลายแบบคืออะไร?
ฉันเรียนรู้ในชั้นเรียนโมเดลเชิงเส้นของฉันว่าหากตัวทำนายสองตัวมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ ตัวอย่างเช่นสมมติขนาดของบ้านและจำนวนห้องนอนมีความสัมพันธ์ เมื่อทำนายค่าใช้จ่ายของบ้านโดยใช้ตัวทำนายสองตัวนี้หนึ่งในนั้นสามารถทิ้งได้เพราะทั้งคู่ให้ข้อมูลเหมือนกันจำนวนมาก โดยสังหรณ์ใจสิ่งนี้สมเหตุสมผล แต่ฉันมีคำถามทางเทคนิคเพิ่มเติม: ผลกระทบนี้แสดงให้เห็นอย่างไรในค่า p ของสัมประสิทธิ์การถดถอยเมื่อรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองในตัวแบบ? ความแปรปรวนของสัมประสิทธิ์การถดถอยได้รับผลกระทบอย่างไรจากการรวมทั้งตัวทำนายทั้งสองตัวในแบบจำลองหรือแค่มีตัวเดียว? ฉันจะรู้ได้อย่างไรว่าตัวทำนายแบบใดที่เลือกให้มีความสำคัญน้อยกว่า การรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองเปลี่ยนค่า / ความแปรปรวนของต้นทุนที่คาดการณ์ของฉันได้อย่างไร

3
เหตุใดการถดถอยพหุนามจึงถือว่าเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายเส้น
หากแบบจำลองพหุนามถดถอยความสัมพันธ์แบบไม่เชิงเส้นจะพิจารณาเป็นกรณีพิเศษของการถดถอยเชิงเส้นหลายแบบได้อย่างไร วิกิพีเดียตั้งข้อสังเกตว่า "แม้ว่าการถดถอยพหุนามจะเหมาะกับโมเดลที่ไม่เป็นเชิงเส้นกับข้อมูล แต่เป็นปัญหาการประมาณเชิงสถิติมันเป็นเชิงเส้นในแง่ที่ว่าฟังก์ชันการถดถอยเป็นเส้นตรงในพารามิเตอร์ที่ไม่รู้จักซึ่งประมาณจากข้อมูล "E(y|x)E(y|x)\mathbb{E}(y | x) การถดถอยเชิงเส้นพหุนามเป็นอย่างไรในพารามิเตอร์ที่ไม่รู้จักหากพารามิเตอร์เป็นค่าสัมประสิทธิ์สำหรับคำที่มีคำสั่ง 2≥≥\ge

3
ความแปรปรวนของค่าสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นอย่างง่าย
ในการถดถอยเชิงเส้นอย่างง่ายเรามีที่2) ฉันได้รับตัวประมาณ: ที่และเป็นวิธีการที่เป็นตัวอย่างของและy ที่y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ตอนนี้ผมต้องการที่จะหาแปรปรวนของ\ฉันได้รับสิ่งต่อไปนี้: β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . รากศัพท์มีดังต่อไปนี้: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are iid=1(∑i(xi−x¯)2)2∑i(xi−x¯)2E(ui−∑jujn)2=1(∑i(xi−x¯)2)2∑i(xi−x¯)2⎛⎝E(u2i)−2×E(ui×(∑jujn))+E(∑jujn)2⎞⎠=1(∑i(xi−x¯)2)2∑i(xi−x¯)2(σ2−2nσ2+σ2n)=σ2∑i(xi−x¯)2(1−1n)Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E[(∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]⏟=0)2]=1(∑i(xi−x¯)2)2E[(∑i(xi−x¯)(ui−∑jujn))2]=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] …

2
ฉันจะรู้ได้อย่างไรว่าวิธีการตรวจสอบข้ามที่ดีที่สุด?
ฉันกำลังพยายามหาวิธีการตรวจสอบข้ามที่ดีที่สุดสำหรับสถานการณ์ของฉัน ข้อมูลต่อไปนี้เป็นเพียงตัวอย่างสำหรับการทำงานผ่านปัญหา (ใน R) แต่Xข้อมูลจริงของฉัน( xmat) มีความสัมพันธ์ซึ่งกันและกันและมีความสัมพันธ์กับองศาที่แตกต่างกับyตัวแปร ( ymat) ฉันให้รหัส R แต่คำถามของฉันไม่เกี่ยวกับ R แต่เกี่ยวกับวิธีการ Xmatรวมตัวแปร X V1 ถึง V100 ในขณะที่ymatมีตัวแปร y ตัวเดียว set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data …

5
จะเกิดอะไรขึ้นถ้าข้อมูลการถดถอยเชิงเส้นของฉันมีความสัมพันธ์เชิงเส้นแบบร่วมหลายตัว
สมมติว่าฉันกำลังศึกษาว่าดอกแดฟโฟดิลตอบสนองต่อสภาพดินต่าง ๆ อย่างไร ฉันได้รวบรวมข้อมูลเกี่ยวกับค่าความเป็นกรดของดินกับความสูงของดอกแดฟโฟดิล ฉันคาดว่าจะมีความสัมพันธ์เชิงเส้นดังนั้นฉันจะดำเนินการเกี่ยวกับการถดถอยเชิงเส้น อย่างไรก็ตามฉันไม่ได้ตระหนักถึงเมื่อฉันเริ่มการศึกษาของฉันว่าประชากรมีดอกแดฟโฟดิลสองพันธุ์ซึ่งแต่ละชนิดตอบสนองต่อค่า pH ของดินต่างกันมาก ดังนั้นกราฟจึงมีความสัมพันธ์เชิงเส้นที่แตกต่างกันสองแบบ: ฉันสามารถคัดแยกและแยกมันด้วยตนเองได้แน่นอน แต่ฉันสงสัยว่ามีวิธีการที่เข้มงวดกว่านี้หรือไม่ คำถาม: มีการทดสอบทางสถิติเพื่อพิจารณาว่าชุดข้อมูลจะเหมาะสมกว่าโดยใช้เพียงบรรทัดเดียวหรือ N บรรทัดหรือไม่? ฉันจะรันการถดถอยเชิงเส้นเพื่อให้พอดีกับเส้น N ได้อย่างไร กล่าวอีกนัยหนึ่งฉันจะคลี่คลายข้อมูลร่วมกันได้อย่างไร ฉันคิดว่าวิธีการผสมผสานบางอย่างอาจมีราคาแพง ชี้แจง: การมีอยู่ของสองสายพันธุ์นั้นไม่เป็นที่รู้จักในเวลาที่ทำการรวบรวมข้อมูล ไม่พบความหลากหลายของแดฟโฟดิลแต่ละชนิดไม่สังเกตและไม่บันทึก ไม่สามารถกู้คืนข้อมูลนี้ได้ แดฟโฟดิลเสียชีวิตตั้งแต่เวลารวบรวมข้อมูล ฉันมีความประทับใจว่าปัญหานี้เป็นสิ่งที่คล้ายกับการใช้อัลกอริทึมการจัดกลุ่มซึ่งคุณเกือบจะต้องรู้จำนวนกลุ่มก่อนที่จะเริ่ม ฉันเชื่อว่าด้วยชุดข้อมูลใด ๆ การเพิ่มจำนวนบรรทัดจะลดข้อผิดพลาด rms ทั้งหมด ในสุดขีดคุณสามารถแบ่งชุดข้อมูลของคุณเป็นคู่โดยพลการและวาดเส้นผ่านแต่ละคู่ (เช่นถ้าคุณมี 1,000 จุดข้อมูลคุณสามารถแบ่งพวกมันออกเป็น 500 คู่โดยพลการและวาดเส้นผ่านแต่ละคู่) ความพอดีจะแน่นอนและข้อผิดพลาด rms จะเป็นศูนย์อย่างแน่นอน แต่นั่นไม่ใช่สิ่งที่เราต้องการ เราต้องการจำนวนบรรทัด "ถูกต้อง"

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.