คำถามติดแท็ก multiple-regression

การถดถอยที่มีตัวแปรอิสระไม่คงที่สองตัวหรือมากกว่า

4
ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น? ทำไม ANOVA จึงถูกใช้กันอย่างแพร่หลายในการศึกษาทดลอง?
ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น? ฉันเข้าใจว่าวิธีการทั้งสองนี้ดูเหมือนจะใช้ตัวแบบสถิติเดียวกัน อย่างไรก็ตามภายใต้สถานการณ์ใดฉันควรใช้วิธีใด อะไรคือข้อดีและข้อเสียของวิธีการเหล่านี้เมื่อเปรียบเทียบ? ทำไม ANOVA จึงถูกนำมาใช้กันอย่างแพร่หลายในการศึกษาทดลองและฉันแทบจะไม่เคยพบการถดถอย

1
การตีความทางเรขาคณิตของสัมประสิทธิ์สหสัมพันธ์
ฉันสนใจในความหมายทางเรขาคณิตของค่าสหสัมพันธ์และสัมประสิทธิ์การตัดสินใจในการถดถอยหรือในสัญกรณ์เวกเตอร์RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} นี่คือการออกแบบเมทริกซ์มีแถวและคอลัมน์ที่แรกคือ , เวกเตอร์ของ 1s ที่สอดคล้องกับการตัด\XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 รูปทรงเรขาคณิตน่าสนใจยิ่งขึ้นในพื้นที่หัวเรื่อง -dimensional มากกว่าในพื้นที่ตัวแปร -dimensional กำหนดเมทริกซ์หมวก:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top นี่คือการฉายฉากบนพื้นที่คอลัมน์ของคือแบน ผ่านกำเนิดทอดโดยเวกเตอร์เป็นตัวแทนของแต่ละตัวแปรคนแรกซึ่งเป็น\จากนั้นโครงการเวกเตอร์ของการตอบสนองที่สังเกตบน "เงา" ของมันบนพื้นราบเวกเตอร์ของค่าติดตั้งและถ้าเรา มองไปตามเส้นทางของเส้นโครงที่เราเห็นเวกเตอร์ของเศษเหลือสร้างด้านที่สามของรูปสามเหลี่ยม สิ่งนี้น่าจะให้ทางเราสองทางในการตีความทางเรขาคณิตของXX\mathbf{X}xฉัน1 n H Y Y = H …

2
คุณควรทำการวินิจฉัยการถดถอยเชิงเส้นในลำดับใด
ในการวิเคราะห์การถดถอยเชิงเส้นเราวิเคราะห์ค่าผิดปกติตรวจสอบความสัมพันธ์หลายระดับทดสอบความแตกต่าง คำถามคือ: มีคำสั่งให้ใช้สิ่งเหล่านี้หรือไม่? ฉันหมายความว่าเราต้องวิเคราะห์ค่าผิดปกติก่อนแล้วจึงตรวจสอบค่าความสัมพันธ์หลายระดับ? หรือย้อนกลับ มีกฎของหัวแม่มือเกี่ยวกับเรื่องนี้หรือไม่?

3
ลำดับของตัวแปรอธิบายมีความสำคัญเมื่อคำนวณสัมประสิทธิ์การถดถอยหรือไม่
ตอนแรกฉันคิดว่าคำสั่งไม่สำคัญ แต่จากนั้นฉันอ่านเกี่ยวกับกระบวนการ orthogonalization กรัมสำหรับการคำนวณค่าสัมประสิทธิ์การถดถอยหลายและตอนนี้ฉันมีความคิดที่สอง ตามกระบวนการ gram-schmidt ตัวแปรที่อธิบายต่อมาถูกจัดทำดัชนีในหมู่ตัวแปรอื่น ๆ เวกเตอร์ที่เหลือของมันที่เล็กลงนั้นเป็นเพราะเวกเตอร์ที่เหลือของตัวแปรก่อนหน้านั้นจะถูกลบออกจากมัน ดังนั้นค่าสัมประสิทธิ์การถดถอยของตัวแปรอธิบายก็มีขนาดเล็กลงเช่นกัน หากนั่นเป็นจริงเวกเตอร์ที่เหลือของตัวแปรนั้นจะใหญ่กว่าถ้ามันถูกจัดทำดัชนีไว้ก่อนหน้านี้เนื่องจากเวกเตอร์ที่เหลือน้อยกว่าจะถูกลบออกจากมัน ซึ่งหมายความว่าสัมประสิทธิ์การถดถอยจะใหญ่ขึ้นเช่นกัน ตกลงดังนั้นฉันถูกขอให้อธิบายคำถามของฉัน ดังนั้นฉันจึงโพสต์ภาพหน้าจอจากข้อความที่ทำให้ฉันสับสนตั้งแต่แรก ตกลงไปเลย ความเข้าใจของฉันคือว่ามีอย่างน้อยสองตัวเลือกในการคำนวณค่าสัมประสิทธิ์การถดถอย ตัวเลือกแรกจะแสดง (3.6) ในภาพหน้าจอด้านล่าง นี่คือตัวเลือกที่สอง (ฉันต้องใช้หลายภาพหน้าจอ) ถ้าฉันไม่ได้อ่านอะไรผิดพลาด (ซึ่งเป็นไปได้อย่างแน่นอน) ดูเหมือนว่าคำสั่งจะมีความสำคัญในตัวเลือกที่สอง มันมีความสำคัญในตัวเลือกแรกหรือไม่? ทำไมหรือทำไมไม่? หรือกรอบอ้างอิงของฉันสับสนหรือเปล่าว่านี่ไม่ใช่คำถามที่ถูกต้อง? นอกจากนี้ทั้งหมดนี้เกี่ยวข้องกับ Type I Sum of Squares หรือไม่กับ Type II Sum of Squares ขอบคุณล่วงหน้ามากฉันสับสนมาก!

1
จะคำนวณช่วงเวลาการทำนายสำหรับการถดถอยแบบหลายจุดได้อย่างไร
สัญลักษณ์เกี่ยวกับพีชคณิตในการคำนวณช่วงการทำนายสำหรับการถดถอยหลายครั้งคืออะไร ฟังดูงี่เง่า แต่ฉันมีปัญหาในการค้นหาสัญกรณ์พีชคณิตที่ชัดเจนของเรื่องนี้

6
ตัวอย่างการสร้างแบบจำลองการถดถอยขั้นสูง
ฉันกำลังมองหากรณีศึกษาการถดถอยเชิงเส้นขั้นสูงซึ่งแสดงขั้นตอนที่จำเป็นสำหรับการสร้างแบบจำลองที่ซับซ้อนความสัมพันธ์ที่ไม่ใช่เชิงเส้นหลาย ๆ แบบโดยใช้ GLM หรือ OLS มันเป็นเรื่องยากที่จะหาแหล่งข้อมูลที่นอกเหนือไปจากโรงเรียนตัวอย่าง: หนังสือส่วนใหญ่ที่ฉันอ่านจะไม่ไปไกลกว่าการแปลงบันทึกการตอบสนองควบคู่ไปกับ BoxCox ของผู้ทำนายหนึ่งคนหรือแนวความคิดตามธรรมชาติในกรณีที่ดีที่สุด นอกจากนี้ตัวอย่างทั้งหมดที่ฉันเห็นมาถึงปัญหาการแปลงข้อมูลในรูปแบบที่แยกต่างหากมักจะอยู่ในรูปแบบการทำนายเดียว ฉันรู้ว่าการแปลง BoxCox หรือ YeoJohnson คืออะไร สิ่งที่ฉันกำลังมองหาคือกรณีศึกษาในชีวิตจริงที่มีรายละเอียดซึ่งการตอบสนอง / ความสัมพันธ์ไม่ชัดเจน ตัวอย่างเช่นการตอบสนองไม่ได้เป็นเชิงบวกอย่างเคร่งครัด (ดังนั้นคุณจึงไม่สามารถใช้ log หรือ BoxCox) ผู้ทำนายมีความสัมพันธ์แบบไม่เป็นเส้นตรงระหว่างตัวเองและต่อการตอบสนองและการแปลงข้อมูลความน่าจะเป็นสูงสุดไม่ได้บ่งบอกถึงมาตรฐาน 0.33 หรือ 0.5 เลขยกกำลัง นอกจากนี้ความแปรปรวนที่เหลือพบว่าไม่คงที่ (ไม่เคยเป็น) ดังนั้นการตอบสนองจะต้องมีการเปลี่ยนแปลงเช่นกันและตัวเลือกจะต้องทำระหว่างการถดถอยครอบครัว GLM ที่ไม่ได้มาตรฐานหรือการเปลี่ยนแปลงการตอบสนอง นักวิจัยมีแนวโน้มที่จะตัดสินใจเลือกที่จะหลีกเลี่ยงการเก็บข้อมูลมากเกินไป แก้ไข จนถึงตอนนี้ฉันรวบรวมทรัพยากรต่อไปนี้: กลยุทธ์การสร้างแบบจำลองการถดถอย, F. Harrell อนุกรมเวลาเศรษฐมิติประยุกต์ว. วชิรเอนเดอร์ โมเดลเชิงเส้นไดนามิกพร้อม R, G. Petris การวิเคราะห์การถดถอยประยุกต์, D. Kleinbaum บทนำสู่การเรียนรู้เชิงสถิติ, …

3
“ ความเท่าเทียมกันอย่างอื่น” หมายถึงอะไรในการถดถอยหลายครั้ง?
เมื่อเราทำการถดถอยหลายครั้งและบอกว่าเรากำลังดูการเปลี่ยนแปลงเฉลี่ยในตัวแปรสำหรับการเปลี่ยนแปลงในตัวแปรถือค่าคงที่ตัวแปรอื่น ๆ ทั้งหมดค่าใดที่เราถือตัวแปรคงที่ที่? หมายความว่าอย่างไร ศูนย์? มีค่าไหม?yyyxxx ฉันอยากจะคิดว่ามันมีค่า แค่มองหาคำอธิบาย หากใครมีหลักฐานก็คงจะดีเช่นกัน

4
การใส่หลายแบบและการเลือกแบบจำลอง
การใส่หลายแบบนั้นค่อนข้างตรงไปตรงมาเมื่อคุณมีโมเดลเชิงเส้นเบื้องต้นที่คุณต้องการประมาณ อย่างไรก็ตามสิ่งต่าง ๆ ดูเหมือนจะมีเล่ห์เหลี่ยมกว่าเมื่อคุณต้องการเลือกแบบจำลองบางอย่าง (เช่นค้นหาชุดตัวทำนายที่ดีที่สุดจากตัวแปรตัวเลือกที่มีขนาดใหญ่กว่า - ฉันกำลังคิดถึง LASSO และพหุนามเศษส่วนโดยใช้ R) แนวคิดหนึ่งคือให้พอดีกับโมเดลในข้อมูลต้นฉบับที่มีค่าที่หายไปจากนั้นประเมินโมเดลนี้ใหม่ในชุดข้อมูล MI และรวมการประมาณการตามปกติ อย่างไรก็ตามนี่เป็นปัญหาเนื่องจากคุณคาดหวังความลำเอียง (หรือทำไม MI ในตอนแรก?) ซึ่งอาจนำไปสู่การเลือกแบบจำลอง "ผิด" ตั้งแต่เริ่มต้น ความคิดอีกอย่างหนึ่งก็คือการทำตามขั้นตอนการเลือกแบบจำลองใด ๆ ที่คุณใช้ในชุดข้อมูล MI แต่ละชุด - แต่คุณจะรวมผลลัพธ์อย่างไรหากรวมตัวแปรชุดต่าง ๆ เข้าด้วยกัน หนึ่งคิดว่าฉันต้องซ้อนชุดข้อมูล MI และวิเคราะห์เป็นชุดข้อมูลขนาดใหญ่ที่คุณจะใช้เพื่อให้พอดีกับรูปแบบ "ดีที่สุด" เดี่ยวและรวมถึงผลกระทบแบบสุ่มในบัญชีสำหรับความจริงที่คุณใช้มาตรการซ้ำสำหรับ การสังเกตแต่ละครั้ง เสียงนี้สมเหตุสมผลหรือไม่ หรืออาจจะไร้เดียงสาอย่างไม่น่าเชื่อ? พอยน์เตอร์ใด ๆ ในปัญหานี้ (การเลือกรุ่นที่มีการใส่หลายครั้ง) จะได้รับการชื่นชมอย่างมาก

4
ความสำคัญของการทำนายในการถดถอยหลายครั้ง: บางส่วนกับค่าสัมประสิทธิ์มาตรฐาน
ฉันสงสัยว่าความสัมพันธ์ที่แน่นอนระหว่างบางส่วนกับสัมประสิทธิ์ในแบบจำลองเชิงเส้นคืออะไรและฉันควรใช้เพียงหนึ่งหรือทั้งสองเพื่อแสดงความสำคัญและอิทธิพลของปัจจัยต่างๆR2R2R^2 เท่าที่ฉันรู้summaryฉันได้รับการประมาณค่าสัมประสิทธิ์และanovaผลรวมของกำลังสองสำหรับแต่ละปัจจัย - สัดส่วนของผลรวมของกำลังสองของปัจจัยหนึ่งหารด้วยผลรวมของผลบวกของสี่เหลี่ยมบวกส่วนที่เหลือเป็นบางส่วน (รหัสต่อไปนี้อยู่ใน)R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 …

2
วิธีการอธิบายหรือมองเห็นโมเดลการถดถอยเชิงเส้นหลายแบบ
ฉันกำลังพยายามปรับโมเดลการถดถอยเชิงเส้นหลายแบบให้สอดคล้องกับข้อมูลของฉันด้วยพารามิเตอร์อินพุตสองสามตัวบอกว่า 3 F( x )F( x )= A x1+ B x2+ Cx3+ dหรือ= ( A B C )T( x1 x2 x3) + d(ผม)(ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 x3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d …

5
ข้อสันนิษฐานของการถดถอยพหุคูณ: สมมติฐานเชิงบรรทัดฐานแตกต่างจากสมมติฐานความแปรปรวนคงที่อย่างไร
ฉันอ่านว่าสิ่งเหล่านี้เป็นเงื่อนไขสำหรับการใช้แบบจำลองการถดถอยหลายแบบ: รูปแบบที่เหลือเกือบปกติ ความแปรปรวนของส่วนที่เหลือเกือบคงที่ ส่วนที่เหลือมีความเป็นอิสระและ แต่ละตัวแปรมีความสัมพันธ์เชิงเส้นตรงกับผลลัพธ์ 1 และ 2 แตกต่างกันอย่างไร คุณสามารถดูได้ที่นี่: กราฟข้างบนบอกว่าส่วนที่เหลือซึ่งคือ 2 ส่วนเบี่ยงเบนมาตรฐานอยู่ 10 ห่างจาก Y-hat นั่นหมายความว่าส่วนที่เหลือจะเป็นไปตามการแจกแจงแบบปกติ คุณไม่สามารถอนุมาน 2 จากนี้ได้ใช่ไหม ความแปรปรวนของค่าคงที่เกือบคงที่หรือไม่

1
การพิสูจน์ค่าสัมประสิทธิ์การหดตัวโดยใช้การถดถอยแบบสันผ่าน“ การสลายตัวของสเปกตรัม”
ฉันเข้าใจว่าการถดถอยของสันเขาลดค่าสัมประสิทธิ์ไปสู่ศูนย์ทางเรขาคณิต ยิ่งไปกว่านั้นฉันรู้วิธีที่จะพิสูจน์ว่าในกรณีพิเศษ "Orthonormal" แต่ฉันสับสนว่ามันทำงานอย่างไรในกรณีทั่วไปผ่าน "การสลายตัวทางสเปกตรัม"

2
การคัดเลือกโมเดลเชิงเส้นหลายตัวแปรเป็นการถดถอยหลายครั้ง
การรีไซเคิลโมเดลการถดถอยเชิงเส้นหลายตัวแปรเป็นการถดถอยเชิงเส้นแบบหลายค่าเท่ากันทั้งหมดหรือไม่ ผมไม่ได้หมายถึงเพียงแค่ทำงานเสื้อttถดถอยแยกต่างหาก ฉันได้อ่านเรื่องนี้ในสถานที่ไม่กี่ (คชกรรมวิเคราะห์ข้อมูล - Gelman et al, และหลายตัวแปรโรงเรียนเก่า -. Marden) ที่เป็นรูปแบบเชิงเส้นหลายตัวแปรสามารถจะreparameterizedเป็นถดถอยพหุคูณ อย่างไรก็ตามไม่มีแหล่งที่มาใด ๆ เกี่ยวกับเรื่องนี้เลย พวกเขาเพียงแค่พูดถึงมันจากนั้นใช้โมเดลหลายตัวแปรต่อไป ในทางคณิตศาสตร์ฉันจะเขียนเวอร์ชั่นหลายตัวแปรก่อน YXRBYn × t= Xn × kBk × t+ Rn × t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, ซึ่งตัวแปรตัวหนาเป็นเมทริกซ์ที่มีขนาดต่ำกว่าพวกมัน ตามปกติคือข้อมูลคือเมทริกซ์การออกแบบมักจะมีการแจกจ่ายเศษเหลือทิ้งและคือสิ่งที่เราสนใจทำการอนุมานด้วยYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} ในการจัดทำซ้ำพารามิเตอร์นี้เป็นการถดถอยเชิงเส้นหลาย ๆ อันที่คุ้นเคยหนึ่งตัวแปรจะเขียนใหม่เป็น: Yn t × …

1
สัญชาตญาณตัวประเมินแซนวิช
วิกิพีเดียและ R แพคเกจแซนวิชบทความให้ข้อมูลที่ดีเกี่ยวกับสมมติฐานที่สนับสนุน OLS ค่าสัมประสิทธิ์ข้อผิดพลาดมาตรฐานและพื้นหลังทางคณิตศาสตร์ของประมาณแซนวิช ฉันยังไม่ชัดเจนว่าปัญหาของ heteroscedasticity ได้รับการแก้ไขอย่างไร แต่อาจเป็นเพราะฉันไม่เข้าใจการประมาณค่าสัมประสิทธิ์ความแปรปรวนของ OLS มาตรฐานในตอนแรก สัญชาตญาณเบื้องหลังตัวประมาณแซนวิชคืออะไร

2
จะเกิดอะไรขึ้นเมื่อฉันรวมตัวแปรกำลังสองลงในการถดถอย
ฉันเริ่มต้นด้วยการถดถอย OLS ของฉัน: โดยที่ D เป็นตัวแปรจำลองการประมาณการจะแตกต่างจากศูนย์ด้วยค่า p ต่ำ ฉัน preform การทดสอบ Ramsey RESET และพบว่าฉันมีการคลาดเคลื่อนของสมการฉันจึงรวมกำลังสอง x: y=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon คำสองคำนี้อธิบายอะไร? (การเพิ่มขึ้นแบบไม่ใช่เชิงเส้นเป็น Y?) ด้วยการทำเช่นนี้การประมาณค่า D ของฉันจะไม่แตกต่างจากค่าศูนย์อีกต่อไปด้วยค่า p สูง ฉันจะตีความคำศัพท์ยกกำลังสองในสมการของฉัน (โดยทั่วไป) ได้อย่างไร แก้ไข: การปรับปรุงคำถาม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.