คำถามติดแท็ก multiple-regression

การถดถอยที่มีตัวแปรอิสระไม่คงที่สองตัวหรือมากกว่า

1
ทำไมไม่ถดถอยอย่างหนักทุกครั้ง?
ตัวอย่างของการแสดงหน้านี้ว่าการถดถอยอย่างง่ายได้รับผลกระทบอย่างเห็นได้ชัดโดยค่าผิดปกติและสามารถเอาชนะได้โดยใช้เทคนิคของการถดถอยที่แข็งแกร่ง: http://www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ ฉันเชื่อว่า lmrob และ ltsReg เป็นเทคนิคการถดถอยที่มีประสิทธิภาพอื่น ๆ เหตุใดจึงไม่ควรทำการถดถอยที่มีประสิทธิภาพ (เช่น rlm หรือ rq) ทุกครั้งแทนที่จะทำการถดถอยง่าย (lm) มีข้อเสียของเทคนิคการถดถอยที่แข็งแกร่งเหล่านี้หรือไม่ ขอบคุณสำหรับความเข้าใจของคุณ

2
ความเข้าใจเกี่ยวกับค่า p ในการถดถอยเชิงเส้นหลายครั้ง
เกี่ยวกับค่า p ของการวิเคราะห์การถดถอยเชิงเส้นแบบหลายส่วนการแนะนำจากเว็บไซต์ของ Minitabจะแสดงอยู่ด้านล่าง p-value สำหรับแต่ละเทอมทดสอบสมมติฐานว่างว่าสัมประสิทธิ์เท่ากับศูนย์ (ไม่มีผล) ค่า p ต่ำ (<0.05) แสดงว่าคุณสามารถปฏิเสธสมมติฐานว่างได้ กล่าวอีกนัยหนึ่งตัวทำนายที่มีค่า p ต่ำน่าจะเป็นส่วนเสริมที่มีความหมายกับโมเดลของคุณเนื่องจากการเปลี่ยนแปลงค่าของตัวทำนายเกี่ยวข้องกับการเปลี่ยนแปลงในตัวแปรตอบกลับ ตัวอย่างเช่นผมมีรูปแบบอัตราดอกเบี้ย MLR ผลลัพธ์เป็น 14.48 และเอาออกแสดงอยู่ด้านล่าง จากนั้นyสามารถคำนวณได้โดยใช้สมการนี้y=0.46753X1−0.2668X2+1.6193X3+4.5424X4+14.48y=0.46753X1−0.2668X2+1.6193X3+4.5424X4+14.48 y=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+4.5424{{X}_{4}}+14.48 yyy Estimate SE tStat pValue ________ ______ _________ _________ (Intercept) 14.48 5.0127 2.8886 0.0097836 x1 0.46753 1.2824 0.36458 0.71967 x2 -0.2668 3.3352 -0.079995 0.93712 x3 1.6193 9.0581 0.17877 …

1
การกระจายตัวแบบหลายตัวแปรปกติของสัมประสิทธิ์การถดถอย
ในขณะที่อ่านหนังสือเกี่ยวกับการถดถอยฉันพบย่อหน้าต่อไปนี้: การประมาณกำลังสองน้อยที่สุดของเวกเตอร์ของสัมประสิทธิ์การถดถอยเชิงเส้น ( ) คือββ\beta β^= ( Xเสื้อX)- 1Xเสื้อYβ^=(XtX)−1Xty \hat{\beta} = (X^{t}X)^{-1}{X^t}y ซึ่งเมื่อมองว่าเป็นฟังก์ชันของข้อมูล (พิจารณาจากตัวทำนายเป็นค่าคงที่) จะเป็นการรวมกันเชิงเส้นของข้อมูล เมื่อใช้ทฤษฎีบทขีด จำกัด กลางจะสามารถแสดงให้เห็นว่าการแจกแจงจะเป็นแบบหลายตัวแปรโดยประมาณหากขนาดตัวอย่างมีขนาดใหญ่YyyXXXββ\beta ฉันขาดอะไรบางอย่างไปจากข้อความ แต่ฉันไม่เข้าใจว่าค่าเดียวจะมีการแจกแจงได้อย่างไร ค่าหลายค่าถูกสร้างขึ้นเพื่อรับการกระจายที่อ้างถึงในข้อความอย่างไรββ\betaββ\beta

2
จำนวนการสังเกตขั้นต่ำสำหรับการถดถอยเชิงเส้นหลายครั้ง
ฉันกำลังถดถอยเชิงเส้นหลายเส้น ฉันมีการสังเกตการณ์ 21 ครั้งและตัวแปร 5 ตัว เป้าหมายของฉันคือการค้นหาความสัมพันธ์ระหว่างตัวแปร มีข้อมูลของฉันเพียงพอหรือไม่ที่จะทำการถดถอยหลายครั้ง? ผลการทดสอบทีเผยว่าตัวแปร 3 ตัวของฉันไม่มีนัยสำคัญ ฉันจำเป็นต้องทำการถดถอยอีกครั้งด้วยตัวแปรที่สำคัญ (หรือการถดถอยครั้งแรกของฉันเพียงพอที่จะได้ข้อสรุป) เมทริกซ์ความสัมพันธ์ของฉันมีดังนี้ var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var …

2
การติดตั้งการถดถอยเชิงเส้นหลายเส้นใน R: เศษเหลือที่เกี่ยวข้องโดยอัตโนมัติ
ฉันพยายามประเมินการถดถอยเชิงเส้นแบบหลายค่าใน R ด้วยสมการดังนี้ regr <- lm(rate ~ constant + askings + questions + 0) askings askings <- ts(...)และคำถามที่มีข้อมูลอนุกรมเวลารายไตรมาสสร้างด้วย ปัญหาตอนนี้คือฉันได้รับส่วนที่เหลือโดยอัตโนมัติ ฉันรู้ว่าเป็นไปได้ที่จะปรับให้พอดีกับการถดถอยโดยใช้ฟังก์ชัน gls แต่ฉันไม่รู้วิธีระบุโครงสร้างข้อผิดพลาด AR หรือ ARMA ที่ถูกต้องซึ่งฉันต้องนำไปใช้ในฟังก์ชัน gls ฉันจะลองประเมินอีกครั้งในตอนนี้ด้วย gls(rate ~ constant + askings + questions + 0, correlation=corARMA(p=?,q=?)) แต่น่าเสียดายที่ฉันไม่ใช่ผู้เชี่ยวชาญ R หรือผู้เชี่ยวชาญทางสถิติโดยทั่วไปในการระบุ p และ q ฉันจะพอใจถ้ามีคนให้คำแนะนำที่เป็นประโยชน์กับฉัน ขอบคุณล่วงหน้า! โจ

5
การซ่อนโมเดลการถดถอยจากศาสตราจารย์ (Regression Battleship) [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ฉันกำลังทำการบ้านที่อาจารย์ของฉันต้องการให้เราสร้างแบบจำลองการถดถอยที่แท้จริงจำลองตัวอย่างข้อมูลและเขาจะพยายามหารูปแบบการถดถอยที่แท้จริงของเราโดยใช้เทคนิคบางอย่างที่เราเรียนรู้ในชั้นเรียน เราก็ต้องทำเช่นเดียวกันกับชุดข้อมูลที่เขามอบให้เรา เขาบอกว่าเขาสามารถสร้างแบบจำลองที่แม่นยำสำหรับความพยายามในอดีตทั้งหมดเพื่อพยายามหลอกล่อเขา มีนักเรียนบางคนที่สร้างแบบจำลองบ้า ๆ บอ ๆ แต่เขาก็สามารถสร้างแบบจำลองที่เรียบง่ายขึ้นซึ่งก็เพียงพอแล้ว ฉันจะพัฒนารูปแบบที่ยุ่งยากให้เขาค้นหาได้อย่างไร ฉันไม่ต้องการที่จะถูกสุด ๆ ด้วยการทำ 4 เทอมกำลังสองการสังเกต 3 ครั้งและความแปรปรวนอันมหาศาล? ฉันจะสร้างชุดข้อมูลที่ไม่มีอันตรายซึ่งดูเหมือนว่าจะมีโมเดลเล็ก ๆ น้อย ๆ อยู่ข้างใต้ได้อย่างไร เขามีกฎ 3 ข้อที่ต้องปฏิบัติตาม: ชุดข้อมูลของคุณต้องมีตัวแปร "Y" หนึ่งตัวและตัวแปร 20 "X" ที่ระบุว่าเป็น "Y", "X1", ... , "X20" ตัวแปรตอบกลับของคุณต้องมาจากตัวแบบการถดถอยเชิงเส้นที่ตรงตาม: ที่และ21YYY ϵ ฉัน ∼ N ( 0 …

2
วิธีเริ่มสร้างแบบจำลองการถดถอยเมื่อตัวทำนายที่เกี่ยวข้องมากที่สุดคือไบนารี
ฉันมีชุดข้อมูลที่มี 365 การสังเกตของสามตัวแปรคือpm, และtemp rainตอนนี้ฉันต้องการตรวจสอบพฤติกรรมของpmการตอบสนองต่อการเปลี่ยนแปลงในอีกสองตัวแปร ตัวแปรของฉันคือ: pm10 = การตอบสนอง (ขึ้นอยู่กับ) temp = ตัวทำนาย (อิสระ) rain = ตัวทำนาย (อิสระ) ต่อไปนี้เป็นเมทริกซ์สหสัมพันธ์สำหรับข้อมูลของฉัน: > cor(air.pollution) pm temp rainy pm 1.00000000 -0.03745229 -0.15264258 temp -0.03745229 1.00000000 0.04406743 rainy -0.15264258 0.04406743 1.00000000 ปัญหาคือเมื่อฉันกำลังศึกษาการสร้างตัวแบบการถดถอยมันเขียนว่าวิธีการเติมแต่งคือการเริ่มต้นด้วยตัวแปรที่เกี่ยวข้องกับตัวแปรตอบสนองมากที่สุด ในชุดข้อมูลของฉันrainมีความสัมพันธ์อย่างมากกับpm(เมื่อเทียบกับtemp) แต่ในเวลาเดียวกันมันเป็นตัวแปรจำลอง (ฝน = 1, ไม่มีฝน = 0) ดังนั้นตอนนี้ฉันจึงได้รู้ว่าควรเริ่มจากที่ใด ผมได้แนบภาพสองภาพที่มีคำถาม: ที่แรกก็คือ scatterplot ของข้อมูลและภาพที่สองเป็น …

2
การถดถอยเชิงเส้นหลายครั้งใน 3 มิติเป็นระนาบที่พอดีที่สุดหรือเป็นเส้นที่พอดีที่สุดหรือไม่?
ศาสตราจารย์ของเราไม่ได้เข้าสู่คณิตศาสตร์หรือแม้แต่การแสดงเชิงเรขาคณิตของการถดถอยเชิงเส้นหลายเส้นและสิ่งนี้ทำให้ฉันสับสนเล็กน้อย ในอีกด้านหนึ่งก็ยังคงเรียกว่าการถดถอยเชิงเส้นหลายครั้งแม้ในมิติที่สูงขึ้น ในทางกลับกันถ้าเรามีตัวอย่างเช่นY = ข0 + ข1 X 1 + B 2 X 2และเราสามารถเสียบค่าใด ๆ ที่เราต้องการสำหรับX 1และX 2จะไม่ให้นี้เรา ระนาบของการแก้ปัญหาที่เป็นไปได้และไม่ใช่เส้น?Y^= b0+ b1X1+ b2X2Y^=b0+b1X1+b2X2\hat{Y} = b_0 + b_1 X_1 + b_2 X_2X1X1X_1X2X2X_2 โดยทั่วไปแล้วพื้นผิวของการทำนายของเราจะเป็นไฮเปอร์เพลทมิติสำหรับตัวแปรอิสระkkkkkkk

3
อะไรคือข้อดีของวิธีการที่แตกต่างกันในการตรวจจับ collinearity?
ฉันต้องการตรวจสอบว่า collinearity เป็นปัญหาในการถดถอย OLS ของฉันหรือไม่ ฉันเข้าใจว่าปัจจัยเงินเฟ้อที่แปรปรวนและดัชนีเงื่อนไขเป็นมาตรการที่ใช้กันทั่วไปสองอย่าง แต่ฉันพบว่ามันยากที่จะหาสิ่งที่ชัดเจนเกี่ยวกับข้อดีของแต่ละวิธีหรือคะแนนที่ควรจะเป็น แหล่งข้อมูลที่โดดเด่นซึ่งระบุว่าวิธีการทำและ / หรือคะแนนใดที่เหมาะสมจะมีประโยชน์มาก คำถามที่คล้ายกันถูกถามที่"มีเหตุผลที่ต้องการวัดความหลากหลายของหลายระดับ?" แต่ฉันนึกคิดหลังจากการอ้างอิงที่ฉันสามารถอ้างอิง

2
แบบจำลอง logit แบบเบส์ - คำอธิบายที่เข้าใจง่าย?
ฉันต้องยอมรับว่าก่อนหน้านี้ฉันไม่เคยได้ยินคำศัพท์นั้นในชั้นเรียนระดับปริญญาตรีหรือปริญญาโทเลย การถดถอยโลจิสติกหมายถึง Bayesian หมายความว่าอย่างไร ฉันกำลังมองหาคำอธิบายเกี่ยวกับการเปลี่ยนจากโลจิสติกส์ธรรมดาเป็นโลจิสติกส์แบบเบย์ดังต่อไปนี้: นี่คือสมการในรูปแบบการถดถอยเชิงเส้น:\E(y)=β0+β1x1+...+βnxnE(y)=β0+β1x1+...+βnxnE(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n นี่คือสมการในรูปแบบการถดถอยโลจิสติก:\ สิ่งนี้จะกระทำเมื่อ y เป็นหมวดหมู่LN( E( y)1 - E( y)) = β0+ β1x1+ . . . + βnxnln⁡(E(y)1−E(y))=β0+β1x1+...+βnxn\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n สิ่งที่เราทำคือการเปลี่ยนแปลงเพื่อ\ LN (\ frac {E (y)} {1-E (y)})ln ( E ( …

3
สามารถใช้เทคนิคการทำให้เป็นมาตรฐานในแบบจำลองเอฟเฟกต์แบบสุ่มได้หรือไม่?
โดยเทคนิคการทำให้เป็นปกติฉันหมายถึง lasso, ridge regression, elastic net และอื่น ๆ พิจารณารูปแบบการคาดการณ์เกี่ยวกับข้อมูลการดูแลสุขภาพที่มีข้อมูลด้านประชากรศาสตร์และข้อมูลการวินิจฉัยที่คาดการณ์ระยะเวลาการเข้าพักผู้ป่วยใน สำหรับบุคคลบางคนมีการสังเกต LOS หลายครั้ง (กล่าวคือมากกว่าหนึ่งตอนของ IP) ในช่วงระยะเวลาพื้นฐานที่สัมพันธ์กัน มันสมเหตุสมผลหรือไม่ที่จะสร้างตัวอย่างเช่นโมเดลการทำนายด้วยเน็ตยืดหยุ่นซึ่งมีคำศัพท์สุ่มดักจับผลกระทบสำหรับแต่ละคน?

4
วิธีแก้ไขค่าสัมประสิทธิ์หนึ่งค่าและทำให้พอดีกับค่าอื่น ๆ
ฉันต้องการแก้ไขสัมประสิทธิ์บางอย่างด้วยตัวเองพูดแล้วพอดีสัมประสิทธิ์กับตัวทำนายอื่น ๆ ทั้งหมดในขณะที่รักษาβ 1 = 1.0ในโมเดลβ1= 1.0β1=1.0\beta_1=1.0β1= 1.0β1=1.0\beta_1=1.0 ฉันจะบรรลุสิ่งนี้โดยใช้ R ได้อย่างไร ฉันต้องการทำงานกับ LASSO ( glmnet) โดยเฉพาะอย่างยิ่งถ้าเป็นไปได้ อีกวิธีหนึ่งคือวิธีการที่ฉันสามารถ จำกัด ค่าสัมประสิทธิ์นี้ในช่วงที่เฉพาะเจาะจงบอกว่า ?0.5 ≤ บีตา1≤ 1.00.5≤β1≤1.00.5\le\beta_1\le1.0

4
มีการทดสอบการตั้งค่าตัวแปรที่ละเว้นใน OLS หรือไม่
ฉันทราบเกี่ยวกับการทดสอบการตั้งค่าใหม่ของ Ramsey ซึ่งอาจตรวจพบการพึ่งพาแบบไม่เชิงเส้น อย่างไรก็ตามหากคุณเพิ่งโยนหนึ่งในสัมประสิทธิ์การถดถอย (เพียงแค่การอ้างอิงเชิงเส้น) คุณอาจได้รับอคติขึ้นอยู่กับความสัมพันธ์ เห็นได้ชัดว่านี่ไม่ถูกตรวจพบโดยการทดสอบการรีเซ็ต ฉันไม่พบการทดสอบสำหรับกรณีนี้ แต่คำสั่งนี้: "คุณไม่สามารถทดสอบ OVB ยกเว้นโดยรวมถึงตัวแปรที่อาจตัดทิ้ง" มันอาจเป็นข้อความที่สมเหตุสมผลใช่มั้ย

2
ตัวพยากรณ์ที่สำคัญไม่ได้มีนัยสำคัญในการถดถอยหลายครั้ง
เมื่อฉันวิเคราะห์ตัวแปรของฉันในแบบจำลองการถดถอยโลจิสติกสองแบบที่แยกกัน Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003 Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046 Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001 Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029 แต่เมื่อฉันป้อนลงในโมเดลการถดถอยโลจิสติกหลายรายการเดียวฉันจะได้รับ: Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171 Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, …

2
ฉันควรรันการถดถอยแบบแยกกันสำหรับทุกชุมชนหรือชุมชนสามารถเป็นตัวแปรควบคุมในรูปแบบรวมได้หรือไม่
ฉันใช้โมเดล OLS พร้อมตัวแปรดัชนีสินทรัพย์อย่างต่อเนื่องในฐานะ DV ข้อมูลของฉันถูกรวบรวมจากชุมชนที่คล้ายกันสามแห่งในพื้นที่ใกล้เคียงทางภูมิศาสตร์ใกล้กัน อย่างไรก็ตามเรื่องนี้ฉันคิดว่ามันสำคัญที่จะต้องใช้ชุมชนเป็นตัวแปรควบคุม ชุมชนกลายเป็นสิ่งสำคัญในระดับ 1% (คะแนน t--4.52) ชุมชนเป็นตัวแปรที่ระบุ / หมวดหมู่ที่เข้ารหัสเป็น 1,2,3 สำหรับ 1 ใน 3 ชุมชนที่แตกต่างกัน คำถามของฉันคือถ้าความสำคัญระดับสูงนี้หมายความว่าฉันควรทำการถดถอยในชุมชนทีละรายการแทนที่จะเป็นการรวมตัว มิฉะนั้นการใช้ชุมชนเป็นตัวแปรควบคุมเป็นหลักทำเช่นนั้น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.