คำถามติดแท็ก multiple-regression

การถดถอยที่มีตัวแปรอิสระไม่คงที่สองตัวหรือมากกว่า

4
อะไรคือความแตกต่างของ "เชิงกล" ระหว่างการถดถอยเชิงเส้นแบบหลายจุดด้วย lags และอนุกรมเวลา
ฉันสำเร็จการศึกษาด้านธุรกิจและเศรษฐศาสตร์ซึ่งกำลังศึกษาระดับปริญญาโทด้านวิศวกรรมข้อมูล ในขณะที่กำลังศึกษาการถดถอยเชิงเส้น (LR) และการวิเคราะห์อนุกรมเวลา (TS) คำถามหนึ่งก็ผุดขึ้นในใจของฉัน เหตุใดจึงต้องสร้างวิธีการใหม่ทั้งหมดเช่นอนุกรมเวลา (ARIMA) แทนที่จะใช้การถดถอยเชิงเส้นหลายเส้นและการเพิ่มตัวแปรที่ล้าหลัง (โดยใช้คำสั่งล่าช้าที่กำหนดโดยใช้ ACF และ PACF) ดังนั้นอาจารย์แนะนำให้ฉันเขียนเรียงความเล็ก ๆ น้อย ๆ เกี่ยวกับปัญหา ฉันจะไม่ขอความช่วยเหลือจากมือเปล่าดังนั้นฉันจึงทำการวิจัยในหัวข้อนี้ ฉันรู้แล้วว่าเมื่อใช้ LR หากการละเมิดสมมติฐานของเกาส์ - มาร์คอฟการถดถอยของ OLS นั้นไม่ถูกต้องและสิ่งนี้เกิดขึ้นเมื่อใช้ข้อมูลอนุกรมเวลา (ความสัมพันธ์อัตโนมัติเป็นต้น) (คำถามอื่นเกี่ยวกับเรื่องนี้สมมุติฐานของจีเอ็มหนึ่งข้อคือตัวแปรอิสระควรแจกแจงตามปกติหรือเพียงแค่ตัวแปรตามเงื่อนไขให้กับตัวแปรอิสระ) ฉันรู้ด้วยว่าเมื่อใช้การถดถอยแบบกระจายแบบกระจายซึ่งเป็นสิ่งที่ฉันคิดว่าฉันเสนอที่นี่และการใช้ OLS เพื่อประเมินค่าพารามิเตอร์ความหลากหลายทางหลายทางระหว่างตัวแปรอาจเกิดขึ้นอย่างชัดเจนดังนั้นการประมาณจึงผิด ในโพสต์ที่คล้ายกันเกี่ยวกับ TS และ LRที่นี่ @IrishStat กล่าวว่า: ... แบบจำลองการถดถอยเป็นกรณีเฉพาะของ Transfer Function Model หรือที่รู้จักกันในชื่อรุ่นการถดถอยแบบไดนามิกหรือรุ่น XARMAX จุดสำคัญคือการระบุรูปแบบในอนุกรมเวลานั่นคือความแตกต่างที่เหมาะสมความล่าช้าที่เหมาะสมของ X โครงสร้าง ARIMA ที่เหมาะสมการระบุที่เหมาะสมของโครงสร้างที่ไม่ระบุรายละเอียดที่กำหนดเช่นพัลส์ระดับเลื่อนแนวโน้มเวลาท้องถิ่นฤดูกาลและการรวม บริษัท …

3
เมื่อทำ t-test สำหรับความสำคัญของค่าสัมประสิทธิ์การถดถอยทำไมเป็นจำนวนองศาของเสรีภาพ
ฉันอ่านที่นี่ว่าคือจำนวนองศาอิสระที่ฉันควรใช้เมื่อทำการทดสอบ t สำหรับความสำคัญของสัมประสิทธิ์การถดถอย แต่ฉันไม่เข้าใจว่าทำไม ความเข้าใจของฉันคือการทดสอบแบบ t โดยทั่วไปแล้วจะมีอิสระในระดับn - 1องศาn−p−1n−p−1n-p-1n−1n−1n-1

2
การจำลองการถดถอยเชิงเส้นหลายแบบ
ฉันใหม่สำหรับภาษา R ฉันต้องการทราบวิธีจำลองจากตัวแบบการถดถอยเชิงเส้นหลายแบบที่ตอบสนองสมมติฐานทั้งสี่ของการถดถอย โอเคขอบคุณ. สมมติว่าฉันต้องการจำลองข้อมูลตามชุดข้อมูลนี้: y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) แล้วฉันจะได้รับผลลัพธ์: Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 …

6
การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง
คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่

2
แนวทางที่ขัดแย้งกันในการเลือกตัวแปร: AIC, p-values ​​หรือทั้งสองอย่าง?
จากสิ่งที่ฉันเข้าใจการเลือกตัวแปรตามค่า p (อย่างน้อยในบริบทการถดถอย) มีข้อบกพร่องสูง ดูเหมือนว่าการเลือกตัวแปรตาม AIC (หรือคล้ายกัน) ก็ถือว่ามีข้อบกพร่องบางอย่างด้วยเหตุผลที่คล้ายกันแม้ว่าจะดูเหมือนไม่ชัดเจน (เช่นดูคำถามของฉันและลิงก์บางส่วนในหัวข้อนี้ที่นี่: "การเลือกรุ่นตามขั้นตอน" คืออะไร? ) แต่สมมติว่าคุณเลือกหนึ่งในสองวิธีนี้เพื่อเลือกชุดพยากรณ์ที่ดีที่สุดในแบบจำลองของคุณ อัมและแอนเดอร์สัน 2002 (การเลือกแบบจำลองและการอนุมานหลายรูปแบบ: วิธีปฏิบัติเชิงทฤษฎีสารสนเทศ, หน้า 83) ระบุว่าไม่ควรผสมการเลือกตัวแปรตาม AIC กับการทดสอบสมมติฐาน : "การทดสอบสมมติฐานว่างและแนวทางสารสนเทศเชิงทฤษฎีควร ไม่ใช้ร่วมกันพวกเขาเป็นกระบวนทัศน์การวิเคราะห์ที่แตกต่างกันมาก " ในอีกทางหนึ่ง Zuur และคณะ 2009 (โมเดลเอฟเฟ็กต์ผสมกับส่วนขยายในระบบนิเวศด้วย R, หน้า 541) ดูเหมือนจะสนับสนุนการใช้AIC เพื่อค้นหาแบบจำลองที่ดีที่สุดก่อนแล้วจึงทำการ "ปรับจูน" โดยใช้การทดสอบสมมติฐาน : "ข้อเสียคือ AIC และคุณอาจต้องใช้การปรับแต่งแบบละเอียด (โดยใช้การทดสอบสมมติฐานจากแนวทางที่หนึ่ง) เมื่อ AIC ได้เลือกแบบจำลองที่ดีที่สุด " คุณสามารถดูว่าสิ่งนี้ทำให้ผู้อ่านหนังสือทั้งสองเล่มสับสนอย่างไร 1) "ค่าย" …

4
ผลรวมของตัวแปรสองตัวสามารถอธิบายความแปรปรวนได้มากกว่าตัวแปรแต่ละตัวอย่างไร
ฉันได้รับผลลัพธ์ที่น่าสงสัยสำหรับความสัมพันธ์ของผลรวมกับตัวแปรที่สามเมื่อตัวทำนายสองตัวนั้นมีความสัมพันธ์เชิงลบ อะไรทำให้เกิดผลลัพธ์ที่น่างงงวยเหล่านี้ ตัวอย่างที่ 1: ความสัมพันธ์ระหว่างผลรวมของตัวแปรสองตัวกับตัวแปรตัวที่สาม พิจารณาสูตร 16.23 ในหน้า 427 ของข้อความ 1965 ของ Guildford ดังที่แสดงด้านล่าง การค้นหาที่น่าสงสัย: หากตัวแปรทั้งสองมีความสัมพันธ์กับ. 2 กับตัวแปรที่สามและมีความสัมพันธ์กับ -.7 ซึ่งกันและกันสูตรจะส่งผลให้มีค่าเท่ากับ. 52 ความสัมพันธ์ของผลรวมกับตัวแปรที่สามจะเป็น. 52 ได้อย่างไรถ้าทั้งสองตัวแปรนั้นสัมพันธ์กันเพียง. 2 กับตัวแปรที่สาม ตัวอย่างที่ 2: ความสัมพันธ์หลายอย่างระหว่างตัวแปรสองตัวกับตัวแปรที่สามคืออะไร พิจารณาสูตร 16.1 ในหน้า 404 ของข้อความ 1965 ของ Guildford (แสดงด้านล่าง) การค้นหาที่น่าสงสัย: สถานการณ์เดียวกัน หากตัวแปรทั้งสองมีความสัมพันธ์กับ. 2 กับตัวแปรที่สามและมีความสัมพันธ์กับ -.7 ซึ่งกันและกันสูตรจะส่งผลให้มีค่าเท่ากับ. 52 ความสัมพันธ์ของผลรวมกับตัวแปรที่สามจะเป็น. 52 ได้อย่างไรถ้าทั้งสองตัวแปรนั้นสัมพันธ์กันเพียง. 2 …

1
สถิติ F บางส่วนคืออะไร
สถิติ F บางส่วนคืออะไร นั่นเหมือนกับการทดสอบ F บางส่วนหรือไม่ คุณจะคำนวณสถิติ F บางส่วนเมื่อใด ฉันสมมติว่าสิ่งนี้เกี่ยวข้องกับการเปรียบเทียบแบบจำลองการถดถอย แต่ฉันไม่ได้ติดตามอะไรบางอย่าง (?)

1
เทคนิคการวิเคราะห์อัตราส่วน
ฉันกำลังมองหาคำแนะนำและความคิดเห็นที่เกี่ยวข้องกับการวิเคราะห์อัตราส่วนและอัตรา ในสาขาที่ฉันทำงานวิเคราะห์อัตราส่วนโดยเฉพาะอย่างยิ่งเป็นที่แพร่หลาย แต่ฉันได้อ่านเอกสารสองสามฉบับที่แนะนำว่านี่อาจเป็นปัญหาได้ฉันกำลังคิดถึง: Kronmal, Richard A. 1993. ความสัมพันธ์ปลอมและการเข้าใจผิดของมาตรฐานอัตราส่วนที่มาเยือน วารสารสมาคมสถิติราชวงศ์ A 156 (3): 379-392 และเอกสารที่เกี่ยวข้อง จากสิ่งที่ฉันได้อ่านจนถึงขณะนี้ก็ดูเหมือนว่าอัตราส่วนสามารถสร้างความสัมพันธ์ปลอมเส้นแรงถดถอยผ่านต้นกำเนิด (ซึ่งเป็นสิ่งที่ไม่เหมาะสมเสมอ) และการสร้างแบบจำลองพวกเขาอาจละเมิดหลักการของขอบเขตหากไม่ได้ทำอย่างถูกต้อง ( ใช้อัตราส่วนในการถดถอยโดยริชาร์ดโกลด์สไตน์ ) อย่างไรก็ตามจะต้องมีโอกาสเมื่อการใช้อัตราส่วนเป็นธรรมและฉันต้องการความคิดเห็นจากนักสถิติในหัวข้อนี้

2
ฉันจะตีความโมเดล probit ใน Stata ได้อย่างไร
ฉันไม่แน่ใจว่าจะตีความการถดถอยของโปรบิตนี้ได้อย่างไรฉันวิ่งบน Stata ข้อมูลอยู่ในการอนุมัติสินเชื่อและสีขาวเป็นตัวแปรจำลองที่ = 1 หากบุคคลเป็นสีขาวและ = 0 หากบุคคลนั้นไม่ใช่ ความช่วยเหลือเกี่ยวกับวิธีการอ่านนี้จะได้รับการชื่นชมอย่างมาก สิ่งที่ฉันกำลังมองหาส่วนใหญ่คือวิธีการค้นหาความน่าจะเป็นโดยประมาณของการอนุมัติสินเชื่อสำหรับทั้งขาวและไม่ใช่ขาว บางคนสามารถช่วยฉันด้วยข้อความที่นี่และวิธีการทำให้เป็นเรื่องปกติได้หรือไม่? ฉันขอโทษฉันไม่รู้วิธีการทำเช่นนี้ . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) …

1
การถดถอยเชิงเส้นและความสัมพันธ์เชิงพื้นที่
ฉันต้องการทำนายความสูงของต้นไม้ในบางพื้นที่โดยใช้ตัวแปรบางอย่างที่ได้จากการรับรู้จากระยะไกล เช่นชีวมวลโดยประมาณ ฯลฯ ฉันต้องการใช้การถดถอยเชิงเส้นก่อน (ฉันรู้ว่ามันไม่ใช่ความคิดที่ดีที่สุด แต่มันเป็นขั้นตอนที่ต้องทำสำหรับโครงการของฉัน) ฉันต้องการทราบว่าการปรับตัวสัมพันธ์สัมพันธ์เชิงพื้นที่อัตโนมัติมีผลกระทบอย่างไรและมีวิธีที่ง่ายที่สุดในการแก้ไขปัญหานี้หากเป็นไปได้ ฉันทำทุกอย่างตามวิธี R

2
ฉันจะใช้ค่าของเพื่อทดสอบสมมติฐานเชิงเส้นในการวิเคราะห์การถดถอยแบบหลายค่าได้อย่างไร
กราฟด้านล่างเป็นแผนการกระจายที่เหลือของการทดสอบการถดถอยซึ่ง "ปกติ", "homoscedasticity" และ "อิสระ" สมมติฐานได้รับการพบอย่างแน่นอน! สำหรับการทดสอบสมมติฐาน"linearity"ถึงแม้ว่าโดยการดูที่กราฟสามารถคาดเดาได้ว่าความสัมพันธ์นั้นเป็นเส้นโค้ง แต่คำถามคือ: ค่าของ "R2 Linear" สามารถใช้ในการทดสอบสมมติฐานเชิงเส้นได้อย่างไร ช่วงที่ยอมรับได้สำหรับค่าของ "R2 Linear" คืออะไรเพื่อตัดสินใจว่าความสัมพันธ์นั้นเป็นเส้นตรงหรือไม่ จะทำอย่างไรเมื่อไม่ตรงตามสมมติฐานเชิงเส้นตรงและการแปลงค่า IV ก็ไม่ได้ช่วย !! นี่คือลิงค์ไปยังผลลัพธ์ทั้งหมดของการทดสอบ แผนการกระจาย:

6
Multicollinearity เมื่อการถดถอยส่วนบุคคลมีความสำคัญ แต่ VIF ต่ำ
ฉันมี 6 ตัวแปร ( ) ที่ผมใช้ในการทำนายYเมื่อทำการวิเคราะห์ข้อมูลของฉันฉันลองการถดถอยเชิงเส้นหลายครั้งก่อน จากนี้มีเพียงสองตัวแปรเท่านั้นที่มีนัยสำคัญ อย่างไรก็ตามเมื่อฉันรันการถดถอยเชิงเส้นเปรียบเทียบตัวแปรแต่ละตัวกับแต่ทั้งหมดนั้นมีนัยสำคัญ (ที่ใดก็ได้จากน้อยกว่า 0.01 ถึงน้อยกว่า 0.001) มันบอกว่านี่เป็นเพราะความหลากสีปีปีหน้าx1...x6x1...x6x_{1}...x_{6}yyyyyyppp การวิจัยครั้งแรกของฉันเกี่ยวกับเรื่องนี้แสดงให้เห็นการตรวจสอบสำหรับพหุโดยใช้VIFs ฉันดาวน์โหลดแพ็กเกจที่เหมาะสมจาก R และจบลงด้วยผลลัพธ์ VIF: 3.35, 3.59, 2.64, 2.24 และ 5.56 จากแหล่งข้อมูลต่าง ๆ ทางออนไลน์จุดที่คุณควรกังวลเกี่ยวกับความหลากหลายทางชีวภาพกับ VIF ของคุณคือที่ 4 หรือ 5 ตอนนี้ฉันกำลังนิ่งงันเกี่ยวกับความหมายของข้อมูลของฉัน ฉันหรือฉันไม่มีปัญหาเรื่องความสัมพันธ์หลายทาง? ถ้าฉันทำแล้วฉันจะทำอย่างไรต่อ (ฉันไม่สามารถรวบรวมข้อมูลเพิ่มเติมและตัวแปรเป็นส่วนหนึ่งของแบบจำลองที่ไม่เกี่ยวข้องอย่างเห็นได้ชัด) หากฉันไม่มีปัญหานี้สิ่งที่ฉันควรทำจากข้อมูลของฉันโดยเฉพาะอย่างยิ่งความจริงที่ว่าตัวแปรเหล่านี้มีความสำคัญสูง เป็นรายบุคคล แต่ไม่สำคัญเลยเมื่อรวมกัน แก้ไข:มีการถามคำถามบางอย่างเกี่ยวกับชุดข้อมูลดังนั้นฉันต้องการขยาย ... ในกรณีพิเศษนี้เรากำลังมองหาที่จะเข้าใจว่าการชี้นำทางสังคมที่เฉพาะเจาะจง (ท่าทางการจ้องมองและอื่น ๆ ) ส่งผลกระทบต่อความน่าจะเป็นของคนที่ผลิตคิวอื่น ๆ เราต้องการให้แบบจำลองของเรามีคุณสมบัติที่สำคัญทั้งหมดดังนั้นฉันจึงไม่สะดวกที่จะลบบางส่วนที่ดูเหมือนซ้ำซ้อน ไม่มีสมมติฐานใด ๆ …

1
2SLS นั้นได้รับการจำแนกโดยชอบธรรม
ในเศรษฐมิติที่ไม่เป็นอันตรายส่วนใหญ่: สหายของนักประจักษ์ (Angrist and Pischke, 2009: หน้า 209) ฉันได้อ่านสิ่งต่อไปนี้: ( ... ) ในความเป็นจริง 2SLS เพียงระบุ (พูด, ประมาณการ Wald ง่าย) จะอยู่ที่ประมาณเป็นกลาง นี่เป็นเรื่องยากที่จะแสดงอย่างเป็นทางการเพราะ 2SLS ที่เพิ่งระบุมีช่วงเวลาไม่นาน (เช่นการกระจายตัวตัวอย่างมีหางอ้วน) อย่างไรก็ตามถึงแม้จะมีเครื่องมือที่อ่อนแอ แต่ 2SLS ที่เพิ่งได้รับการระบุก็ยังมีศูนย์กลางอยู่ที่ควร ดังนั้นเราจึงกล่าวว่า 2SLS ที่เพิ่งระบุมีค่ามัธยฐาน ( ... ) แม้ว่าผู้เขียนบอกว่า 2SLS เพียงระบุเป็นค่ามัธยฐาน-เป็นกลางพวกเขาไม่พิสูจน์มันมิได้ให้การอ้างอิงถึงหลักฐาน ที่หน้า 213 พวกเขากล่าวถึงข้อเสนออีกครั้ง แต่ไม่มีการอ้างอิงถึงข้อพิสูจน์ นอกจากนี้ฉันไม่สามารถหาแรงจูงใจสำหรับข้อเสนอในบันทึกการบรรยายของพวกเขาเกี่ยวกับตัวแปรเครื่องมือจาก MIT , หน้า 22 เหตุผลอาจเป็นไปได้ว่าเรื่องที่เป็นเท็จตั้งแต่พวกเขาปฏิเสธมันในข้อความในบล็อกของพวกเขา อย่างไรก็ตาม 2SLS ที่เพิ่งได้รับการระบุนั้นมีค่ามัธยฐานโดยประมาณโดยประมาณพวกเขาเขียน …

2
มีสถานการณ์ใดบ้างที่ควรใช้การถดถอยแบบขั้นตอน?
การถดถอยแบบขั้นตอนได้รับการใช้มากเกินไปในเอกสารชีวการแพทย์จำนวนมากในอดีต แต่สิ่งนี้ดูเหมือนว่าจะดีขึ้นด้วยการศึกษาที่ดีขึ้นของปัญหามากมาย ผู้ตรวจสอบรุ่นเก่าหลายคนยังคงขอมัน สถานการณ์ใดที่การถดถอยแบบขั้นตอนมีบทบาทและควรใช้ถ้ามี

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.