คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
ตัวแปรตามมาตรฐานภายในกลุ่มในโมเดลข้อมูลพาเนล?
การกำหนดมาตรฐานของตัวแปรตามภายในกลุ่มที่ระบุเหมาะสมหรือไม่? เอกสารการทำงานต่อไปนี้ (การชะลอการตัดไม้ทำลายป่าในกฎหมาย Amazon ราคาหรือนโยบาย, PDF ) ใช้ตัวแปรตามมาตรฐานเพื่อวิเคราะห์ผลของการเปลี่ยนแปลงนโยบายทั่วไปในบราซิลในการทำลายป่า การทำให้เป็นมาตรฐานมีดังนี้: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} ผู้เขียนโต้เถียงสิ่งนี้ทำหน้าที่ "พิจารณาการเปลี่ยนแปลงที่สัมพันธ์กันในการเพิ่มขึ้นของการทำลายป่าในเขตเทศบาล" ผู้เขียนใช้การประมาณค่า FE (หน้า 12) สำหรับข้อมูลพาเนล รวมถึงการโพสต์นโยบายหลอกตาสำหรับแต่ละปีต่อไปนี้หลังจากที่กฎหมายใหม่ ควรตีความค่าสัมประสิทธิ์อย่างไรถ้าตัวแปรตามเป็นมาตรฐานในวิธีนี้ การสร้างมาตรฐานไม่ใช่การแหกคอกเนื่องจากมันให้คุณค่าสูงกว่าในการสังเกตที่กลุ่ม / เทศบาลมีประสบการณ์การเปลี่ยนแปลงที่ลดลงเมื่อเวลาผ่านไป?

2
เมื่อใดที่จะเข้าสู่ระบบ / ขยายตัวแปรของคุณเมื่อใช้โมเดลฟอเรสต์แบบสุ่ม?
ฉันกำลังถดถอยด้วยการสุ่มป่าเพื่อทำนายราคาตามคุณลักษณะหลายอย่าง โค้ดถูกเขียนเป็น Python โดยใช้ Scikit-learn คุณจะตัดสินใจว่าคุณควรแปลงตัวแปรของคุณโดยใช้exp/ logก่อนที่จะใช้เพื่อให้พอดีกับรูปแบบการถดถอยอย่างไร จำเป็นหรือไม่เมื่อใช้วิธี Ensemble เช่น Random Forest?

1
ความผิดพลาดในการบู๊ตแบบมาตรฐานและช่วงความเชื่อมั่นเหมาะสมหรือไม่ในกรณีที่การอนุมานแบบ homoscedasticity ถูกละเมิด?
ถ้าใน OLS regressions สองข้อสันนิษฐานว่ามีการละเมิด (การแจกแจงแบบปกติของข้อผิดพลาด homoscedasticity) การ bootstrapping ข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นเป็นทางเลือกที่เหมาะสมเพื่อให้ได้ผลลัพธ์ที่มีความหมายโดยคำนึงถึงความสำคัญของสัมประสิทธิ์ regressor การทดสอบอย่างมีนัยสำคัญที่มีข้อผิดพลาดมาตรฐานที่บูตสแตรปและช่วงความมั่นใจยังคง "ทำงาน" อยู่กับความแตกต่างระหว่าง ถ้าใช่จะมีช่วงความเชื่อมั่นที่เกี่ยวข้องอะไรบ้างที่สามารถใช้ในสถานการณ์นี้ (เปอร์เซ็นต์ไทล์, BC, BCA) ท้ายที่สุดถ้าการบูตสแตรปมีความเหมาะสมในสถานการณ์นี้วรรณกรรมที่เกี่ยวข้องที่จำเป็นต้องอ่านและอ้างถึงข้อสรุปนี้คืออะไร คำใบ้ใด ๆ ที่จะได้รับการชื่นชมอย่างมาก!

3
สิ่งที่เหลือตามปกติหมายถึงอะไรและสิ่งนี้บอกอะไรฉันเกี่ยวกับข้อมูลของฉัน
คำถามพื้นฐานสวย: การกระจายตัวตามปกติของเศษซากจากการถดถอยเชิงเส้นหมายความว่าอย่างไร ในแง่ของสิ่งนี้สะท้อนให้เห็นถึงข้อมูลเดิมของฉันจากการถดถอยอย่างไร ฉันนิ่งงันโดยสิ้นเชิงขอบคุณมาก

1
ทำความเข้าใจเกี่ยวกับการทำนายจากการถดถอยโลจิสติก
การคาดการณ์ของฉันมาจากแบบจำลองการถดถอยโลจิสติก (glm ใน R) ไม่ได้ล้อมรอบระหว่าง 0 ถึง 1 เหมือนที่ฉันคาดไว้ ความเข้าใจของฉันเกี่ยวกับการถดถอยโลจิสติกคือพารามิเตอร์อินพุตและโมเดลของคุณรวมกันเป็นเส้นตรงและการตอบสนองจะเปลี่ยนเป็นความน่าจะเป็นโดยใช้ฟังก์ชั่นลิงค์ logit เนื่องจากฟังก์ชั่น logit มีขอบเขตระหว่าง 0 ถึง 1 ฉันคาดว่าการคาดการณ์ของฉันจะถูกล้อมรอบระหว่าง 0 ถึง 1 อย่างไรก็ตามนั่นไม่ใช่สิ่งที่ฉันเห็นเมื่อฉันใช้การถดถอยโลจิสติกใน R: data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) หากสิ่งใดผลลัพธ์ของการทำนาย (รุ่น) ดูเป็นเรื่องปกติสำหรับฉัน ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไมค่าที่ฉันได้รับไม่ใช่ความน่าจะเป็น

2
ฉันจะตีความโมเดล probit ใน Stata ได้อย่างไร
ฉันไม่แน่ใจว่าจะตีความการถดถอยของโปรบิตนี้ได้อย่างไรฉันวิ่งบน Stata ข้อมูลอยู่ในการอนุมัติสินเชื่อและสีขาวเป็นตัวแปรจำลองที่ = 1 หากบุคคลเป็นสีขาวและ = 0 หากบุคคลนั้นไม่ใช่ ความช่วยเหลือเกี่ยวกับวิธีการอ่านนี้จะได้รับการชื่นชมอย่างมาก สิ่งที่ฉันกำลังมองหาส่วนใหญ่คือวิธีการค้นหาความน่าจะเป็นโดยประมาณของการอนุมัติสินเชื่อสำหรับทั้งขาวและไม่ใช่ขาว บางคนสามารถช่วยฉันด้วยข้อความที่นี่และวิธีการทำให้เป็นเรื่องปกติได้หรือไม่? ฉันขอโทษฉันไม่รู้วิธีการทำเช่นนี้ . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) …

2
ถ้า p> n, lasso เลือกได้ไม่เกิน n ตัวแปร
แรงจูงใจอย่างหนึ่งของตาข่ายยางยืดคือข้อ จำกัด ของ LASSO ดังต่อไปนี้: ในกรณีสายบาศกเลือกตัวแปร n ส่วนใหญ่ก่อนที่จะอิ่มตัวเนื่องจากลักษณะของปัญหาการปรับให้เหมาะสมของนูน นี่ดูเหมือนจะเป็นคุณสมบัติที่ จำกัด สำหรับวิธีการเลือกตัวแปร ยิ่งไปกว่านั้นเชือกไม่ได้กำหนดไว้อย่างชัดเจนเว้นแต่ขอบเขตของ L1-norm ของสัมประสิทธิ์มีค่าน้อยกว่าค่าที่แน่นอนp > np>np > n ( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full ) ฉันเข้าใจว่า LASSO เป็นปัญหาการเขียนโปรแกรมสมการกำลังสอง แต่ยังสามารถแก้ไขได้ผ่าน LARS หรือการไล่ระดับสีแบบองค์ประกอบที่ชาญฉลาด แต่ฉันไม่เข้าใจว่าในอัลกอริธึมเหล่านี้ฉันพบปัญหาหรือไม่ถ้าโดยที่คือจำนวนตัวทำนายและคือขนาดตัวอย่าง และทำไมปัญหานี้แก้ไขได้โดยใช้สุทธิยืดหยุ่นที่ฉันเพิ่มปัญหาไปตัวแปรที่ชัดเจนเกินหน้าp n p + n pp > np>np > nพีppnnnp + np+np+nพีpp

5
การประมาณค่าเปอร์เซ็นต์เป็นตัวแปรตามในการถดถอย
ฉันมีคะแนนร้อยละของนักเรียนในการสอบ 38 ครั้งเป็นตัวแปรตามในการศึกษาของฉัน เปอร์เซ็นต์อันดับจะคำนวณโดย (อันดับของนักเรียน / จำนวนนักเรียนในการสอบ) ตัวแปรตามนี้มีการกระจายเกือบสม่ำเสมอและฉันต้องการที่จะประเมินผลกระทบของตัวแปรบางอย่างในตัวแปรตาม ฉันใช้วิธีการถดถอยแบบใด

2
การถดถอยเชิงเส้นเมื่อคุณรู้จักไม่ใช่โดยตรง
สมมติว่า YXβ=YXβ=YX\beta =Y เราไม่ทราบว่าตรงเพียงความสัมพันธ์กับแต่ละทำนาย YYYYXtYXtYX^\mathrm{t}Y วิธีแก้ปัญหาสแควร์สน้อย (OLS) สามัญคือและไม่มีปัญหาβ=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y แต่สมมติว่าอยู่ใกล้เอกพจน์ (multicollinearity) และคุณต้องประเมินพารามิเตอร์สันเขาที่ดีที่สุด ทุกวิธีที่ดูเหมือนว่าจะต้องมีค่าที่แน่นอนของYXtXXtXX^\mathrm{t}XYYY มีวิธีการอื่นเมื่อมีเพียงเป็นที่รู้จักกัน?XtYXtYX^\mathrm{t}Y

3
การถดถอยปกติกับการถดถอยเมื่อตัวแปรต่างกัน
ฉันแค่พยายามที่จะเข้าใจว่าความสัมพันธ์ระหว่างการถดถอยแบบพหุ / แบบธรรมดากับการถดถอยแบบพหุ / แบบง่ายเมื่อตัวแปรแตกต่างกัน ตัวอย่างเช่นฉันกำลังวิเคราะห์ความสัมพันธ์ระหว่างยอดเงินฝาก ( ) เทียบกับอัตราตลาด ( ) ถ้าฉันเรียกใช้การถดถอยเชิงเส้นอย่างง่ายความสัมพันธ์นั้นเป็นค่าลบและค่อนข้างสำคัญ (ประมาณ -.74) อย่างไรก็ตามถ้าฉันใช้บันทึกและ ความแตกต่างของตัวแปรตามและความแตกต่างของตัวแปรอิสระดังนั้นสมการของฉันคือที่ถดถอยด้วย , สหสัมพันธ์ของฉันและ R ^ 2 ไม่มีความหมายเลย ( )R T dYTYTY_TRTRTR_TddLN( YT)dln⁡(YT)d\, \ln(Y_T)R 2 = .004dR ( T)dR(T)d\, R(T)R2= .004R2=.004R^2 = .004 ฉันแค่สงสัยว่าต่ำหมายถึงอะไร? นั่นหมายความว่าแบบจำลองของฉันไม่เหมาะสมหรือฉันไม่สนใจเมื่อฉันดูข้อมูลที่แตกต่างกันหรือไม่? ฉันรู้จากข้อมูลว่ามีความสัมพันธ์อย่างมีนัยสำคัญระหว่างตัวแปรดั้งเดิมสองตัว แต่สำหรับแบบจำลองของฉันฉันต้องดูตัวแปรที่แตกต่างกันดังนั้นเพียงแค่สงสัยว่าจะทำอย่างไรกับเรื่องนี้R 2R2R2R^2R2R2R^2

3
ฉันจะเปรียบเทียบความชันของการถดถอยแบบ bootstrapped ได้อย่างไร
ขอให้เราสมมติว่าฉันมีชุดข้อมูลสองชุดโดยมีการสังเกตnคู่ข้อมูลของตัวแปรอิสระxและตัวแปรตามแต่ละy ให้เราคิดต่อไปว่าฉันต้องการสร้างการกระจายตัวของความถดถอยสำหรับแต่ละชุดข้อมูลโดยการบูตการสำรวจ (โดยการแทนที่) Nครั้งและคำนวณการถดถอยy = a + bxแต่ละครั้ง. ฉันจะเปรียบเทียบการแจกแจงสองแบบเพื่อบอกว่าลาดต่างกันอย่างมีนัยสำคัญได้อย่างไร การทดสอบ U สำหรับการทดสอบความแตกต่างระหว่างค่ามัธยฐานของการแจกแจงจะขึ้นอยู่กับ N อย่างมากนั่นคือยิ่งฉันทำการย้ำอีกครั้งบ่อยครั้งเท่าไหร่ ฉันจะต้องคำนวณการทับซ้อนระหว่างการแจกแจงเพื่อกำหนดความแตกต่างที่สำคัญได้อย่างไร

6
Endogeneity กับ heterogeneity ที่ไม่ได้สังเกตเห็น
อะไรคือความแตกต่างระหว่างendogeneityและ heterogeneity ที่ไม่ได้สังเกตเห็น? ฉันรู้ว่า endogeneity มาจากตัวอย่างของตัวแปรที่ละเว้นหรือไม่ แต่เท่าที่ฉันเข้าใจความแตกต่างที่ไม่ได้สังเกตเห็นทำให้เกิดปัญหาเดียวกัน แต่ที่วางความแตกต่างระหว่างความคิดทั้งสองนี้ที่ไหน?

4
เปรียบเทียบความสำคัญของชุดทำนายที่แตกต่างกัน
ฉันให้คำปรึกษากับนักศึกษาวิจัยเกี่ยวกับปัญหาบางอย่างและฉันก็กระตือรือร้นที่จะรับข้อมูลของผู้อื่นในเว็บไซต์นี้ บริบท: ผู้วิจัยมีตัวแปรทำนายสามประเภท แต่ละประเภทมีตัวแปรทำนายจำนวนแตกต่างกัน ตัวทำนายแต่ละตัวเป็นตัวแปรต่อเนื่อง: สังคม: S1, S2, S3, S4 (เช่นตัวทำนายสี่ตัว) เกี่ยวกับความรู้ความเข้าใจ: C1, C2 (เช่น, ผู้ทำนายสองคน) เกี่ยวกับพฤติกรรม: B1, B2, B3 (เช่นผู้ทำนายสามคน) ตัวแปรผลลัพธ์ก็ต่อเนื่องเช่นกัน กลุ่มตัวอย่างประกอบด้วยผู้เข้าร่วมประมาณ 60 คน ผู้วิจัยต้องการแสดงความคิดเห็นเกี่ยวกับประเภทของตัวทำนายที่สำคัญกว่าในการอธิบายตัวแปรผลลัพธ์ สิ่งนี้เกี่ยวข้องกับความกังวลทางทฤษฎีที่กว้างขึ้นเกี่ยวกับความสำคัญเชิงสัมพัทธ์ของตัวทำนายประเภทนี้ คำถาม เป็นวิธีที่ดีในการประเมินความสำคัญสัมพัทธ์ของชุดทำนายหนึ่งเมื่อเทียบกับชุดอื่นคืออะไร? อะไรคือกลยุทธ์ที่ดีในการจัดการกับความจริงที่ว่ามีตัวทำนายจำนวนต่างกันในแต่ละชุด? คุณควรแนะนำการตีความแบบใด การอ้างอิงใด ๆ กับตัวอย่างหรือการอภิปรายเกี่ยวกับเทคนิคก็ยินดีด้วยเช่นกัน

3
ตัวทำนายที่มีความแปรปรวนมากขึ้น“ ดีกว่า” หรือไม่?
ฉันมีคำถามแนวคิดเกี่ยวกับ "สถิติพื้นฐาน" ในฐานะนักเรียนฉันอยากรู้ว่าฉันกำลังคิดผิดเกี่ยวกับเรื่องนี้โดยสิ้นเชิงหรือไม่และถ้าเป็นเช่นนั้น: สมมุติว่าฉันพยายามดูความสัมพันธ์ระหว่าง "ปัญหาการจัดการความโกรธ" และพูดว่าการหย่า (ใช่ / ไม่ใช่) ในการถดถอยโลจิสติกส์และฉันมีตัวเลือกในการใช้คะแนนการจัดการความโกรธสองแบบ - ทั้ง 100 คะแนน 1 มาจากเครื่องมือให้คะแนนแบบสอบถาม 1 และตัวเลือกอื่นของฉัน คะแนน 2 มาจากแบบสอบถามอื่น สมมุติฐานเรามีเหตุผลที่จะเชื่อว่าจากการทำงานก่อนหน้านี้ว่าปัญหาการจัดการความโกรธทำให้เกิดการหย่าร้าง หากในตัวอย่างของฉันมีคน 500 คนความแปรปรวนของคะแนน 1 สูงกว่าคะแนน 2 มากมีเหตุผลใดที่เชื่อว่าคะแนน 1 จะเป็นคะแนนที่ดีกว่าที่จะใช้เป็นตัวทำนายการหย่าร้างตามความแปรปรวนหรือไม่ สำหรับฉันแล้วสัญชาตญาณดูเหมือนว่าจะถูก แต่มันเป็นอย่างนั้นเหรอ?

1
การถดถอยอนุกรมเวลาด้วยข้อมูลที่ทับซ้อนกัน
ฉันเห็นรูปแบบการถดถอยซึ่งกำลังถดถอยผลตอบแทนดัชนีปีต่อปีจากความล่าช้า (12 เดือน) ผลตอบแทนปีต่อปีของดัชนีหุ้นเดียวกันการกระจายเครดิต (ความแตกต่างระหว่างค่าเฉลี่ยรายเดือนของพันธบัตรปลอดความเสี่ยงและพันธบัตรองค์กร อัตราผลตอบแทน) อัตราเงินเฟ้อ YoY และดัชนีการผลิตอุตสาหกรรม ดูเหมือนว่า (แม้ว่าคุณจะให้ข้อมูลเฉพาะกับอินเดียในกรณีนี้) SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) + b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2) SP500YOY คือผลตอบแทนปีต่อปีสำหรับดัชนี SP500 เพื่อคำนวณสิ่งนี้ค่าเฉลี่ยรายเดือนของค่า SP500 จะถูกคำนวณแล้วแปลงเป็นผลตอบแทนปีต่อปีสำหรับแต่ละเดือน (เช่น Jan'10-Jan'11, Feb'10 - Feb'11, Mar'10-Mar'11,..) ในด้านตัวแปรอธิบายค่าที่ล่าช้า 12 เดือนของ SP500YOY ถูกนำมาใช้พร้อมกับ CREDITSPREAD ณ เวลาที่ T และอัตราเงินเฟ้อและอุตสาหกรรมนำสองช่วง AHEAD INFLATIONASYMM เป็นตัวอย่างว่าอัตราเงินเฟ้อสูงกว่าค่าเกณฑ์ 5.0% …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.