คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

6
พอดีกับคำที่ใช้ในข้อมูล
แม้ว่าฉันจะอ่านโพสต์นี้ฉันก็ยังไม่รู้ว่าจะใช้กับข้อมูลของฉันอย่างไรและหวังว่าจะมีคนช่วยฉันได้ ฉันมีข้อมูลต่อไปนี้: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …
26 r  regression  fitting 

1
วิธีการตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ในการถดถอยเชิงเส้น?
ฉันสงสัยว่าจะตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ของการถดถอยได้อย่างไรเมื่อใช้ฟังก์ชันการแสดงผลใน R ตัวอย่างเช่นในผลลัพธ์ต่อไปนี้: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 ข้อผิดพลาดมาตรฐานที่สูงกว่ามีนัยสำคัญยิ่งขึ้นหรือไม่ สำหรับค่าเบี่ยงเบนมาตรฐานที่เหลือค่าที่สูงขึ้นหมายถึงการแพร่กระจายที่มากขึ้น แต่ R กำลังสองแสดงให้เห็นอย่างใกล้ชิดนี่ไม่ได้ขัดแย้งหรือไม่

2
การตีความเชิงเรขาคณิตของการถดถอยเชิงเส้นเชิงลงโทษ
ฉันรู้ว่าการถดถอยเชิงเส้นสามารถคิดได้ว่า"เส้นที่ใกล้เคียงที่สุดในทุกจุด" : แต่มีวิธีอื่นในการดูโดยการแสดงพื้นที่คอลัมน์ในขณะที่"การฉายภาพลงบนพื้นที่ที่ทอดโดยคอลัมน์ของเมทริกซ์สัมประสิทธิ์" : คำถามของฉันคือในทั้งสองการตีความสิ่งที่เกิดขึ้นเมื่อเราใช้การถดถอยเชิงเส้นลงโทษเช่นการถดถอยสันเขาและ เชือก ? เกิดอะไรขึ้นกับบรรทัดในการตีความครั้งแรก และจะเกิดอะไรขึ้นกับการประมาณการในการตีความครั้งที่สอง? UPDATE: @JohnSmith แสดงความคิดเห็นว่ามีการลงโทษเกิดขึ้นในพื้นที่ของสัมประสิทธิ์ มีการตีความในพื้นที่นี้ด้วยหรือไม่

3
ทีต้าในการถดถอยแบบทวินามลบด้วย R คืออะไร?
ฉันมีคำถามเกี่ยวกับการถดถอยแบบทวินามลบ: สมมติว่าคุณมีคำสั่งต่อไปนี้: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (โปรดทราบว่ารถยนต์เป็นชุดข้อมูลที่มีอยู่ใน R และฉันไม่สนใจว่ารุ่นนี้เหมาะสมหรือไม่) สิ่งที่ฉันอยากรู้คือฉันจะตีความตัวแปรได้อย่างไรtheta(ส่งคืนที่ด้านล่างของการเรียกไปยังsummary) นี่คือพารามิเตอร์รูปร่างของการแจกแจงแบบเนกกิ้นและเป็นไปได้หรือไม่ที่จะตีความว่าเป็นการวัดความเบ้

9
การวัดความแม่นยำของแบบจำลองการถดถอยโลจิสติก
ฉันมีแบบจำลองการถดถอยโลจิสติกที่ผ่านการฝึกอบรมซึ่งฉันใช้กับชุดข้อมูลการทดสอบ ตัวแปรที่ขึ้นต่อกันคือไบนารี (บูลีน) สำหรับแต่ละตัวอย่างในชุดข้อมูลการทดสอบฉันใช้แบบจำลองการถดถอยโลจิสติกเพื่อสร้าง% ความน่าจะเป็นที่ตัวแปรตามจะเป็นจริง จากนั้นฉันบันทึกว่าค่า acutal เป็นจริงหรือเท็จ ฉันพยายามคำนวณรูปหรือ Adjustedเหมือนในตัวแบบถดถอยเชิงเส้นR2R2R^2R2R2R^2 นี่ทำให้ฉันบันทึกสำหรับตัวอย่างแต่ละตัวอย่างในชุดการทดสอบที่ชอบ: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... ฉันสงสัยว่าจะทดสอบความแม่นยำของแบบจำลองได้อย่างไร ความพยายามครั้งแรกของฉันคือการใช้ตารางฉุกเฉินและพูดว่า "ถ้าprob_value_is_true> 0.80 เดาว่ามูลค่าจริงเป็นจริง" จากนั้นวัดอัตราส่วนที่ถูกต้องต่อการจำแนกประเภทที่ไม่ถูกต้อง แต่ฉันไม่ชอบเพราะมันให้ความรู้สึกมากกว่าฉันแค่ประเมิน 0.80 เป็นขอบเขตไม่ใช่ความแม่นยำของโมเดลโดยรวมและในทุกprob_value_is_trueค่า จากนั้นฉันพยายามดูแต่ละค่า prob_value_is_true โดยสิ้นเชิงเป็นตัวอย่างดูตัวอย่างทั้งหมดที่prob_value_is_true= 0.34 และการวัด% ของตัวอย่างเหล่านั้นโดยที่ค่า acutal เป็นจริง (ในกรณีนี้ความแม่นยำสมบูรณ์จะเป็นถ้า% ของตัวอย่าง นั่นเป็นความจริง = 34%) prob_value_is_trueฉันอาจจะสร้างคะแนนความถูกต้องได้จากข้อสรุปรูปแบบที่แตกต่างกันในแต่ละคุ้มค่าต่อเนื่องของ แต่ขนาดของกลุ่มตัวอย่างมีความกังวลอย่างมากโดยเฉพาะอย่างยิ่งในส่วนที่เกิน (ใกล้ 0% หรือ …

7
ฉันจะตัดสินใจได้อย่างไรว่าจะใช้ช่วงใดในการถดถอยแบบ LOESS ใน R
ฉันใช้โมเดลการถดถอยแบบ LOESS ใน R และฉันต้องการเปรียบเทียบผลลัพธ์ของรุ่นที่แตกต่างกัน 12 แบบด้วยขนาดตัวอย่างที่แตกต่างกัน ฉันสามารถอธิบายรายละเอียดเพิ่มเติมของโมเดลจริง ๆ ได้ถ้ามันช่วยตอบคำถามได้ นี่คือขนาดตัวอย่าง: Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: …
26 r  regression  loess 

5
การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร
ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?

4
ทำไมทุกคนจะใช้ KNN เพื่อการถดถอย?
จากสิ่งที่ฉันเข้าใจเราสามารถสร้างฟังก์ชันการถดถอยที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น ตัวอย่างเช่น (จำเป็นต้องมีหนึ่งในพาเนลเท่านั้น): ฉันจะทำนายอนาคตได้อย่างไรด้วยการใช้ KNR regressor อีกครั้งดูเหมือนว่าจะประมาณฟังก์ชั่นที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น คำถามของฉัน: อะไรคือข้อดีของการใช้ KNN regressor? ฉันเข้าใจว่ามันเป็นเครื่องมือที่ทรงพลังมากสำหรับการจัดหมวดหมู่ แต่ดูเหมือนว่ามันจะทำงานได้ไม่ดีในสถานการณ์การถดถอย

3
เหตุใดจึงใช้การประมาณแบบ Lasso ในการประมาณ OLS กับชุดย่อยของตัวแปรแบบ Lasso
k βลิตรs s o = ( β ลิตรs s o 1 , β ลิตรs s o 2 , . . . , β ลิตรL(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) เรารู้ว่าเป็น การประเมินแบบเอนเอียงดังนั้นทำไมเรายังคงใช้เป็นทางออกสุดท้ายแทนที่จะเป็น 'สมเหตุสมผล' มากขึ้น\ hat {\ beta} ^ {new} = \ left (\ hat {\ beta} _ {1: k} ^ {ใหม่}, 0, ... , 0 \ …

2
ค่า logit จริงหมายถึงอะไร
ฉันมีโมเดล logit ซึ่งมีตัวเลขระหว่าง 0 ถึง 1 ในหลาย ๆ กรณี แต่เราจะ interprete นี้ได้อย่างไร ใช้กรณีกับ logit ของ 0.20 เราสามารถยืนยันได้หรือไม่ว่ามีความเป็นไปได้ 20% ที่กรณีเป็นของกลุ่ม B กับกลุ่ม A? นั่นเป็นวิธีที่ถูกต้องในการตีความค่า logit หรือไม่

5
การรวมตัวแปรขึ้นอยู่กับความล่าช้าในการถดถอย
ฉันสับสนมากว่าการรวมตัวแปรที่ล้าหลังลงในแบบจำลองการถดถอยนั้นถูกต้องหรือไม่ โดยทั่วไปฉันคิดว่าถ้ารุ่นนี้มุ่งเน้นไปที่ความสัมพันธ์ระหว่างการเปลี่ยนแปลงใน Y และตัวแปรอิสระอื่น ๆ จากนั้นการเพิ่มตัวแปรที่ขึ้นต่อกันล้าหลังในด้านขวามือสามารถรับประกันได้ว่าสัมประสิทธิ์ก่อนค่า IV อื่น ๆ เป็นอิสระจากค่าก่อนหน้าของ Y บางคนบอกว่าการรวม LDV จะทำให้ค่าสัมประสิทธิ์ของ IV อื่น ๆ ลดลง บางคนบอกว่าสามารถรวม LDV ซึ่งสามารถลดความสัมพันธ์แบบอนุกรม ฉันรู้ว่าคำถามนี้ค่อนข้างทั่วไปในแง่ของการถดถอยชนิดใด แต่ความรู้ทางสถิติของฉันมี จำกัด และฉันมีเวลายากมากที่จะหาว่าถ้าฉันควรรวมตัวแปรที่ล้าหลังลงในแบบจำลองการถดถอยเมื่อโฟกัสคือการเปลี่ยนแปลงของ Y เมื่อเวลาผ่านไป มีวิธีอื่นที่จะจัดการกับอิทธิพลของ Xs ที่มีต่อการเปลี่ยนแปลงของ Y เมื่อเวลาผ่านไปหรือไม่? ฉันลองใช้คะแนนการเปลี่ยนแปลงที่แตกต่างกันเช่น DV แต่ R กำลังสองในสถานการณ์นั้นต่ำมาก

3
สิ่งที่จำเป็นต้องมีสำหรับการเปรียบเทียบแบบจำลอง AIC
อะไรคือสิ่งที่จำเป็นต้องมีซึ่งจำเป็นต้องทำให้สำเร็จสำหรับการเปรียบเทียบแบบจำลอง AIC กับการทำงาน ฉันเพิ่งพบคำถามนี้เมื่อฉันเปรียบเทียบเช่นนี้ > uu0 = lm(log(usili) ~ rok) > uu1 = lm(usili ~ rok) > AIC(uu0) [1] 3192.14 > AIC(uu1) [1] 14277.29 วิธีนี้ผมธรรมการเปลี่ยนแปลงของตัวแปรlog usiliแต่ฉันไม่รู้ว่าฉันสามารถเปรียบเทียบแบบจำลอง AIC ได้หรือไม่ตัวอย่างเช่นตัวแปรตามนั้นแตกต่างกันหรือไม่? คำตอบในอุดมคติจะรวมรายการของสิ่งที่จำเป็นต้องมี (ข้อสมมติฐานทางคณิตศาสตร์)

1
ความเท่าเทียมกันระหว่างกำลังสองน้อยที่สุดและ MLE ในแบบจำลองเกาส์เซียน
ฉันยังใหม่กับการเรียนรู้ของเครื่องและกำลังพยายามเรียนรู้ด้วยตัวเอง เมื่อเร็ว ๆ นี้ฉันกำลังอ่านบันทึกการบรรยายและมีคำถามพื้นฐาน สไลด์ 13 กล่าวว่า "Least Square Estimate เหมือนกับประมาณการความน่าจะเป็นสูงสุดภายใต้แบบจำลอง Gaussian" ดูเหมือนว่ามันเป็นอะไรที่เรียบง่าย แต่ฉันไม่สามารถเห็นสิ่งนี้ได้ บางคนช่วยอธิบายสิ่งที่เกิดขึ้นที่นี่ได้ไหม? ฉันสนใจที่จะเห็นคณิตศาสตร์ หลังจากนั้นฉันจะพยายามดูความน่าจะเป็นของการถดถอยแบบสันและแบบบ่วงบาศเช่นกันดังนั้นหากมีข้อเสนอแนะใด ๆ ที่จะช่วยฉันได้สิ่งนั้นก็จะได้รับการชื่นชมเช่นกัน

2
รองรับเครื่องเวกเตอร์และการถดถอย
มีการอภิปรายที่ยอดเยี่ยมเกี่ยวกับวิธีการที่เครื่องเวกเตอร์สนับสนุนจัดการการจำแนก แต่ฉันสับสนมากเกี่ยวกับวิธีการสนับสนุนเครื่องเวกเตอร์เพื่อสรุปการถดถอย ใครสนใจที่จะสอนฉัน

5
ความสัมพันธ์ที่คาดหวังระหว่างส่วนที่เหลือและตัวแปรตามคืออะไร?
ในการถดถอยเชิงเส้นหลายครั้งฉันสามารถเข้าใจความสัมพันธ์ระหว่างส่วนที่เหลือและตัวทำนายได้ว่าเป็นศูนย์ แต่ความสัมพันธ์ที่คาดหวังระหว่างตัวแปรที่เหลือและตัวแปรคืออะไร คาดว่าจะมีค่าเป็นศูนย์หรือมีความสัมพันธ์สูง? ความหมายของสิ่งนั้นคืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.