คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

4
ทำไมสแควร์ธรรมดาน้อยที่สุดจึงทำงานได้ดีกว่าการถดถอยปัวซอง?
ฉันกำลังพยายามทำให้การถดถอยเพื่ออธิบายจำนวนคดีฆาตกรรมในแต่ละเขตของเมือง แม้ว่าฉันจะรู้ว่าข้อมูลของฉันเป็นไปตามการแจกแจงปัวซอง แต่ฉันก็พยายามปรับให้เหมาะสมกับ OLS ดังนี้: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon จากนั้นฉันก็ลอง (ปฎิบัติ!) การถดถอยแบบปัวซอง ปัญหาคือว่าฉันมีผลลัพธ์ที่ดีกว่าในการถดถอย OLS: หลอก -สูงกว่า (0.71 เทียบกับ 0.57) และ RMSE เช่นกัน (3.8 vs 8.88 มาตรฐานที่มีหน่วยเดียวกัน)R2R2R^2 ทำไม? เป็นเรื่องปกติหรือไม่ มีอะไรผิดปกติในการใช้ OLS ไม่ว่าการเผยแพร่ข้อมูลจะเป็นอย่างไร แก้ไข ตามคำแนะนำของ kjetil b halvorsen และอื่น ๆ ฉันได้ติดตั้งข้อมูลผ่านสองรุ่น: OLS และ Negative Binomial GLM (NB) ฉันเริ่มด้วยฟีเจอร์ทั้งหมดที่ฉันมีจากนั้นฉันก็ทำการลบฟีเจอร์ที่ไม่สำคัญออกไปทีละแบบ …

1
สูตรชีต ANOVA ตัวอักษรซุปและการถดถอยเท่าเทียมกัน
ฉันสามารถขอความช่วยเหลือในการพยายามรับตลับลูกปืนของฉันให้เทียบเท่ากับ ANOVA และ REGRESSION ได้หรือไม่? ฉันพยายามปรับความคิดศัพท์ศัพท์และไวยากรณ์ของวิธีการทั้งสองนี้ มีโพสต์จำนวนมากในไซต์นี้เกี่ยวกับความเหมือนกันของพวกเขาเช่นนี้หรือนี่แต่ก็ยังดีที่มีแผนที่ "คุณอยู่ที่นี่" อย่างรวดเร็วเมื่อเริ่มต้น ฉันวางแผนที่จะอัพเดทโพสต์นี้และหวังว่าจะได้รับความช่วยเหลือในการแก้ไขข้อผิดพลาด ANOVA ทางเดียว: Structure: DV is continuous; IV is ONE FACTOR with different LEVELS. Scenario: miles-per-gal. vs cylinders Note that Income vs Gender (M, F) is a t-test. Syntax: fit <- aov(mpg ~ as.factor(cyl), data = mtcars); summary(fit); TukeyHSD(fit) Regression: fit …

1
พิสูจน์สูตร LOOCV
จากบทนำสู่การเรียนรู้เชิงสถิติโดย James et al. การประมาณค่าการตรวจสอบความถูกต้องแบบข้ามใบ (LOOCV) ถูกกำหนดโดย ที่ 2CV ( n ) = 1n n Σฉัน=1MSEฉันCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEฉัน=(y ที่ฉัน - Yฉัน)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2 โดยไม่มีการพิสูจน์สมการ (5.2) ระบุว่าสำหรับการถดถอยแบบพหุนามหรือพหุนามอย่างน้อยที่สุด (ไม่ว่าสิ่งนี้จะนำไปใช้กับการถดถอยของตัวแปรเพียงตัวเดียวไม่รู้จักกับฉัน) โดยที่ "คือ TH ค่าติดตั้งจากน้อยสแควร์เดิมพอดี ( ความคิดที่ไม่มีสิ่งนี้หมายความว่าโดยวิธีการที่มันไม่ได้หมายความว่าจากการใช้ทั้งหมดของจุดในชุดข้อมูล?) และคืองัด" ซึ่งถูกกำหนดโดยCV ( n ) = 1n n Σฉัน=1( Y ฉัน- Yฉัน1 - เอชฉัน )2ปีฉันฉันCV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i …


4
การถดถอยเชิงเส้นพร้อมข้อ จำกัด ความชัน
Rฉันต้องการที่จะดำเนินการถดถอยเชิงเส้นง่ายมากในการ สูตรง่ายเหมือนB อย่างไรก็ตามฉันอยากให้ความชัน ( ) อยู่ในช่วงเวลาสมมติว่าระหว่าง 1.4 ถึง 1.6y=ax+by=ax+by = ax + baaa สิ่งนี้สามารถทำได้?


4
การเปลี่ยนสมมติฐานว่างในการถดถอยเชิงเส้น
ฉันมีข้อมูลบางอย่างที่มีความสัมพันธ์สูง ถ้าฉันใช้การถดถอยเชิงเส้นฉันจะได้เส้นการถดถอยที่มีความชันใกล้กับหนึ่ง (= 0.93) สิ่งที่ฉันอยากทำคือทดสอบว่าความชันนี้แตกต่างจาก 1.0 อย่างมากหรือไม่ ความคาดหวังของฉันคือมันไม่ได้เป็น กล่าวอีกนัยหนึ่งฉันต้องการเปลี่ยนสมมติฐานว่างของการถดถอยเชิงเส้นจากความชันที่ศูนย์เป็นความชันที่หนึ่ง นี่เป็นแนวทางที่สมเหตุสมผลหรือไม่? ฉันขอขอบคุณที่คุณสามารถรวมรหัส R ในคำตอบของคุณเพื่อให้ฉันสามารถใช้วิธีนี้ (หรือดีกว่าที่คุณแนะนำ!) ขอบคุณ

4
การกำหนดฟังก์ชันการกระชับส่วนโค้งที่เหมาะสมที่สุดจากฟังก์ชันเชิงเส้น, เลขชี้กำลังและฟังก์ชันลอการิทึม
บริบท: จากคำถามเกี่ยวกับ Mathematics Stack Exchange (ฉันสามารถสร้างโปรแกรม)มีใครบางคนมีชุดของจุดและต้องการให้พอดีกับเส้นโค้งกับมันเส้นเชิงเส้นชี้แจงหรือลอการิทึม วิธีปกติคือการเริ่มต้นด้วยการเลือกหนึ่งในวิธีเหล่านี้ (ซึ่งระบุรุ่น) แล้วทำการคำนวณทางสถิติx - yx-Yx-y แต่สิ่งที่เป็นที่ต้องการจริงๆคือการหาเส้นโค้ง 'ที่ดีที่สุด' จากเส้นตรง, เลขชี้กำลังหรือลอการิทึม เห็นได้ชัดว่าใครจะลองทั้งสามและเลือกเส้นโค้งที่พอดีที่สุดของทั้งสามตามค่าสัมประสิทธิ์สหสัมพันธ์ที่ดีที่สุด แต่อย่างใดฉันรู้สึกว่านี่ไม่ใช่เพียว วิธีที่ได้รับการยอมรับโดยทั่วไปคือการเลือกแบบจำลองของคุณก่อนหนึ่งในสามนั้น (หรือฟังก์ชันการเชื่อมโยงอื่น ๆ ) จากนั้นข้อมูลจะคำนวณค่าสัมประสิทธิ์ และโพสต์พฤตินัยการเลือกที่ดีที่สุดของทั้งหมดคือการเก็บเชอร์รี่ แต่สำหรับฉันไม่ว่าคุณจะกำหนดฟังก์ชั่นหรือค่าสัมประสิทธิ์จากข้อมูลที่ยังคงเป็นสิ่งเดียวกันขั้นตอนของคุณคือการค้นพบสิ่งที่ดีที่สุด ... (สมมติว่าฟังก์ชันใดคือ คำถาม: เหมาะสมหรือไม่ที่จะเลือกแบบจำลองการกระชับที่ดีที่สุดจากแบบจำลองเชิงเส้นเอ็กซ์โพเนนเชียลและลอการิทึมตามการเปรียบเทียบสถิติแบบเต็ม? ถ้าเป็นเช่นนั้นวิธีที่เหมาะสมที่สุดในการทำเช่นนี้คืออะไร? หากการถดถอยช่วยค้นหาพารามิเตอร์ (สัมประสิทธิ์) ในฟังก์ชั่นเหตุใดจึงไม่มีพารามิเตอร์ที่แยกออกมาเพื่อเลือกว่าตระกูลใดในสามตระกูลที่ดีที่สุดมาจากไหน

3
การรับสูตรสำหรับการ จำกัด การทำนายในตัวแบบเชิงเส้น (เช่น: ช่วงการทำนาย)
ลองมาตัวอย่างต่อไปนี้: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) สิ่งนี้สร้างรูปแบบของ y โดยยึดตาม x1 และ x2 โดยใช้การถดถอยแบบ OLS ถ้าเราต้องการที่จะคาดการณ์ปีสำหรับให้ x_vec summary(fit)เราก็สามารถใช้สูตรที่เราได้รับจาก อย่างไรก็ตามถ้าเราต้องการที่จะทำนายการคาดการณ์ที่ต่ำกว่าและบนของ y? (สำหรับระดับความเชื่อมั่นที่กำหนด) แล้วเราจะสร้างสูตรได้อย่างไร

4
ฉันสามารถลบตัวแปรทำนายหนึ่งในสองตัวที่มีความสัมพันธ์เชิงเส้นสูงได้หรือไม่?
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันฉันมีตัวแปรหลายตัวที่มีความสัมพันธ์สูง ( และρ = 0.989สำหรับตัวแปร 2 คู่ที่อยู่ในแบบจำลองของฉัน)ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 เหตุผลบางส่วนของตัวแปรที่มีความสัมพันธ์อย่างมากเป็นเพราะหนึ่งในตัวแปรที่ใช้ในการคำนวณตัวแปรอื่น ตัวอย่าง: และ E = V ∗ DB=V/3000B=V/3000B = V / 3000E=V∗DE=V∗DE = V * D และ Eมี ρ = 0.989BBBEEEρ=0.989ρ=0.989\rho = 0.989 เป็นไปได้ไหมที่ฉันจะ "ทิ้ง" หนึ่งในตัวแปร

3
วิธีจัดการกับตัวแปรเด็ดขาดลำดับเป็นตัวแปรอิสระ
ฉันใช้โมเดล logit ตัวแปรตามของฉันคือไบนารี 1.very good, 2.good, 3.average, 4.poor and 5.very poorแต่ฉันมีตัวแปรอิสระซึ่งเป็นเด็ดขาดและมีการตอบ: ดังนั้นมันจึงเป็นอันดับ ("เด็ดขาดเชิงปริมาณ") ฉันไม่แน่ใจว่าจะจัดการกับสิ่งนี้อย่างไรในแบบจำลอง gretlฉันใช้ [หมายเหตุจาก @ttnphns: แม้ว่าคำถามจะบอกว่าตัวแบบนั้นเป็น logit (เนื่องจากการพึ่งพานั้นจัดอยู่ในหมวดหมู่) แต่ประเด็นสำคัญ - ตัวแปรอิสระลำดับ- มีความเหมือนกัน ดังนั้นคำถามก็มีความเกี่ยวข้องเท่าเทียมกันกับการพูดการถดถอยเชิงเส้นเช่นกันเช่นเดียวกับการถดถอยแบบโลจิสติกหรือแบบจำลองการบันทึกอื่น ๆ ]

5
อะไรคือเหตุผลที่การเปลี่ยนแปลงการบันทึกใช้กับการแจกแจงแบบเบ้ขวา?
ฉันเคยได้ยินว่า การแปลงท่อนซุงเป็นที่นิยมกันมากที่สุดสำหรับการแจกแจงแบบเบ้ด้านขวาในการถดถอยเชิงเส้นหรือการถดถอยเชิงปริมาณ ฉันต้องการทราบว่ามีเหตุผลใดบ้างที่อยู่ภายใต้ข้อความนี้? ทำไมการแปลงบันทึกจึงเหมาะสมสำหรับการแจกแจงเบ้ที่ถูกต้อง วิธีการกระจายซ้ายเอียง?

1
ความแตกต่างระหว่าง Primal, Dual และ Kernel Ridge Regression
ความแตกต่างระหว่างPrimal , DualและKernel Ridge Regression คืออะไร? ผู้คนกำลังใช้ทั้งสามและเนื่องจากความแตกต่างของสัญลักษณ์ที่ทุกคนใช้ในแหล่งที่แตกต่างกันเป็นเรื่องยากสำหรับฉันที่จะติดตาม ดังนั้นใครบางคนสามารถบอกฉันด้วยคำพูดง่ายๆสิ่งที่แตกต่างระหว่างสามคนนี้คืออะไร? นอกจากนี้สิ่งที่อาจเป็นข้อดีหรือข้อเสียของแต่ละคนและสิ่งที่มีความซับซ้อนของพวกเขา?


1
จะทดสอบนัยสำคัญทางสถิติสำหรับตัวแปรเด็ดขาดในการถดถอยเชิงเส้นอย่างไร
หากในการถดถอยเชิงเส้นฉันมีตัวแปรเด็ดขาด ... ฉันจะทราบความหมาย stastical ของตัวแปรเด็ดขาดได้อย่างไร สมมุติว่าปัจจัยมี 10 ระดับ ... จะมีค่า t ผลลัพธ์ที่ต่างกัน 10 ค่าภายใต้ตัวแปรปัจจัยเดียว ...X1X1X_1X1X1X_1 ดูเหมือนว่าสำหรับฉันแล้วสถิตินัยได้รับการทดสอบสำหรับตัวแปรระดับแต่ละระดับแล้วหรือยัง? ไม่มี? @Macro: ทำตามคำแนะนำของคุณฉันได้สร้างตัวอย่างต่อไปนี้: ดูเหมือนว่า x3 มีประโยชน์และต้องรวมอยู่ในโมเดลจากการเปรียบเทียบโมเดลด้านล่าง แต่จริงๆแล้วมันผิด ... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.