คำถามติดแท็ก r-squared

สัมประสิทธิ์การตัดสินใจซึ่งมักจะเป็นสัญลักษณ์ของคือสัดส่วนของความแปรปรวนการตอบสนองทั้งหมดที่อธิบายโดยตัวแบบการถดถอย ยังสามารถใช้สำหรับข้อเสนอหลอก R-squared ต่างๆเช่นการถดถอยโลจิสติก (และรุ่นอื่น ๆ ) R2

1
ค่าที่คาดหวังของ , ค่าสัมประสิทธิ์ของการกำหนดภายใต้สมมติฐานว่าง
ผมอยากรู้เกี่ยวกับคำสั่งที่ทำที่ด้านล่างของหน้าแรกในข้อความนี้ เกี่ยวกับปรับR2adjustedRadjusted2R^2_\mathrm{adjusted} R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). ข้อความระบุ: ตรรกะของการปรับตัวคือต่อไปนี้: ในการถดถอยพหุคูณสามัญทำนายสุ่มอธิบายในสัดส่วนเฉลี่ย1/(n–1)1/(n–1)1/(n – 1)ของการเปลี่ยนแปลงการตอบสนองเพื่อให้mmmทำนายสุ่มอธิบายกันโดยเฉลี่ยm/(n–1)m/(n–1)m/(n – 1)ความแปรปรวนของการตอบสนอง; ในคำอื่น ๆ ที่คาดว่าค่าตัวของR2R2R^2คือE(R2)=m/(n–1)E(R2)=m/(n–1)\mathbb{E}(R^2) = m/(n – 1)1) การใช้สูตร[ R2adjustedRadjusted2R^2_\mathrm{adjusted} ] กับค่านั้นโดยที่ตัวทำนายทั้งหมดสุ่มเลือกให้R2adjusted=0Radjusted2=0R^2_\mathrm{adjusted} = 0 " นี้น่าจะเป็นแรงจูงใจที่ง่ายมากและ interpretable สำหรับR2adjustedRadjusted2R^2_\mathrm{adjusted}{} อย่างไรก็ตามฉันไม่สามารถระบุได้ว่าE(R2)=1/(n–1)E(R2)=1/(n–1)\mathbb{E}(R^2)=1/(n – 1)สำหรับตัวทำนายแบบสุ่มเดี่ยว (เช่นไม่มีการจับคู่) ใครช่วยชี้ทางฉันให้ถูกทางที่นี่?

3
สหสัมพันธ์หรือสัมประสิทธิ์การตัดสินใจเกี่ยวข้องกับเปอร์เซ็นต์ของค่าที่ตกไปตามเส้นการถดถอยหรือไม่?
สหสัมพันธ์, , เป็นการวัดความสัมพันธ์เชิงเส้นระหว่างสองตัวแปร ค่าสัมประสิทธิ์ของการตัดสินใจเป็นการวัดความแปรปรวนในตัวแปรหนึ่งที่สามารถอธิบาย "การเปลี่ยนแปลง" ในอีกตัวแปรหนึ่งrrrr2r2r^2 ตัวอย่างเช่นถ้าความสัมพันธ์ระหว่างสองตัวแปรแล้ว0.64 ดังนั้น 64% ของความแปรปรวนในหนึ่งสามารถอธิบายได้ด้วยความแตกต่างในอีก ขวา?r 2 = 0.64r=0.8r=0.8r = 0.8r2=0.64r2=0.64r^2 = 0.64 คำถามของฉันสำหรับตัวอย่างที่ระบุไว้ข้อความใดข้อความหนึ่งต่อไปนี้ถูกต้อง? 64% ของค่าอยู่ในแนวเส้นถดถอย 80% ของค่าอยู่ในแนวเส้นถดถอย

3
แบบจำลองของฉันดีหรือไม่ขึ้นอยู่กับค่าการวินิจฉัยของเมตริก (
ฉันติดตั้งโมเดลของฉันแล้วและพยายามเข้าใจว่ามันดีหรือไม่ ฉันได้คำนวณตัวชี้วัดที่แนะนำเพื่อประเมิน ( ข้อผิดพลาด / AUC / ความถูกต้อง / การคาดการณ์ / ฯลฯ ) แต่ไม่ทราบว่าจะตีความได้อย่างไร ในระยะสั้นฉันจะบอกได้อย่างไรว่าแบบจำลองของฉันดีตามเมตริกหรือไม่ เป็น 0.6 (ตัวอย่าง) เพียงพอที่จะแจ้งให้เราดำเนินการวาดข้อสรุปหรือการตัดสินใจธุรกิจ / วิทยาศาสตร์ฐาน?R2R2R^2R2R2R^2 คำถามนี้ตั้งใจกว้างเพื่อครอบคลุมสถานการณ์ที่สมาชิกเผชิญบ่อยครั้ง คำถามดังกล่าวอาจถูกปิดซ้ำซ้อนกับคำถามนี้ การแก้ไขเพื่อขยายขอบเขตนอกเหนือจากตัวชี้วัดที่กล่าวถึงที่นี่ยินดีต้อนรับเช่นเดียวกับคำตอบเพิ่มเติมโดยเฉพาะอย่างยิ่งสิ่งที่ให้ข้อมูลเชิงลึกเกี่ยวกับเมตริกประเภทอื่น

1
ทำไม R Squared จึงไม่ใช่มาตรการที่ดีสำหรับการถดถอยที่เหมาะสมเมื่อใช้ LASSO
ฉันได้อ่านในหลาย ๆ ที่ว่า R Squared ไม่ใช่วิธีที่เหมาะสมที่สุดเมื่อแบบจำลองนั้นเหมาะสมกับ LASSO แต่ฉันไม่ชัดเจนเกี่ยวกับว่าทำไมที่เป็น นอกจากนี้คุณสามารถแนะนำทางเลือกที่ดีที่สุดได้หรือไม่

1
บางส่วนควรรวม
ต่อไปนี้เป็นรูปแบบที่สร้างขึ้นจากmtcarsชุดข้อมูล: > ols(mpg~wt+am+qsec, mtcars) Linear Regression Model ols(formula = mpg ~ wt + am + qsec, data = mtcars) Model Likelihood Discrimination Ratio Test Indexes Obs 32 LR chi2 60.64 R2 0.850 sigma 2.4588 d.f. 3 R2 adj 0.834 d.f. 28 Pr(> chi2) 0.0000 g 6.456 Residuals Min 1Q Median …

2
อะไรคือความแตกต่างระหว่าง
ผมอ่านเกี่ยวกับเมตริกถดถอยในหลาม scikit การเรียนรู้ด้วยตนเองและแม้ว่าหนึ่งของพวกเขาแต่ละคนมีสูตรของตัวเองฉันไม่สามารถบอกสังหรณ์ใจว่าอะไรคือความแตกต่างระหว่างและคะแนนความแปรปรวนและดังนั้นเมื่อจะใช้อย่างใดอย่างหนึ่งหรืออื่นในการประเมิน โมเดลของฉันR2R2R^2

1
ปัญหาของการใช้ R-squared ในรุ่นอนุกรมเวลาคืออะไร
ฉันได้อ่านแล้วว่าการใช้ R-squared สำหรับอนุกรมเวลานั้นไม่เหมาะสมเพราะในบริบทของอนุกรมเวลา (ฉันรู้ว่ามีบริบทอื่น ๆ ) R-squared นั้นไม่เหมือนกันอีกต่อไป ทำไมนี้ ฉันพยายามค้นหามัน แต่ฉันไม่พบอะไรเลย โดยทั่วไปแล้วฉันไม่ได้ให้ความสำคัญกับ R-squared (หรือ Adjusted R-Squared) เมื่อฉันประเมินแบบจำลองของฉัน แต่เพื่อนร่วมงานจำนวนมากของฉัน (เช่นวิชาเอกธุรกิจ) นั้นหลงรัก R-Squared และฉันต้องการที่จะ อธิบายกับพวกเขาว่าทำไม R-Squared จึงไม่เหมาะสมในบริบทของอนุกรมเวลา

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

1
การเพิ่มตัวทำนายการถดถอยเชิงเส้นจะลด R กำลังสอง
ชุดข้อมูลของฉัน (ยังไม่มีข้อความ≈ 10 , 000ยังไม่มีข้อความ≈10,000N \approx 10,000) มีตัวแปรตาม (DV), "baseline" อิสระห้าตัวแปร (P1, P2, P3, P4, P5) และหนึ่งตัวแปรอิสระที่น่าสนใจ (Q) ฉันใช้การถดถอยเชิงเส้น OLS สำหรับรุ่นสองรุ่นต่อไปนี้: DV ~ 1 + P1 + P2 + P3 + P4 + P5 -> R-squared = 0.125 DV ~ 1 + P1 + P2 + P3 + P4 + …

1
ทำไมเราไม่สามารถใช้สำหรับการแปลงของตัวแปรตาม
ลองนึกภาพเรามีรูปแบบการถดถอยเชิงเส้นที่มีตัวแปรตามYเราได้พบกับสิ่งRตอนนี้เราทำถดถอยอีก แต่คราวนี้และเช่นเดียวกันสิ่ง(y)} ฉันถูกบอกว่าฉันไม่สามารถเปรียบเทียบทั้งเพื่อดูว่าแบบจำลองใดเหมาะสมกว่า ทำไมถึงเป็นอย่างนั้น? เหตุผลที่ทำให้ฉันคือเราจะเปรียบเทียบความแปรปรวนของปริมาณที่แตกต่างกัน (ตัวแปรตามต่างกัน) ฉันไม่แน่ใจว่านี่ควรเป็นเหตุผลเพียงพอสำหรับเรื่องนี้yyyR2yRy2R^2_ylog(y)log⁡(y)\log(y)R2log(y)Rlog⁡(y)2R^2_{\log(y)}R2R2R^2 นอกจากนี้ยังมีวิธีที่จะทำให้เป็นระเบียบนี้หรือไม่? ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม

1
วิธีการคำนวณจากตัวอย่าง R กำลังสอง?
ฉันรู้ว่าอาจมีการพูดถึงที่อื่น แต่ฉันไม่สามารถหาคำตอบที่ชัดเจนได้ ฉันกำลังพยายามใช้สูตรเพื่อคำนวณ -ตัวอย่างของการถดถอยเชิงเส้นโดยที่คือผลรวมของส่วนที่เหลือกำลังสองและคือผลรวมของกำลังสองทั้งหมด สำหรับชุดฝึกอบรมนั้นเป็นที่ชัดเจนว่าR2=1−SSR/SSTR2=1−SSR/SSTR^2 = 1 - SSR/SSTR2R2R^2SSRSSRSSRSSTSSTSST SST=Σ(y−y¯train)2SST=Σ(y−y¯train)2 SST = \Sigma (y - \bar{y}_{train})^2 ชุดทดสอบมีอะไรบ้าง ฉันควรใช้สำหรับตัวอย่างหรือใช้แทนหรือไม่y¯trainy¯train\bar{y}_{train}yyyy¯testy¯test\bar{y}_{test} ฉันพบว่าถ้าฉันใช้ผลลัพธ์อาจเป็นลบได้ในบางครั้ง สิ่งนี้สอดคล้องกับคำอธิบายฟังก์ชั่นของ sklearn โดยที่พวกเขาใช้ (ซึ่งยังใช้โดยฟังก์ชันlinear_model ของพวกเขาสำหรับการทดสอบตัวอย่าง) พวกเขากล่าวว่า "แบบจำลองค่าคงที่ที่ทำนายค่า y ที่คาดไว้เสมอโดยไม่คำนึงถึงคุณลักษณะอินพุตจะได้รับคะแนน R ^ 2 เท่ากับ 0.0"y¯testy¯test\bar{y}_{test}R2R2R^2r2_score()y¯testy¯test\bar{y}_{test}score() อย่างไรก็ตามในที่อื่น ๆ ผู้คนใช้แบบนี้และที่นี่ (คำตอบที่สองโดย dmi3kno) ดังนั้นฉันสงสัยว่าสิ่งใดที่เหมาะสมกว่า ความคิดเห็นใด ๆ จะได้รับการชื่นชมอย่างมาก!y¯trainy¯train\bar{y}_{train}

3
ความสัมพันธ์ระหว่างของการถดถอยอย่างง่ายและการถดถอยหลายครั้ง
คำถามพื้นฐานที่เกี่ยวข้องกับการถดถอย OLS ของR2R2R^2 เรียกใช้ OLS regression y ~ x1 เรามีบอกว่า 0.3R2R2R^2 รัน OLS regression y ~ x2 เรามีอีกอันบอกว่า 0.4R2R2R^2 ตอนนี้เราเรียกใช้การถดถอย y ~ x1 + x2 ค่า R ของการถดถอยนี้มีค่าเท่าไหร่ ฉันคิดว่ามันชัดเจนว่าสำหรับการถดถอยหลายครั้งไม่ควรน้อยกว่า 0.4 แต่เป็นไปได้หรือที่จะมากกว่า 0.7?R2R2R^2

2
มีวิธีที่ฉลาด / ชาญฉลาดในการทำความเข้าใจตัวตนถดถอยเชิงเส้นนี้สำหรับหลาย ๆ
ในการถดถอยเชิงเส้นฉันได้พบผลลัพธ์ที่น่ายินดีว่าถ้าเราพอดีกับแบบจำลอง E[Y]=β1X1+β2X2+c,E[Y]=β1X1+β2X2+c,E[Y] = \beta_1 X_1 + \beta_2 X_2 + c, แล้วถ้าเราสร้างมาตรฐานและศูนย์ ,และข้อมูลYYYX1X1X_1X2X2X_2 R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R^2 = \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2. สิ่งนี้ทำให้ฉันรู้สึกเหมือนเป็นตัวแปร 2 รุ่นของสำหรับการถดถอยซึ่งเป็นที่ชื่นชอบR2=Cor(Y,X)2R2=Cor(Y,X)2R^2 = \mathrm{Cor}(Y,X)^2y=mx+cy=mx+cy=mx+c แต่ข้อพิสูจน์เดียวที่ฉันรู้ไม่ได้อยู่ในเชิงสร้างสรรค์หรือลึกซึ้ง (ดูด้านล่าง) และยังมองมันรู้สึกว่าควรเข้าใจได้ง่าย ตัวอย่างความคิด: และพารามิเตอร์ให้เรา 'สัดส่วนของและβ1β1\beta_1β2β2\beta_2X1X1X_1X2X2X_2ในYYYและดังนั้นเราจึงได้สัดส่วนตามความสัมพันธ์ของพวกเขา ... ββ\betas มีความสัมพันธ์บางส่วน R2R2R^2 คือความสัมพันธ์หลายกำลังสอง ... ความสัมพันธ์คูณด้วยความสัมพันธ์บางส่วน ... ถ้าเราปรับมุมฉากก่อนจากนั้น ββ\betaจะเป็น Cov/VarCov/Var\mathrm{Cov}/\mathrm{Var}... ผลลัพธ์นี้มีความหมายทางเรขาคณิตหรือไม่? ดูเหมือนว่าไม่มีหัวข้อใดที่จะนำพาฉันไปได้ทุกที่ ทุกคนสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับวิธีการเข้าใจผลลัพธ์นี้ หลักฐานไม่น่าพอใจ R2=SSregSSTot=SSregN=⟨(β1X1+β2X2)2⟩=⟨β21X21⟩+⟨β22X22⟩+2⟨β1β2X1X2⟩R2=SSregSSTot=SSregN=⟨(β1X1+β2X2)2⟩=⟨β12X12⟩+⟨β22X22⟩+2⟨β1β2X1X2⟩\begin{equation} R^2 = \frac{SS_{reg}}{SS_{Tot}} …

5
การใช้ deciles เพื่อหาความสัมพันธ์เป็นแนวทางที่ถูกต้องทางสถิติหรือไม่?
ฉันมีตัวอย่างของจุดข้อมูล 1,449 จุดที่ไม่สัมพันธ์กัน (r-squared 0.006) เมื่อวิเคราะห์ข้อมูลฉันค้นพบว่าการแบ่งค่าตัวแปรอิสระออกเป็นกลุ่มเชิงบวกและเชิงลบดูเหมือนว่าจะมีความแตกต่างอย่างมีนัยสำคัญในค่าเฉลี่ยของตัวแปรตามสำหรับแต่ละกลุ่ม การแบ่งคะแนนออกเป็น 10 ถังขยะ (deciles) โดยใช้ค่าตัวแปรอิสระดูเหมือนว่าจะมีความสัมพันธ์กันมากขึ้นระหว่างหมายเลข decile และค่าตัวแปรขึ้นอยู่กับค่าเฉลี่ย (r-squared 0.27) ฉันไม่รู้เกี่ยวกับสถิติมากนักดังนั้นนี่เป็นคำถามสองสามข้อ: นี่เป็นวิธีทางสถิติที่ถูกต้องหรือไม่? มีวิธีการหาจำนวนที่ดีที่สุดของถังขยะหรือไม่? คำที่เหมาะสมสำหรับแนวทางนี้คืออะไรฉันจึงสามารถใช้ Google ได้ มีแหล่งข้อมูลเบื้องต้นอะไรบ้างที่จะเรียนรู้เกี่ยวกับวิธีการนี้ มีวิธีอื่นใดอีกบ้างที่ฉันสามารถใช้เพื่อค้นหาความสัมพันธ์ในข้อมูลนี้ นี่คือข้อมูลช่วงชั้นสำหรับการอ้างอิง: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90 แก้ไข: นี่คือภาพของข้อมูล: โมเมนตัมของอุตสาหกรรมเป็นตัวแปรอิสระคุณภาพของจุดเข้าใช้งานขึ้นอยู่กับ

3
ช่วงที่เป็นไปได้ของ
สมมติว่าเป็นอนุกรมเวลาสามชุด ,และX1X1X_1X2X2X_2YYY เล่นการถดถอยเชิงเส้นสามัญ ~ ( ) เราได้รับU สามัญถดถอยเชิงเส้น ~รับV สมมติว่าYYYX1X1X_1Y=bX1+b0+ϵY=bX1+b0+ϵY = b X_1 + b_0 + \epsilonR2=UR2=UR^2 = UYYYX2X2X_2R2=VR2=VR^2 = VU&lt;VU&lt;VU < V ค่าต่ำสุดและสูงสุดที่เป็นไปได้ของจากการถดถอยคือ ~ ( )R2R2R^2YYYX1+X2X1+X2X_1 + X_2Y=b1X1+b2X2+b0+ϵY=b1X1+b2X2+b0+ϵY = b_1 X_1 + b_2 X_2 + b_0 + \epsilon ฉันเชื่อว่าค่าต่ำสุดควรเป็น + ค่าเล็กเนื่องจากการเพิ่มตัวแปรใหม่จะเพิ่มเสมอ แต่ฉันไม่ทราบวิธีการหาจำนวนค่าเล็ก ๆ นี้และฉันไม่รู้วิธีหาช่วงสูงสุด .R2R2R^2VVVR2R2R^2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.