คำถามติดแท็ก r-squared

สัมประสิทธิ์การตัดสินใจซึ่งมักจะเป็นสัญลักษณ์ของคือสัดส่วนของความแปรปรวนการตอบสนองทั้งหมดที่อธิบายโดยตัวแบบการถดถอย ยังสามารถใช้สำหรับข้อเสนอหลอก R-squared ต่างๆเช่นการถดถอยโลจิสติก (และรุ่นอื่น ๆ ) R2

3
ค่าสูงหรือเปล่าประโยชน์?
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 3 ปีที่แล้ว ในสถิติเราทำการถดถอยเชิงเส้นซึ่งเป็นจุดเริ่มต้นของมัน โดยทั่วไปแล้วเรารู้ว่ายิ่งยิ่งสูง แต่ยิ่งมีสถานการณ์ที่สูงจะเป็นตัวอย่างที่ไร้ประโยชน์หรือไม่?R 2R2R2R^2R2R2R^2

2
มีสิ่งใดบ้างที่เป็นการปรับ
เมื่อรวมโมเดลการถดถอยเชิงปริมาณในกระดาษผู้วิจารณ์ต้องการให้ฉันรวมปรับปรุงแล้วลงในกระดาษ ฉันได้คำนวณหลอก - s (จากKoenker และกระดาษ JASA ของปี 1999 ของ Machado ) สำหรับสามปริมาณที่น่าสนใจสำหรับการศึกษาของฉันR2R2R^2R2R2R^2 อย่างไรก็ตามฉันไม่เคยได้ยินการปรับสำหรับการถดถอยแบบควอไทล์และไม่รู้จะคำนวณได้อย่างไร ฉันขอให้คุณทำอย่างใดอย่างหนึ่งต่อไปนี้:R2R2R^2 เด่นกว่า: สูตรหรือวิธีการเกี่ยวกับวิธีการคำนวณปรับปรุงแล้วสำหรับการถดถอยเชิงปริมาณR2R2R^2 อีกทางเลือกหนึ่ง: ข้อโต้แย้งที่น่าเชื่อเพื่อให้ผู้ตรวจสอบทราบว่าทำไมไม่มีสิ่งนั้นในฐานะปรับแล้วในการถดถอยเชิงปริมาณR2R2R^2

1
มีความแตกต่างระหว่าง
ค่าสัมประสิทธิ์สหสัมพันธ์มักเขียนด้วยทุนแต่บางครั้งก็ไม่ ฉันสงสัยว่ามีความแตกต่างระหว่างr 2และR 2หรือไม่? Can Rหมายถึงสิ่งอื่นมากกว่าค่าสัมประสิทธิ์สหสัมพันธ์หรือไม่?RRRr2r2r^2R2R2R^2rrr

2
R-squared ในการถดถอยแบบควอไทล์
ฉันใช้การถดถอยเชิงปริมาณเพื่อหาตัวทำนาย 90 เปอร์เซ็นต์ของข้อมูลของฉัน ฉันกำลังทำสิ่งนี้ใน R โดยใช้quantregแพ็คเกจ ฉันจะกำหนดr2r2r^2สำหรับการถดถอยแบบควอไทล์ซึ่งจะบ่งบอกความแปรปรวนของตัวแปรทำนายได้เท่าใด สิ่งที่ฉันอยากรู้: "วิธีใดที่ฉันสามารถใช้เพื่อค้นหาว่ามีการอธิบายความแปรปรวนมากแค่ไหน" ระดับนัยสำคัญโดยค่า P summary(rq(formula,tau,data))มีให้บริการในผลลัพธ์ของคำสั่ง: ฉันจะได้รับความดีของความพอดีได้อย่างไร

4
ความสำคัญของการทำนายในการถดถอยหลายครั้ง: บางส่วนกับค่าสัมประสิทธิ์มาตรฐาน
ฉันสงสัยว่าความสัมพันธ์ที่แน่นอนระหว่างบางส่วนกับสัมประสิทธิ์ในแบบจำลองเชิงเส้นคืออะไรและฉันควรใช้เพียงหนึ่งหรือทั้งสองเพื่อแสดงความสำคัญและอิทธิพลของปัจจัยต่างๆR2R2R^2 เท่าที่ฉันรู้summaryฉันได้รับการประมาณค่าสัมประสิทธิ์และanovaผลรวมของกำลังสองสำหรับแต่ละปัจจัย - สัดส่วนของผลรวมของกำลังสองของปัจจัยหนึ่งหารด้วยผลรวมของผลบวกของสี่เหลี่ยมบวกส่วนที่เหลือเป็นบางส่วน (รหัสต่อไปนี้อยู่ใน)R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 …

6
การตีความผลลัพธ์การถดถอยเชิงเส้นอย่างง่าย
ฉันใช้การถดถอยเชิงเส้นอย่างง่ายของล็อกธรรมชาติของตัวแปร 2 ตัวเพื่อตรวจสอบว่ามีความสัมพันธ์กันหรือไม่ ผลลัพธ์ของฉันคือ: R^2 = 0.0893 slope = 0.851 p < 0.001 ฉันสับสน. มองไปที่มูลค่าฉันจะบอกว่าตัวแปรทั้งสองจะไม่ได้มีความสัมพันธ์เพราะมันเป็นให้ใกล้เคียงกับ0อย่างไรก็ตามความชันของเส้นการถดถอยมีค่าเกือบ (แม้จะดูราวกับว่ามันเกือบจะเป็นแนวนอนในพล็อต) และค่า p ระบุว่าการถดถอยมีความสำคัญสูง 0 1R2R2R^2000111 นี่หมายความว่าตัวแปรทั้งสองมีความสัมพันธ์สูงหรือไม่? ถ้าเป็นเช่นนั้นค่าระบุว่าอะไร?R2R2R^2 ฉันควรเพิ่มว่าสถิติ Durbin-Watson ถูกทดสอบในซอฟต์แวร์ของฉันและไม่ปฏิเสธสมมติฐานว่าง (มันเท่ากับ ) ฉันคิดว่าสิ่งนี้ทดสอบความเป็นอิสระระหว่างตัวแปร ในกรณีนี้ฉันคาดว่าตัวแปรจะขึ้นอยู่กับเนื่องจากเป็นการวัดของนกแต่ละตัว ฉันใช้การถดถอยนี้เป็นส่วนหนึ่งของวิธีการตีพิมพ์เพื่อกำหนดสภาพร่างกายของแต่ละคนดังนั้นฉันจึงสันนิษฐานว่าการใช้การถดถอยแบบนี้สมเหตุสมผล อย่างไรก็ตามด้วยผลลัพธ์เหล่านี้ฉันคิดว่าอาจเป็นเพราะนกเหล่านี้วิธีนี้ไม่เหมาะ นี่เป็นข้อสรุปที่สมเหตุสมผลหรือไม่?2 21.3571.3571.357222222

2
เป็นถ่วงน้ำหนัก
ฉันประเมินโมเดลเชิงเส้นที่ทนทานRด้วยน้ำหนัก MM โดยใช้rlm()แพคเกจ MASS `R`` ไม่ได้ให้ค่าสำหรับแบบจำลอง แต่ฉันต้องการให้มีค่าหากเป็นปริมาณที่มีความหมาย ฉันยังสนใจที่จะทราบว่ามีความหมายใด ๆ ในการมีค่าR 2ที่ชั่งน้ำหนักความแปรปรวนทั้งหมดและส่วนที่เหลือในลักษณะเดียวกับที่การสังเกตนั้นมีน้ำหนักในการถดถอยที่แข็งแกร่งหรือไม่ ความคิดทั่วไปของฉันคือถ้าสำหรับวัตถุประสงค์ของการถดถอยเรามีน้ำหนักที่ให้อิทธิพลน้อยกว่าเพราะพวกมันมีค่าผิดปกติในทางใดทางหนึ่งบางทีอาจจะเพื่อการคำนวณr 2เราควรให้ค่าเหล่านั้นด้วย ประมาณการเดียวกันมีอิทธิพลน้อยลงหรือไม่R2R2R^2R2R2R^2r2r2r^2 ฉันเขียนฟังก์ชันง่าย ๆ สองอย่างสำหรับและR 2ถ่วงน้ำหนักพวกมันอยู่ด้านล่าง ฉันยังรวมผลลัพธ์ของการเรียกใช้ฟังก์ชันเหล่านี้สำหรับแบบจำลองของฉันซึ่งเรียกว่า HI9 แก้ไข: ฉันพบหน้าเว็บของ Adelle Coster ของ UNSW ที่ให้สูตรสำหรับการรวมเวกเตอร์ตุ้มน้ำหนักในการคำนวณการคำนวณของทั้งสองและอย่างที่ฉันทำและขอให้เธออ้างอิงอย่างเป็นทางการเพิ่มเติม: http: //web.maths unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (ยังคงต้องการความช่วยเหลือจาก Cross Validated เกี่ยวกับวิธีการตีความน้ำหนักr 2นี้)R2R2R^2R2R2R^2R2SSeSStr2r2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 …

2
อะไรคือค่า“
อะไรคือค่า ให้ไว้ในบทสรุปของโมเดล coxph ใน R ตัวอย่างเช่น,R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) ฉันรวมบทความต้นฉบับอย่างโง่เขลาเป็นค่าและผู้ตรวจสอบเพิ่มขึ้นโดยบอกว่าเขาไม่ได้ตระหนักถึงอนาล็อกของ สถิติจากการถดถอยเชิงเส้นแบบคลาสสิกที่พัฒนาขึ้นสำหรับโมเดล Cox และหากมีสิ่งใดสิ่งหนึ่งโปรด ให้การอ้างอิง ความช่วยเหลือใด ๆ จะดีมาก!R 2R2R2R^2R2R2R^2

5
ไม่
ฉันดูเหมือนจะสับสนตัวเองพยายามที่จะเข้าใจว่าค่า -squared ยังมีค่าrrrppp ตามที่ฉันเข้าใจแล้วความสัมพันธ์เชิงเส้นกับชุดของจุดข้อมูลสามารถมีค่าตั้งแต่ถึงและค่านี้ไม่ว่าจะเป็นอะไรก็ตามสามารถมีซึ่งแสดงว่าแตกต่างอย่างมีนัยสำคัญจาก (เช่น หากมีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทั้งสอง)rrr−1−1-1111ppprrr000 ย้ายไปยังถดถอยเชิงเส้น, ฟังก์ชั่นสามารถติดตั้งได้กับข้อมูลที่อธิบายโดยสมการbX และ (การสกัดกั้นและความชัน) ยังมีค่าเพื่อแสดงว่าพวกเขาแตกต่างจากอย่างมีนัยสำคัญหรือไม่Y=a+bXY=a+bXY = a + bXaaabbbppp000 สมมติว่าผมเพื่อให้ห่างไกลมีความเข้าใจที่ถูกต้องทุกอย่างเป็น -value สำหรับและ -value สำหรับเพียงสิ่งเดียวกันได้หรือไม่ แล้วมันเป็นที่ถูกต้องที่จะบอกว่ามันไม่ได้เป็น -squared ที่มี -value แต่หรือที่ไม่?ppprrrpppbbbrrrppprrrbbb

1
ค่า R-squared เหมาะสมสำหรับการเปรียบเทียบแบบจำลองหรือไม่?
ฉันพยายามระบุโมเดลที่ดีที่สุดเพื่อทำนายราคารถยนต์โดยใช้ราคาและคุณสมบัติที่มีอยู่ในเว็บไซต์โฆษณาที่จัดประเภทรถยนต์ สำหรับเรื่องนี้ฉันใช้โมเดลสองรุ่นจากห้องสมุด scikit-Learn และโมเดลโครงข่ายประสาทจาก pybrain และ neurolab วิธีที่ฉันใช้จนถึงตอนนี้คือการเรียกใช้ข้อมูลจำนวนคงที่ผ่านบางรุ่น (อัลกอริทึมการเรียนรู้ของเครื่อง) และเปรียบเทียบค่าR2R2R^2ที่คำนวณด้วยโมดูลตัวชี้วัดการเรียนรู้แบบ Scikit คือR2R2R^2วิธีการที่ดีเพื่อเปรียบเทียบประสิทธิภาพของรูปแบบที่แตกต่างกันหรือไม่? แม้ว่าฉันจะได้ผลลัพธ์ที่น่าพอใจสำหรับแบบจำลองเช่น Elastic net และ Random forest ฉันได้รับค่าแย่มากR2R2R^2สำหรับแบบจำลองโครงข่ายประสาทเทียมดังนั้นR2R2R^2เป็นวิธีที่เหมาะสมสำหรับการประเมินเครือข่ายประสาท (หรือวิธีที่ไม่ใช่เชิงเส้น)

3
การวิเคราะห์องค์ประกอบหลัก“ ย้อนหลัง”: อธิบายความแปรปรวนของข้อมูลโดยชุดค่าผสมเชิงเส้นที่กำหนดของตัวแปรอย่างไร
ผมได้ดำเนินการวิเคราะห์องค์ประกอบหลักหกตัวแปร, B , C , D , EและF ถ้าฉันเข้าใจอย่างถูกต้อง PC1 ที่ไม่ได้ทำการบอกจะบอกสิ่งที่การรวมกันเชิงเส้นของตัวแปรเหล่านี้อธิบาย / อธิบายความแปรปรวนมากที่สุดในข้อมูลและ PC2 บอกฉันว่าการรวมกันเชิงเส้นของตัวแปรเหล่านี้จะอธิบายความแปรปรวนมากที่สุดต่อไปของข้อมูลAABBCCDDEEFF ฉันแค่อยากรู้อยากเห็น - มีวิธีการทำ "ย้อนกลับ" นี้หรือไม่? สมมติว่าฉันเลือกชุดค่าผสมเชิงเส้นของตัวแปรเหล่านี้เช่นA + 2 B + 5 CA+2B+5CA+2B+5Cฉันจะคำนวณความแปรปรวนของข้อมูลที่อธิบายได้หรือไม่

3
ความสัมพันธ์ระหว่าง R-squared และ p-value ในการถดถอยคืออะไร?
tl; dr - สำหรับการถดถอยของ OLS ค่า R-squared ที่สูงขึ้นนั้นแสดงถึงค่า P ที่สูงขึ้นด้วยหรือไม่ โดยเฉพาะสำหรับตัวแปรอธิบายเดี่ยว (Y = a + bX + e) ​​แต่ก็สนใจที่จะทราบสำหรับตัวแปรอธิบายหลายตัวแปร (Y = a + b1X + ... bnX + e) บริบท - ฉันกำลังดำเนินการถดถอย OLS ในช่วงของตัวแปรและกำลังพยายามพัฒนารูปแบบการอธิบายที่ดีที่สุดโดยสร้างตารางที่มีค่า R-squared ระหว่างเส้นตรงลอการิทึม ฯลฯ การแปลงของตัวแปรอธิบาย (อิสระ) แต่ละตัว และตัวแปรตอบกลับ (ขึ้นอยู่กับ) ดูเหมือนว่า: ชื่อตัวแปร - รูปแบบเชิงเส้น - --ln (ตัวแปร) --exp …

3
R-squared เชิงลบหมายถึงอะไร
สมมติว่าฉันมีข้อมูลบางส่วนแล้วฉันก็พอดีกับข้อมูลด้วยแบบจำลอง (การถดถอยเชิงเส้น) จากนั้นฉันคำนวณ R-squared ( )R2R2R^2 เมื่อ R-squared เป็นลบนั่นหมายความว่าอย่างไร นั่นหมายความว่าแบบจำลองของฉันไม่ดีหรือไม่? ฉันรู้ว่าช่วงสามารถเป็น [-1,1] เมื่อเป็น 0 นั่นหมายความว่าอย่างไรR2R2R^2R2R2R^2

3
วิธีการแบ่ง r-squared ระหว่างตัวแปรทำนายในการถดถอยหลายครั้ง?
ฉันเพิ่งอ่านกระดาษที่ผู้เขียนดำเนินการถดถอยหลายครั้งพร้อมตัวทำนายสองตัว ค่า r-squared โดยรวมคือ 0.65 พวกเขาจัดทำตารางที่แบ่ง r-squared ระหว่างตัวทำนายสองตัว ตารางมีลักษณะดังนี้: rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 ในรุ่นนี้วิ่งRโดยใช้mtcarsชุดข้อมูลค่า r-squared โดยรวมคือ 0.76 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat …

2
ความแตกต่างระหว่างการเลือกคุณสมบัติตาม“ F ถดถอย” และขึ้นอยู่กับค่า ?
การเปรียบเทียบคุณสมบัติต่าง ๆ โดยใช้คุณลักษณะF-regressionเดียวกับการเชื่อมโยงคุณสมบัติกับฉลากแต่ละรายการและการสังเกตค่าหรือไม่R2R2R^2 ฉันมักจะเห็นเพื่อนร่วมงานของฉันใช้F regressionสำหรับการเลือกคุณสมบัติในการเรียนรู้ของเครื่องจากsklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` บางคนบอกฉัน - ทำไมมันให้ผลลัพธ์เช่นเดียวกับที่สัมพันธ์กับตัวแปรฉลาก / depedendent? ข้อได้เปรียบของการใช้งานF_regressionในการเลือกคุณสมบัติ ไม่ชัดเจนสำหรับฉัน นี่คือรหัสของฉัน: ฉันใช้mtcarsชุดข้อมูลจากR: import pandas as pd import numpy as np from sklearn import feature_selection from sklearn.linear_model import LinearRegression #....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness # only using these numerical …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.