คำถามติดแท็ก r-squared

สัมประสิทธิ์การตัดสินใจซึ่งมักจะเป็นสัญลักษณ์ของคือสัดส่วนของความแปรปรวนการตอบสนองทั้งหมดที่อธิบายโดยตัวแบบการถดถอย ยังสามารถใช้สำหรับข้อเสนอหลอก R-squared ต่างๆเช่นการถดถอยโลจิสติก (และรุ่นอื่น ๆ ) R2

6
คือ
ฉันกำลังอ่านบันทึกการบรรยายโดย Cosma Shalizi (โดยเฉพาะอย่างยิ่งหัวข้อ 2.1.1 ของการบรรยายครั้งที่สอง ) และได้รับการเตือนว่าคุณจะได้รับต่ำมากR2R2R^2แม้ว่าคุณจะมีโมเดลเชิงเส้นสมบูรณ์ ในการถอดความตัวอย่างของ Shalizi: สมมติว่าคุณมีโมเดลY=aX+ϵY=aX+ϵY = aX + \epsilonโดยที่aaaรู้จัก จากนั้นVar[Y]=a2Var[x]+Var[ϵ]Var[Y]=a2Var[x]+Var[ϵ]\newcommand{\Var}{\mathrm{Var}}\Var[Y] = a^2 \Var[x] + \Var[\epsilon]และจำนวนความแปรปรวนที่อธิบายคือa2Var[X]a2Var[X]a^2 \Var[X]ดังนั้นR2=a2Var[x]a2Var[X]+Var[ϵ]R2=a2Var[x]a2Var[X]+Var[ϵ]R^2 = \frac{a^2 \Var[x]}{a^2 \Var[X] + \Var[\epsilon]}epsilon]} นี้ไป 0 เป็นVar[X]→0Var[X]→0\Var[X] \rightarrow 0และ 1 Var[X]→∞Var[X]→∞\Var[X] \rightarrow \infty\ ในทางกลับกันคุณสามารถรับR ^ 2สูงR2R2R^2ถึงแม้ว่าแบบจำลองของคุณจะไม่ใช่แบบเส้นตรง (ใครมีตัวอย่างที่ดีทันทีทันใด?) ดังนั้นเมื่อR2R2R^2เป็นสถิติที่มีประโยชน์และเมื่อใดควรจะละเว้น?

9
เมื่อใดที่จะเอาการสกัดกั้นในตัวแบบการถดถอยเชิงเส้นเมื่อใด
ฉันกำลังใช้ตัวแบบการถดถอยเชิงเส้นและสงสัยว่าเงื่อนไขสำหรับการลบคำดักจับนั้นคืออะไร ในการเปรียบเทียบผลลัพธ์จากการถดถอยสองแบบที่หนึ่งมีการสกัดกั้นและอื่น ๆ ไม่ได้ฉันสังเกตว่าของฟังก์ชันที่ไม่มีการสกัดกั้นนั้นสูงกว่ามาก มีเงื่อนไขหรือข้อสมมติฐานบางอย่างที่ฉันควรปฏิบัติตามเพื่อให้แน่ใจว่าการลบคำดักฟังนั้นถูกต้องหรือไม่R2R2R^2

2
การกำจัดคำดักจับทางสถิติสำคัญเพิ่มในตัวแบบเชิงเส้น
ในโมเดลเชิงเส้นอย่างง่ายพร้อมตัวแปรอธิบายเดียว αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i ฉันพบว่าการลบคำดักจับช่วยเพิ่มความพอดีอย่างมาก (ค่าจาก 0.3 เป็น 0.9) อย่างไรก็ตามคำว่าการดักจับนั้นมีนัยสำคัญทางสถิติR2R2R^2 ด้วยการสกัดกั้น: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta …

3
เมื่อ R กำลังสองเป็นค่าลบ
ความเข้าใจของฉันคือว่าไม่สามารถลบได้เนื่องจากมันเป็นสแควร์ของ R อย่างไรก็ตามฉันใช้การถดถอยเชิงเส้นอย่างง่ายใน SPSS ด้วยตัวแปรอิสระเดี่ยวและตัวแปรตาม เอาท์พุท SPSS ของฉันให้ฉันเป็นค่าลบสำหรับ 2 ถ้าฉันจะคำนวณด้วยมือจาก R แล้วจะเป็นค่าบวก SPSS ทำอะไรเพื่อคำนวณสิ่งนี้ว่าเป็นลบR2R2R^2R 2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 รหัสที่ฉันใช้: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP ฉันได้รับค่าลบ ใครช่วยอธิบายสิ่งนี้ได้บ้าง?

7
Pseudo-ใดที่ใช้ในการรายงานการถดถอยโลจิสติก (Cox & Snell หรือ Nagelkerke)
ฉันมีSPSSเอาต์พุตสำหรับโมเดลการถดถอยโลจิสติก การส่งออกรายงานสองมาตรการสำหรับรูปแบบพอดีและCox & SnellNagelkerke ดังนั้นตามกฎของหัวแม่มือคุณจะรายงานการวัดR2R²R^²ใดในรูปแบบที่เหมาะสม? หรือดัชนีใดที่เหมาะสมเหล่านี้เป็นสิ่งที่มักจะรายงานในวารสาร? พื้นหลังบางส่วน: การถดถอยพยายามทำนายว่ามีหรือไม่มีนก (capercaillie) จากตัวแปรสภาพแวดล้อมบางอย่าง (เช่นความชันความครอบคลุมของพืชพรรณ ... ) น่าเสียดายที่นกไม่ปรากฏบ่อยนัก (35 ครั้งถึง 468 คิดถึง) ดังนั้นการถดถอยจึงทำได้ไม่ดีนัก Cox & Snell คือ. 09, Nagelkerke, .23 หัวเรื่องคือวิทยาศาสตร์สิ่งแวดล้อมหรือนิเวศวิทยา

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
ความสัมพันธ์ระหว่างและค่าสัมประสิทธิ์สหสัมพันธ์
สมมติว่าผมมีอาร์เรย์สอง 1 มิติและA_2แต่ละจุดมี 100 จุดข้อมูล เป็นข้อมูลจริงและคือการทำนายแบบจำลอง ในกรณีนี้ค่าจะเป็น: ในขณะเดียวกันนี่จะเท่ากับค่ากำลังสองของสัมประสิทธิ์สหสัมพันธ์ ตอนนี้ถ้าฉันสลับทั้งสอง:เป็นข้อมูลจริงและคือการทำนายแบบจำลอง จากสมการ , เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์ไม่สนใจซึ่งมาก่อน,a1a1a_1a2a2a_2a1a1a_1a2a2a_2R2R2R^2R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). R2=(Correlation Coefficient)2(2).R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). a2a2a_2a1a1a_1(2)(2)(2)R2R2R^2จะเหมือนกัน อย่างไรก็ตามจากสมการ , , ค่าจะเปลี่ยนเนื่องจากSS_ {tot}เปลี่ยนถ้าเราเปลี่ยนyจากa_1เป็นa_2 ; ในขณะเดียวกันSS_ {res} = \ sum_i (f_i- \ bar y) ^ 2จะไม่เปลี่ยนแปลง(1)(1)(1)SStot=∑i(yi−y¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - …

1
คำนวณด้วยตนเอง
ฉันรู้ว่านี่เป็นRคำถามที่ค่อนข้างเฉพาะแต่ฉันอาจกำลังคิดถึงความแปรปรวนสัดส่วนที่อธิบายว่าไม่ถูกต้อง นี่ไงR2R2R^2 ฉันพยายามที่จะใช้แพคเกจR randomForestฉันมีข้อมูลการฝึกอบรมและข้อมูลการทดสอบ เมื่อฉันพอดีกับโมเดลฟอเรสต์แบบสุ่มrandomForestฟังก์ชันจะอนุญาตให้คุณป้อนข้อมูลการทดสอบใหม่เพื่อทดสอบ จากนั้นจะบอกเปอร์เซ็นต์ความแปรปรวนที่อธิบายไว้ในข้อมูลใหม่นี้ เมื่อฉันดูสิ่งนี้ฉันจะได้หมายเลขหนึ่ง เมื่อฉันใช้predict()ฟังก์ชั่นเพื่อทำนายค่าผลลัพธ์ของข้อมูลการทดสอบตามแบบจำลองที่พอดีกับข้อมูลการฝึกอบรมและฉันใช้ค่าสัมประสิทธิ์สหสัมพันธ์กำลังสองระหว่างค่าเหล่านี้กับค่าผลลัพธ์จริงสำหรับข้อมูลการทดสอบฉันได้ตัวเลขที่แตกต่างกัน ค่าเหล่านี้ไม่ตรงกัน นี่คือRรหัสบางส่วนเพื่อแสดงปัญหา # use the built in iris data data(iris) #load the randomForest library library(randomForest) # split the data into training and testing sets index <- 1:nrow(iris) trainindex <- sample(index, trunc(length(index)/2)) trainset <- iris[trainindex, ] testset <- iris[-trainindex, ] # fit a …

2
สูตร R-squared ที่ปรับแล้วใน lm ใน R คืออะไรและควรตีความอย่างไร
สูตรที่แน่นอนที่ใช้ใน R lm() สำหรับการปรับ R-squared คืออะไร? ฉันจะตีความมันได้อย่างไร ปรับสูตร r-squared ดูเหมือนจะมีสูตรอยู่หลายสูตรในการคำนวณการปรับ R-squared สูตรของ Wherry: 1 - ( 1 - R2) ( n - 1 )( n - v )1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} สูตรของ McNemar: 1 - ( 1 - R2) ( n - 1 )( n - v - 1 )1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} สูตรของลอร์ด: 1 - …

1
อะไรคือความแตกต่างระหว่าง“ สัมประสิทธิ์การตัดสินใจ” และ“ หมายถึงข้อผิดพลาดกำลังสอง”?
สำหรับปัญหาการถดถอยฉันเคยเห็นผู้คนใช้ "สัมประสิทธิ์การตัดสินใจ" (aka R squared) เพื่อทำการเลือกแบบจำลองเช่นการค้นหาค่าสัมประสิทธิ์การลงโทษที่เหมาะสมสำหรับการทำให้เป็นมาตรฐาน อย่างไรก็ตามมันเป็นเรื่องธรรมดาที่จะใช้ "mean squared error" หรือ "root Mean squared error" เป็นการวัดความแม่นยำในการถดถอย แล้วความแตกต่างหลักระหว่างสองสิ่งนี้คืออะไร? พวกเขาสามารถใช้แทนกันได้สำหรับงาน "normalization" และ "ถดถอย" หรือไม่? และอะไรคือการใช้งานหลักของแต่ละอย่างในทางปฏิบัติเช่นในการเรียนรู้ของเครื่องจักรงานการขุดข้อมูล

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
Pseudo R สูตรกำลังสองสำหรับ GLMs
ฉันพบสูตรสำหรับหลอกR2R2R^2ในหนังสือขยายแบบจำลองเชิงเส้นด้วย R, Julian J. Faraway (หน้า 59) 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}NullDeviance นี่เป็นสูตรทั่วไปสำหรับหลอกR2R2R^2สำหรับ GLM หรือไม่

2
การกระจายตัวของ
การกระจายของสัมประสิทธิ์การตัดสินใจคืออะไรหรือ R กำลังสอง, , ในการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นภายใต้สมมติฐาน ?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 มันขึ้นอยู่กับจำนวนของตัวทำนายและจำนวนตัวอย่างอย่างไร มีนิพจน์แบบปิดสำหรับโหมดของการแจกแจงนี้หรือไม่?kkkn>kn>kn>k โดยเฉพาะฉันมีความรู้สึกว่าการถดถอยอย่างง่าย (ด้วยตัวทำนายหนึ่งตัว ) การแจกแจงนี้มีโหมดเป็นศูนย์ แต่สำหรับการถดถอยหลายครั้งโหมดจะอยู่ในค่าบวกที่ไม่เป็นศูนย์ หากนี่เป็นเรื่องจริงมีคำอธิบายง่ายๆเกี่ยวกับ "การเปลี่ยนเฟส" นี้หรือไม่?xxx ปรับปรุง ในฐานะที่เป็น @Alecos แสดงให้เห็นด้านล่างกระจายแน่นอนยอดเขาที่ศูนย์เมื่อและและไม่ได้อยู่ที่ศูนย์เมื่อ 3 ฉันรู้สึกว่าควรมีมุมมองทางเรขาคณิตในการเปลี่ยนเฟสนี้ พิจารณามุมมองเชิงเรขาคณิตของ OLS:เป็นเวกเตอร์ใน ,กำหนดพื้นที่ย่อย -dimensional จำนวน OLS จะฉาย\ mathbf Yบนสเปซนี้และR ^ 2คือโคไซน์กำลังสองของมุมระหว่าง\ Y mathbfและประมาณการ\ hat {\ mathbf y}k=2k=2k=2k=3k=3k=3k>3k>3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2yy\mathbf yy^y^\hat{\mathbf y} ทีนี้จากคำตอบของ @ Alecos ตามมาว่าถ้าเวกเตอร์ทั้งหมดสุ่มแล้วการกระจายความน่าจะเป็นของมุมนี้จะสูงสุดที่สำหรับและแต่จะมีโหมดที่ค่าอื่น ๆสำหรับ …

9
การวัดความแม่นยำของแบบจำลองการถดถอยโลจิสติก
ฉันมีแบบจำลองการถดถอยโลจิสติกที่ผ่านการฝึกอบรมซึ่งฉันใช้กับชุดข้อมูลการทดสอบ ตัวแปรที่ขึ้นต่อกันคือไบนารี (บูลีน) สำหรับแต่ละตัวอย่างในชุดข้อมูลการทดสอบฉันใช้แบบจำลองการถดถอยโลจิสติกเพื่อสร้าง% ความน่าจะเป็นที่ตัวแปรตามจะเป็นจริง จากนั้นฉันบันทึกว่าค่า acutal เป็นจริงหรือเท็จ ฉันพยายามคำนวณรูปหรือ Adjustedเหมือนในตัวแบบถดถอยเชิงเส้นR2R2R^2R2R2R^2 นี่ทำให้ฉันบันทึกสำหรับตัวอย่างแต่ละตัวอย่างในชุดการทดสอบที่ชอบ: prob_value_is_true acutal_value .34 0 .45 1 .11 0 .84 0 .... .... ฉันสงสัยว่าจะทดสอบความแม่นยำของแบบจำลองได้อย่างไร ความพยายามครั้งแรกของฉันคือการใช้ตารางฉุกเฉินและพูดว่า "ถ้าprob_value_is_true> 0.80 เดาว่ามูลค่าจริงเป็นจริง" จากนั้นวัดอัตราส่วนที่ถูกต้องต่อการจำแนกประเภทที่ไม่ถูกต้อง แต่ฉันไม่ชอบเพราะมันให้ความรู้สึกมากกว่าฉันแค่ประเมิน 0.80 เป็นขอบเขตไม่ใช่ความแม่นยำของโมเดลโดยรวมและในทุกprob_value_is_trueค่า จากนั้นฉันพยายามดูแต่ละค่า prob_value_is_true โดยสิ้นเชิงเป็นตัวอย่างดูตัวอย่างทั้งหมดที่prob_value_is_true= 0.34 และการวัด% ของตัวอย่างเหล่านั้นโดยที่ค่า acutal เป็นจริง (ในกรณีนี้ความแม่นยำสมบูรณ์จะเป็นถ้า% ของตัวอย่าง นั่นเป็นความจริง = 34%) prob_value_is_trueฉันอาจจะสร้างคะแนนความถูกต้องได้จากข้อสรุปรูปแบบที่แตกต่างกันในแต่ละคุ้มค่าต่อเนื่องของ แต่ขนาดของกลุ่มตัวอย่างมีความกังวลอย่างมากโดยเฉพาะอย่างยิ่งในส่วนที่เกิน (ใกล้ 0% หรือ …

1
การตีความทางเรขาคณิตของสัมประสิทธิ์สหสัมพันธ์
ฉันสนใจในความหมายทางเรขาคณิตของค่าสหสัมพันธ์และสัมประสิทธิ์การตัดสินใจในการถดถอยหรือในสัญกรณ์เวกเตอร์RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} นี่คือการออกแบบเมทริกซ์มีแถวและคอลัมน์ที่แรกคือ , เวกเตอร์ของ 1s ที่สอดคล้องกับการตัด\XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 รูปทรงเรขาคณิตน่าสนใจยิ่งขึ้นในพื้นที่หัวเรื่อง -dimensional มากกว่าในพื้นที่ตัวแปร -dimensional กำหนดเมทริกซ์หมวก:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top นี่คือการฉายฉากบนพื้นที่คอลัมน์ของคือแบน ผ่านกำเนิดทอดโดยเวกเตอร์เป็นตัวแทนของแต่ละตัวแปรคนแรกซึ่งเป็น\จากนั้นโครงการเวกเตอร์ของการตอบสนองที่สังเกตบน "เงา" ของมันบนพื้นราบเวกเตอร์ของค่าติดตั้งและถ้าเรา มองไปตามเส้นทางของเส้นโครงที่เราเห็นเวกเตอร์ของเศษเหลือสร้างด้านที่สามของรูปสามเหลี่ยม สิ่งนี้น่าจะให้ทางเราสองทางในการตีความทางเรขาคณิตของXX\mathbf{X}xฉัน1 n H Y Y = H …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.