คำถามติดแท็ก r-squared

สัมประสิทธิ์การตัดสินใจซึ่งมักจะเป็นสัญลักษณ์ของคือสัดส่วนของความแปรปรวนการตอบสนองทั้งหมดที่อธิบายโดยตัวแบบการถดถอย ยังสามารถใช้สำหรับข้อเสนอหลอก R-squared ต่างๆเช่นการถดถอยโลจิสติก (และรุ่นอื่น ๆ ) R2

4
ข้อผิดพลาดที่ควรหลีกเลี่ยงเมื่อเปลี่ยนข้อมูล?
ฉันได้รับความสัมพันธ์เชิงเส้นตรงที่แข็งแกร่งระหว่างตัวแปรและหลังจากเปลี่ยนการตอบสนองเป็นสองเท่า แบบจำลองคือ แต่ฉันเปลี่ยนเป็น ปรับปรุงจาก. 19 เป็น. 76XXXYYYY∼XY∼XY\sim XYX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X}R2R2R^2 เห็นได้ชัดว่าฉันทำการผ่าตัดที่เหมาะสมกับความสัมพันธ์นี้ ทุกคนสามารถพูดถึงข้อผิดพลาดในการทำเช่นนี้เช่นอันตรายจากการเปลี่ยนแปลงมากเกินไปหรือการละเมิดหลักการทางสถิติที่เป็นไปได้หรือไม่?

3
เหตุใดจึงปรับ R-squared น้อยกว่า R-squared หากปรับ R-squared ทำนายว่าแบบจำลองดีกว่า
เท่าที่ฉันเข้าใจอธิบายว่าตัวแบบทำนายการสังเกตได้ดีเพียงใด Adjusted R 2คือสิ่งที่คำนึงถึงการสังเกตมากขึ้น (หรือองศาอิสระ) ดังนั้น Adjusted R 2จะทำนายโมเดลได้ดีขึ้นหรือไม่ แล้วทำไมนี้จะน้อยกว่าR 2 ? ดูเหมือนว่ามันควรจะมากขึ้นR2R2R^2R2R2R^2R2R2R^2R2R2R^2

1
วิธีรับ R-squared เพื่อความพอดี?
จะคำนวณสถิติR-squared ( R2R2r^2 ) ใน R for loessและ / หรือpredictฟังก์ชั่นเอาต์พุตได้อย่างไร? ตัวอย่างเช่นสำหรับข้อมูลนี้: cars.lo <- loess(dist ~ speed, cars) cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE) cars.lpมีสองอาร์เรย์fitสำหรับรุ่นและse.fitข้อผิดพลาดมาตรฐาน
15 r  r-squared  loess 

2
วิธีการเลือกระหว่างสูตรAdjustedแตกต่างกันอย่างไร
ฉันมีในใจสูตร R - squared ปรับเสนอโดย: Ezekiel (1930) ซึ่งฉันเชื่อว่าเป็นสิ่งที่ใช้ใน SPSS R2adjusted=1−(N−1)(N−p−1)(1−R2)Radjusted2=1−(N−1)(N−p−1)(1−R2)R^2_{\rm adjusted} = 1 - \frac{(N-1)}{(N-p-1)} (1-R^2) Olkin และแพรตต์ (1958) R2unbiased=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)Runbiased2=1−(N−3)(1−R2)(N−p−1)−2(N−3)(1−R2)2(N−p−1)(N−p+1)R^2_{\rm unbiased} = 1 - \frac{(N-3)(1-R^2)}{(N-p-1)} - \frac{2(N-3)(1-R^2)^2}{(N-p-1)(N-p+1)} ภายใต้สถานการณ์ใด (ถ้ามี) ผมจะชอบ 'ปรับ' เป็น 'เป็นกลาง' ?R2R2R^2 อ้างอิง Ezekiel, M. (1930) วิธีการวิเคราะห์ความสัมพันธ์ John Wiley and Sons, นิวยอร์ก Olkin I. แพรตต์เจดับบลิว (1958) การประมาณค่าสัมประสิทธิ์สหสัมพันธ์แบบไม่เอนเอียง พงศาวดารของสถิติคณิตศาสตร์ …

5
การถดถอยเชิงเส้นมีความหมายทางสถิติอย่างไร แต่มีค่า r กำลังสองต่ำมาก
ฉันเข้าใจว่าหมายความว่าแบบจำลองนั้นไม่ดีในการทำนายจุดข้อมูลแต่ละจุด แต่ได้สร้างแนวโน้มที่มั่นคง (เช่น y ขึ้นไปเมื่อ x เพิ่มขึ้น)

4
ทำไมเป็น
หมายเหตุ: SSTSSTSST = ผลรวมของกำลังสองรวมSSESSESSE = ผลรวมของข้อผิดพลาดกำลังสองและSSRSSRSSR = ผลรวมการถดถอยของกำลังสอง สมการในชื่อเรื่องมักเขียนเป็น: ∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2∑i=1n(yi−y¯)2=∑i=1n(yi−y^i)2+∑i=1n(y^i−y¯)2\sum_{i=1}^n (y_i-\bar y)^2=\sum_{i=1}^n (y_i-\hat y_i)^2+\sum_{i=1}^n (\hat y_i-\bar y)^2 คำถามตรงไปตรงมาสวย แต่ฉันกำลังมองหาคำอธิบายที่ใช้งานง่าย อย่างสังหรณ์ใจดูเหมือนว่าฉันชอบSST≥SSE+SSRSST≥SSE+SSRSST\geq SSE+SSRจะทำให้รู้สึกมากขึ้น ตัวอย่างเช่นสมมติว่าจุดxixix_iได้ค่า y ที่สอดคล้องyi=5yi=5y_i=5และYฉัน = 3ที่Yฉันเป็นจุดที่สอดคล้องกันบนเส้นถดถอย นอกจากนี้ยังคิดว่าค่าเฉลี่ยค่า y สำหรับชุดข้อมูลที่เป็นˉ Y = 0 จากนั้นสำหรับจุดนี้ฉัน, Sy^i=3y^i=3\hat y_i=3y^iy^i\hat y_iy¯=0y¯=0\bar y=0SST=(5−0)2=52=25SST=(5−0)2=52=25SST=(5-0)^2=5^2=25ในขณะที่SSE=(5−3)2=22=4SSE=(5−3)2=22=4SSE=(5-3)^2=2^2=4และSSR=(3−0)2=32=9SSR=(3−0)2=32=9SSR=(3-0)^2=3^2=9 9 เห็นได้ชัดว่า9+4&lt;259+4&lt;259+4<25 25 ผลลัพธ์นี้จะไม่ทำให้เป็นชุดข้อมูลทั้งหมดหรือไม่ ฉันไม่เข้าใจ

2
การถดถอยแบบขั้นตอนจัดเตรียมการประมาณแบบเอนเอียงของประชากร r-square หรือไม่?
ในด้านจิตวิทยาและสาขาอื่น ๆ รูปแบบของการถดถอยแบบขั้นตอนมักถูกใช้ซึ่งเกี่ยวข้องกับสิ่งต่อไปนี้: ดูตัวทำนายที่เหลือ (ไม่มีตัวแบบในตอนแรก) และระบุตัวทำนายที่ทำให้เกิดการเปลี่ยนแปลง r-square ที่ใหญ่ที่สุด หากค่า p ของการเปลี่ยนแปลง r-square น้อยกว่าอัลฟา (โดยทั่วไปคือ. 05) ให้รวมตัวทำนายนั้นและกลับไปที่ขั้นตอนที่ 1 มิฉะนั้นหยุด ตัวอย่างเช่นดูขั้นตอนนี้ในโปรแกรม SPSS ขั้นตอนการวิพากษ์วิจารณ์เป็นประจำด้วยเหตุผลที่หลากหลาย (ดูการสนทนานี้ในเว็บไซต์ Stata พร้อมการอ้างอิง ) โดยเฉพาะอย่างยิ่งเว็บไซต์ Stata สรุปความคิดเห็นหลายประการโดย Frank Harrell ฉันสนใจข้อเรียกร้อง: [การถดถอยแบบขั้นตอน] ให้ค่า R-squared ที่มีความเอนเอียงไม่ดีที่จะสูง โดยเฉพาะบางส่วนของการวิจัยในปัจจุบันของฉันมุ่งเน้นไปที่การประมาณการประชากร R-ตาราง จากประชากร r-square ฉันอ้างถึงเปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดยข้อมูลประชากรที่สร้างสมการในประชากร วรรณกรรมที่มีอยู่ส่วนใหญ่ที่ฉันกำลังตรวจสอบได้ใช้ขั้นตอนการถดถอยแบบขั้นตอนและฉันต้องการทราบว่าการประเมินที่ให้นั้นมีความลำเอียงหรือไม่และถ้าเป็นเช่นนั้น โดยเฉพาะอย่างยิ่งการศึกษาทั่วไปจะมีตัวทำนาย 30 ตัว n = 200 อัลฟาของการป้อน. 05 และการประมาณ …

1
ค่าประมาณของประชากร R-Square คืออะไร
ฉันสนใจที่จะประเมินค่าไม่เอนเอียงในการถดถอยเชิงเส้นแบบหลายค่าR2R2R^2 ในการไตร่ตรองฉันสามารถนึกถึงสองค่าที่ต่างกันซึ่งการประมาณค่าที่เป็นกลางของอาจพยายามเทียบR2R2R^2 จากตัวอย่าง :R2R2R^2 r-square ที่จะได้รับหากสมการถดถอยที่ได้จากตัวอย่าง (เช่น ) ถูกนำไปใช้กับข้อมูลจำนวนอนันต์ภายนอกกับตัวอย่าง แต่จากข้อมูลเดียวกัน กระบวนการสร้างβ^β^\hat{\beta} ประชากร :R2R2R^2 r-square ที่จะได้รับถ้าตัวอย่างที่ไม่มีที่สิ้นสุดได้รับและรูปแบบที่พอดีกับตัวอย่างที่ไม่มีที่สิ้นสุด (เช่น ) หรืออีกทางหนึ่งเพียงแค่ R-Square โดยนัยโดยกระบวนการสร้างข้อมูลที่รู้จักββ\beta ผมเข้าใจว่าการปรับR2R2R^2ถูกออกแบบมาเพื่อชดเชยการ overfitting สังเกตในตัวอย่าง 2 อย่างไรก็ตามมันไม่ชัดเจนว่าการปรับค่านั้นเป็นค่าประมาณที่เป็นกลางโดยประมาณของหรือไม่และหากเป็นการประมาณการที่ไม่เอนเอียงซึ่งคำจำกัดความสองประการข้างต้นของนั้นมีเป้าหมายเพื่อประเมินR2R2R^2R2R2R^2R2R2R^2R2R2R^2 ดังนั้นคำถามของฉัน: ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนจากตัวอย่างR2R2R^2คืออะไร ค่าประมาณที่เป็นกลางของสิ่งที่ฉันเรียกข้างบนประชากรคืออะไร?R2R2R^2 มีการอ้างอิงใด ๆ ที่ให้การจำลองหรือหลักฐานอื่น ๆ เกี่ยวกับความเป็นกลางหรือไม่?


1
R-squared ในแบบจำลองเชิงเส้นข้อเบี่ยงเบนในแบบจำลองเชิงเส้นทั่วไป?
นี่คือบริบทของฉันสำหรับคำถามนี้: จากสิ่งที่ฉันสามารถบอกได้เราไม่สามารถเรียกใช้การถดถอยกำลังสองน้อยสุดธรรมดาใน R เมื่อใช้ข้อมูลที่มีน้ำหนักและsurveyแพคเกจ ที่นี่เราต้องใช้svyglm()ซึ่งใช้โมเดลเชิงเส้นทั่วไปแทน (ซึ่งอาจเป็นสิ่งเดียวกันหรือไม่ฉันคลุมเครือที่นี่ในแง่ของสิ่งที่แตกต่างกัน) ใน OLS และผ่านlm()ฟังก์ชั่นมันจะคำนวณค่า R-squared ซึ่งเป็นการตีความที่ฉันเข้าใจ อย่างไรก็ตามsvyglm()ดูเหมือนจะไม่สามารถคำนวณสิ่งนี้ได้และให้ค่าเบี่ยงเบนมาตรฐานแทนซึ่งการเดินทางสั้น ๆ รอบอินเทอร์เน็ตของฉันบอกฉันว่าเป็นการวัดความดีที่พอดีซึ่งตีความได้แตกต่างจาก R-squared ดังนั้นฉันเดาว่าฉันมีคำถามสองข้อที่ฉันหวังว่าจะได้รับทิศทาง: ทำไมเราไม่สามารถเรียกใช้ OLS ในsurveyแพ็คเกจได้ แต่ดูเหมือนว่าเป็นไปได้ที่จะทำกับข้อมูลที่มีน้ำหนักใน Stata อะไรคือความแตกต่างในการตีความระหว่างความเบี่ยงเบนของตัวแบบเส้นตรงทั่วไปกับค่า r-squared?

2
การเลือกส่วนประกอบ PCA ที่แยกกลุ่ม
ฉันมักใช้ในการวิเคราะห์ข้อมูลหลายตัวแปรโดยใช้ PCA (ข้อมูล omics ที่มีตัวแปรนับแสนและตัวอย่างหลายสิบหรือหลายร้อย) ข้อมูลมักมาจากการทดลองกับตัวแปรอิสระหลายหมวดหมู่ที่กำหนดกลุ่มและฉันมักจะต้องผ่านองค์ประกอบบางอย่างก่อนที่ฉันจะสามารถหาคนที่แสดงการแยกระหว่างกลุ่มที่น่าสนใจ ฉันได้ค้นพบวิธีการดั้งเดิมในการค้นหาส่วนประกอบที่แบ่งแยกเช่นนั้นและฉันสงสัยว่า ขอบเขตนี้สมเหตุสมผล / สมเหตุสมผลและ ไม่ว่าจะมีวิธีที่ดีกว่าในการบรรลุเป้าหมายเดียวกัน โปรดทราบว่านี่คือการสำรวจ ก่อนที่จะโน้มน้าวใจคนอื่นฉันต้องการโน้มน้าวตัวเอง ถ้าฉันเห็นว่ามีส่วนประกอบที่แยกความแตกต่างของกลุ่มผลประโยชน์ (เช่นการควบคุมกับการรักษา) อย่างชัดเจนแม้ว่าพวกเขาจะรับผิดชอบส่วนย่อยของความแปรปรวนของการตอบสนองฉันก็เชื่อว่ามันเป็นผลมาจากการพูด การเรียนรู้ นี่คือแนวทางของฉัน ฉันจะใช้ชุดข้อมูลตัวอย่าง "metabo" จาก pca3d ใน R แนวคิดคือการประเมินความแปรปรวนของแต่ละองค์ประกอบที่สามารถอธิบายได้โดยตัวแปรอิสระ สำหรับสิ่งนี้ฉันคำนวณแบบจำลองอย่างง่ายสำหรับแต่ละองค์ประกอบและใช้R2R2R^2เป็นตัวชี้วัดในการสั่งซื้อส่วนประกอบจาก "ที่น่าสนใจที่สุด" ถึง "น่าสนใจน้อยที่สุด" require( pca3d ) # data on metabolic profiles of TB patients and controls data( metabo ) # first column is the …

2
ฉันจะใช้ค่าของเพื่อทดสอบสมมติฐานเชิงเส้นในการวิเคราะห์การถดถอยแบบหลายค่าได้อย่างไร
กราฟด้านล่างเป็นแผนการกระจายที่เหลือของการทดสอบการถดถอยซึ่ง "ปกติ", "homoscedasticity" และ "อิสระ" สมมติฐานได้รับการพบอย่างแน่นอน! สำหรับการทดสอบสมมติฐาน"linearity"ถึงแม้ว่าโดยการดูที่กราฟสามารถคาดเดาได้ว่าความสัมพันธ์นั้นเป็นเส้นโค้ง แต่คำถามคือ: ค่าของ "R2 Linear" สามารถใช้ในการทดสอบสมมติฐานเชิงเส้นได้อย่างไร ช่วงที่ยอมรับได้สำหรับค่าของ "R2 Linear" คืออะไรเพื่อตัดสินใจว่าความสัมพันธ์นั้นเป็นเส้นตรงหรือไม่ จะทำอย่างไรเมื่อไม่ตรงตามสมมติฐานเชิงเส้นตรงและการแปลงค่า IV ก็ไม่ได้ช่วย !! นี่คือลิงค์ไปยังผลลัพธ์ทั้งหมดของการทดสอบ แผนการกระจาย:

2
สูตรสำหรับช่วงความมั่นใจ 95% สำหรับ
ฉันค้นหาและค้นหาบน stats.stackexchange แต่ไม่พบสูตรการคำนวณช่วงความมั่นใจ 95% สำหรับค่าสำหรับการถดถอยเชิงเส้น ทุกคนสามารถให้ได้หรือไม่R2R2R^2 ยิ่งไปกว่านั้นสมมติว่าฉันใช้การถดถอยเชิงเส้นด้านล่างในอาร์ฉันจะคำนวณช่วงความมั่นใจ 95% สำหรับค่าโดยใช้รหัส R ได้อย่างไรR2R2R^2 lm_mtcars &lt;- lm(mpg ~ wt, mtcars)

2
การคำนวณ
ผมได้อ่านเกี่ยวกับการคำนวณR2R2R^2ค่าในรูปแบบผสมและหลังจากที่ได้อ่านคำถามที่พบบ่อย R-sig โพสต์อื่น ๆ ในฟอรั่มนี้ (ฉันจะเชื่อมโยงไม่กี่ แต่ฉันไม่ได้มีชื่อเสียงพอ) และอีกหลายอ้างอิงอื่น ๆ ผมเข้าใจว่าการใช้R2R2R^2ค่าในบริบทของตัวแบบผสมนั้นซับซ้อน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันได้พบกับสองเอกสารด้านล่าง ในขณะที่วิธีการเหล่านี้ดูมีแนวโน้ม (สำหรับฉัน) ฉันไม่ใช่นักสถิติและฉันก็สงสัยว่าถ้ามีใครอีกคนที่มีข้อมูลเชิงลึกเกี่ยวกับวิธีที่พวกเขาเสนอและวิธีเปรียบเทียบกับวิธีอื่น ๆ ที่ได้รับการเสนอ Nakagawa, Shinichi และ Holger Schielzeth "วิธีการทั่วไปและง่าย ๆ สำหรับรับ R2 จากโมเดลเอฟเฟกต์การผสมเชิงเส้นทั่วไป" วิธีการทางนิเวศวิทยาและวิวัฒนาการ 4.2 (2013): 133-142 จอห์นสันพอลซีดี "การขยาย R2GLMM ของ Nakagawa &amp; Schielzeth ไปเป็นแบบจำลองเชิงลาดแบบสุ่ม" วิธีการในนิเวศวิทยาและวิวัฒนาการ (2014) วิธีนี้ยังสามารถนำมาใช้โดยใช้ฟังก์ชั่น r.squaredGLMM ในแพ็คเกจ MuMInซึ่งให้คำอธิบายวิธีการดังต่อไปนี้ R2R2R^2R2R2R^2RGLMM(m)2=σ2fσ2f+∑(σ2l)+σ2e+σ2dRGLMM(m)2=σf2σf2+∑(σl2)+σe2+σd2R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + …

1
ทำไมการ squaringถึงอธิบายความแปรปรวน?
นี่อาจเป็นคำถามพื้นฐาน แต่ฉันสงสัยว่าทำไมค่าในตัวแบบการถดถอยสามารถยกกำลังสองเพื่ออธิบายความแปรปรวนที่อธิบายได้RRR ฉันเข้าใจว่าสัมประสิทธิ์สามารถให้ความแข็งแกร่งของความสัมพันธ์ แต่ฉันไม่เข้าใจว่าการยกกำลังสองค่านี้เป็นการวัดความแปรปรวนที่อธิบายได้ง่ายเพียงใดRRR มีคำอธิบายง่ายๆเกี่ยวกับเรื่องนี้หรือไม่? ขอบคุณมากที่ช่วยด้วย!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.