คือ

233

ฉันกำลังอ่านบันทึกการบรรยายโดย Cosma Shalizi (โดยเฉพาะอย่างยิ่งหัวข้อ 2.1.1 ของการบรรยายครั้งที่สอง ) และได้รับการเตือนว่าคุณจะได้รับต่ำมาก $R^2$ แม้ว่าคุณจะมีโมเดลเชิงเส้นสมบูรณ์

ในการถอดความตัวอย่างของ Shalizi: สมมติว่าคุณมีโมเดล $Y = aX + \epsilon$ โดยที่ $a$ รู้จัก จากนั้น $\newcommand{\Var}{\mathrm{Var}}\Var[Y] = a^2 \Var[x] + \Var[\epsilon]$ และจำนวนความแปรปรวนที่อธิบายคือ $a^2 \Var[X]$ ดังนั้น $R^2 = \frac{a^2 \Var[x]}{a^2 \Var[X] + \Var[\epsilon]}$ epsilon]} นี้ไป 0 เป็น $\Var[X] \rightarrow 0$ และ 1 $\Var[X] \rightarrow \infty$ \

ในทางกลับกันคุณสามารถรับสูง $R^2$ ถึงแม้ว่าแบบจำลองของคุณจะไม่ใช่แบบเส้นตรง (ใครมีตัวอย่างที่ดีทันทีทันใด?)

ดังนั้นเมื่อ $R^2$ เป็นสถิติที่มีประโยชน์และเมื่อใดควรจะละเว้น?

regression r-squared

— raegtin
แหล่งที่มา

5

โปรดทราบหัวข้อความคิดเห็นที่เกี่ยวข้องในคำถามล่าสุด

— whuber

36

ฉันไม่มีสถิติที่จะเพิ่มคำตอบที่ยอดเยี่ยมที่ได้รับ (โดยเฉพาะ @whuber) แต่ฉันคิดว่าคำตอบที่ถูกคือ "R-squared: มีประโยชน์และอันตราย" ชอบสถิติอะไรมาก

— Peter Flom

32

คำตอบสำหรับคำถามนี้คือ: "ใช่"

— Fomite

ดูstats.stackexchange.com/a/265924/99274สำหรับคำตอบอื่น

— Carl

ตัวอย่างจากสคริปต์นั้นไม่มีประโยชน์อะไรมากนอกจากคุณจะบอกเราว่าคืออะไร? ถ้าเป็นค่าคงที่เช่นกันอาร์กิวเมนต์ของคุณ / เธอก็ผิดตั้งแต่นั้นอย่างไรก็ตามถ้าไม่คงที่ โปรดพลอตกับสำหรับขนาดเล็กและบอกฉันว่านี่คือเส้นตรง ........

Var (a X + ϵ)

$\text{Var}(aX+\epsilon)$

ϵ

$\epsilon$

ϵ

$\epsilon$

Var (a X + b) = a^{2} Var (X)

$\text{Var}(aX+b)=a^2\text{Var}(X)$

ϵ

$\epsilon$

Y

$Y$

X

$X$

Var (X)

$\text{Var}(X)$

— Dan

264

ในการตอบคำถามแรกพิจารณาตัวแบบ

Y = X + \sin (X) + ε

$Y = X + \sin(X) + \varepsilon$

กับ iidของค่าเฉลี่ยเป็นศูนย์และความแปรปรวนแน่นอน เมื่อช่วงของ (เพิ่มขึ้นคงที่หรือสุ่ม),ไปที่ 1 อย่างไรก็ตามหากความแปรปรวนของมีขนาดเล็ก (ประมาณ 1 หรือน้อยกว่า) ข้อมูลจะเป็น "ไม่เชิงเส้นอย่างเห็นได้ชัด" ในแปลงที่ 1 $\varepsilon$ $X$ $R^2$ $\varepsilon$ $var(\varepsilon)=1$

ช่วงสั้น ๆ ของ X

ช่วงกว้างของ X

วิธีที่ง่ายที่สุดในการรับคือการแบ่งตัวแปรอิสระออกเป็นช่วงแคบ ๆ การถดถอย (ใช้รูปแบบเดียวกันทั้งหมด ) ภายในแต่ละช่วงจะมีค่าต่ำแม้ว่าการถดถอยแบบเต็มตามข้อมูลทั้งหมดจะมีค่าสูง การไตร่ตรองสถานการณ์นี้เป็นการฝึกที่ให้ข้อมูลและเตรียมการที่ดีสำหรับคำถามที่สอง $R^2$ $R^2$ $R^2$

ทั้งแปลงต่อไปนี้ใช้ข้อมูลเดียวกัน สำหรับการถดถอยเต็มคือ 0.86 สำหรับชิ้น (1/2 ของความกว้างจาก -5/2 ไป 5/2) เป็น 0.16, 0.18, 0.07, 0.14, 0.08, 0.17, 0.20, 0.12, 0.01 , .00, อ่านจากซ้ายไปขวา หากมีสิ่งใดสิ่งที่พอดีจะดีขึ้นในสถานการณ์ที่ถูกแบ่งออกเพราะเส้น 10 เส้นแยกกันสามารถสอดคล้องกับข้อมูลภายในช่วงแคบ ๆ แม้ว่าสำหรับชิ้นส่วนทั้งหมดจะต่ำกว่าค่าอย่างสมบูรณ์ทั้งความแข็งแกร่งของความสัมพันธ์ความเป็นเส้นตรงหรือลักษณะของข้อมูลใด ๆ (ยกเว้นช่วงของใช้สำหรับการถดถอย) มีการเปลี่ยนแปลง $R^2$ $R^2$ $R^2$ $R^2$ $X$

ชี้กลุ่มเมฆด้วยการถดถอยแบบเต็ม

Clouded Point หั่นด้วย 10 การถดถอย

(หนึ่งอาจคัดค้านว่าขั้นตอนการแบ่งส่วนนี้เปลี่ยนการกระจายตัวของนั่นเป็นความจริง แต่ก็สอดคล้องกับการใช้งานในการสร้างแบบจำลองเอฟเฟกต์คงที่และแสดงให้เห็นถึงระดับที่บอกเราเกี่ยวกับ ความแปรปรวนของในสถานการณ์สุ่ม - เอฟเฟกต์โดยเฉพาะอย่างยิ่งเมื่อถูก จำกัด ให้เปลี่ยนแปลงภายในช่วงเวลาที่น้อยกว่าของช่วงธรรมชาติจะลดลง) $X$ $R^2$ $R^2$ $X$ $X$ $R^2$

ปัญหาพื้นฐานของคือมันขึ้นอยู่กับหลายสิ่งหลายอย่างมากเกินไป (แม้เมื่อปรับในการถดถอยหลายครั้ง) แต่ส่วนใหญ่โดยเฉพาะอย่างยิ่งในความแปรปรวนของตัวแปรอิสระและความแปรปรวนของส่วนที่เหลือ ปกติแล้วมันจะไม่บอกอะไรเราเกี่ยวกับ "ความเป็นเส้นตรง" หรือ "ความแข็งแกร่งของความสัมพันธ์" หรือแม้แต่ "ความดีที่เหมาะสม" สำหรับการเปรียบเทียบลำดับของแบบจำลอง $R^2$

ส่วนใหญ่เวลาที่คุณสามารถหาสถิติที่ดีกว่า 2 สำหรับการเลือกรุ่นคุณสามารถดู AIC และ BIC; สำหรับการแสดงความเพียงพอของแบบจำลองให้ดูที่ความแปรปรวนของส่วนที่เหลือ $R^2$

นี่นำเรามาถึงคำถามที่สองในที่สุด สถานการณ์หนึ่งที่อาจมีการใช้งานบางอย่างคือเมื่อตัวแปรอิสระถูกตั้งค่าเป็นค่ามาตรฐานการควบคุมผลกระทบของความแปรปรวนเป็นหลัก จากนั้นจะเป็นพร็อกซีสำหรับความแปรปรวนของค่าตกค้างที่ได้มาตรฐานอย่างเหมาะสม $R^2$ $1 - R^2$

— whuber
แหล่งที่มา

26

ช่างเป็นคำตอบที่ละเอียดและตอบสนองอย่างน่าอัศจรรย์โดย @whuber

— Peter Flom

AIC และ BIC ไม่ปรับอย่างชัดเจนสำหรับจำนวนพารามิเตอร์โดยประมาณหรือไม่ ถ้าเป็นเช่นนั้นการเปรียบเทียบและไม่ได้ปรับ R ^ 2 นั้นไม่ยุติธรรม ดังนั้นฉันจึงถามว่าคำวิจารณ์ของคุณจะถูกปรับ R ^ 2 หรือไม่? ดูเหมือนว่าหากคุณถูกลงโทษสำหรับ 'การแบ่ง' ที่ปรับค่า R ^ 2 จะสามารถกลับไปบอกคุณเกี่ยวกับความดีของแบบจำลองได้

— russellpierce

7

@dr วิจารณ์ของฉันใช้อย่างสมบูรณ์แบบเพื่อปรับ 2 กรณีเดียวที่มีมากของความแตกต่างระหว่างและปรับเมื่อคุณกำลังใช้โหลดของพารามิเตอร์เมื่อเทียบกับข้อมูล ในตัวอย่างการตัดมีเกือบ 1,000 จุดข้อมูลและการแบ่งเพิ่มเพียง 18 พารามิเตอร์; การปรับค่าจะไม่ส่งผลกระทบต่อตำแหน่งทศนิยมตำแหน่งที่สองยกเว้นในส่วนท้ายที่มีจุดข้อมูลเพียงไม่กี่โหลและมันจะลดระดับเสียงลงเพื่อให้การโต้แย้งแข็งแกร่งขึ้น

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

— whuber

5

คำตอบของคำถามในความคิดเห็นแรกของคุณควรขึ้นอยู่กับวัตถุประสงค์ของคุณและมีหลายวิธีในการตีความ "การทดสอบความสัมพันธ์เชิงเส้น" หนึ่งคือคุณต้องการทดสอบว่าสัมประสิทธิ์เป็นศูนย์หรือไม่ อีกประการหนึ่งคือคุณต้องการทราบว่ามีหลักฐานของความไม่เชิงเส้นหรือไม่ (โดยตัวมันเอง) ไม่มีประโยชน์อย่างมากสำหรับทั้งสองแม้ว่าเราจะรู้ว่ามีข้อมูลจำนวนมากหมายความว่าโปรเจ็กต์ของพวกเขาดูเหมือนเส้นเชิงประมาณ - เหมือนตัวอย่างที่สองของฉันหรือชอบ @ แมโคร สำหรับแต่ละวัตถุประสงค์มีการทดสอบที่เหมาะสมและค่า p ที่เกี่ยวข้อง

R^{2}

$R^2$

R^{2}

$R^2$

— whuber

4

สำหรับคำถามที่สองของคุณเราควรจะสงสัยว่าสิ่งที่อาจจะหมายถึงการพอดีเชิงเส้น "ดีที่สุด" ผู้สมัครคนใดคนหนึ่งจะมีขนาดพอดีที่ลดผลรวมที่เหลือของกำลังสอง คุณสามารถใช้เป็นพร็อกซีสำหรับสิ่งนี้ได้อย่างปลอดภัยแต่ทำไมไม่ตรวจสอบข้อผิดพลาดรูท มันเป็นสถิติที่มีประโยชน์มากกว่า

R^{2}

$R^2$

— whuber

47

ตัวอย่างของคุณใช้เฉพาะเมื่อตัวแปรควรจะอยู่ในรูปแบบ มันใช้ไม่ได้อย่างแน่นอนเมื่อคนหนึ่งใช้ค่าประมาณกำลังสองน้อยที่สุดตามปกติ หากต้องการดูสิ่งนี้โปรดทราบว่าหากเราประมาณสี่เหลี่ยมอย่างน้อยในตัวอย่างของคุณเราจะได้รับ: $\newcommand{\Var}{\mathrm{Var}}X$ $a$

\hat{a} = \frac{\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i}}{\frac{1}{N} \sum_{i = 1}^{N} X_{i}^{2}} = \frac{\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i}}{s_{X}^{2} + {\bar{X}}^{2}}

$\hat{a}=\frac{\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}}{\frac{1}{N}\sum_{i=1}^{N}X_{i}^{2}}=\frac{\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}}{s_{X}^{2}+\overline{X}^{2}}$ โดยที่คือความแปรปรวน (ตัวอย่าง) ของและคือ ค่าเฉลี่ย (ตัวอย่าง) ของ

s_{X}^{2} = \frac{1}{N} \sum_{i = 1}^{N} (X_{i} - \bar{X})^{2}

$s_{X}^2=\frac{1}{N}\sum_{i=1}^{N}(X_{i}-\overline{X})^{2}$

X

$X$

\bar{X} = \frac{1}{N} \sum_{i = 1}^{N} X_{i}

$\overline{X}=\frac{1}{N}\sum_{i=1}^{N}X_{i}$

X

$X$

{\hat{a}}^{2} V a r [X] = {\hat{a}}^{2} s_{X}^{2} = \frac{{(\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i})}^{2}}{s_{X}^{2}} {(\frac{s_{X}^{2}}{s_{X}^{2} + {\bar{X}}^{2}})}^{2}

$\hat{a}^{2}\Var[X]=\hat{a}^{2}s_{X}^{2}=\frac{\left(\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}\right)^2}{s_{X}^2}\left(\frac{s_{X}^{2}}{s_{X}^{2}+\overline{X}^{2}}\right)^2$

ตอนนี้คำที่สองนั้นน้อยกว่าเสมอ(เท่ากับในขีด จำกัด ) ดังนั้นเราจึงได้ขอบเขตบนสำหรับการสนับสนุนจากตัวแปร : $1$ $1$ $R^2$ $X$

{\hat{a}}^{2} V a r [X] \leq \frac{{(\frac{1}{N} \sum_{i = 1}^{N} X_{i} Y_{i})}^{2}}{s_{X}^{2}}

$\hat{a}^{2}\Var[X]\leq \frac{\left(\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}\right)^2}{s_{X}^2}$

ดังนั้นถ้าเช่นกันเราจะเห็น as (เนื่องจากตัวเศษเป็นศูนย์ แต่ตัวส่วนจะเป็น ) นอกจากนี้เราอาจได้รับบรรจบกันระหว่างถึงโดยขึ้นอยู่กับว่าคำสองคำนี้แตกต่างกันอย่างรวดเร็วเพียงใด ตอนนี้คำข้างต้นโดยทั่วไปจะแตกต่างเร็วกว่าหากควรอยู่ในรูปแบบและช้าลงหากไม่ควรอยู่ในรูปแบบ ในทั้งสองกรณีไปในทิศทางที่ถูกต้อง $\left(\frac{1}{N}\sum_{i=1}^{N}X_{i}Y_{i}\right)^2\to\infty$ $R^2\to 0$ $s_{X}^{2}\to\infty$ $\Var[\epsilon]>0$ $R^2$ $0$ $1$ $s_{X}^2$ $X$ $X$ $R^2$

และโปรดทราบว่าสำหรับชุดข้อมูล จำกัด ใด ๆ (เช่นชุดข้อมูลจริง) เราไม่สามารถมีเว้นแต่ว่าข้อผิดพลาดทั้งหมดจะเป็นศูนย์ สิ่งนี้โดยทั่วไปบ่งชี้ว่าเป็นหน่วยวัดที่สัมพันธ์กันแทนที่จะเป็นค่าสัมบูรณ์ ถ้าหากมีค่าเท่ากับเราสามารถหาแบบจำลองที่เหมาะสมได้ดีกว่าเสมอ นี่อาจเป็นแง่มุม "อันตราย" ของในเรื่องนั้นเพราะมันถูกปรับให้อยู่ระหว่างถึงดูเหมือนว่าเราจะสามารถสอดแทรกมันได้อย่างสมบูรณ์ $R^2=1$ $R^2$ $R^2$ $1$ $R^2$ $0$ $1$

มันอาจจะมีประโยชน์มากกว่าที่จะดูว่าค่าลดลงเร็วแค่ไหนเมื่อคุณเพิ่มตัวแปรลงในโมเดล และสุดท้าย แต่ไม่ท้ายสุดก็ไม่ควรเพิกเฉยในการเลือกตัวแปรเนื่องจากเป็นสถิติที่เพียงพอสำหรับการเลือกตัวแปร - มันมีข้อมูลทั้งหมดเกี่ยวกับการเลือกตัวแปรที่อยู่ในข้อมูล สิ่งเดียวที่จำเป็นคือการเลือกการลดลงในซึ่งสอดคล้องกับ "ข้อผิดพลาดที่เหมาะสม" - ซึ่งมักจะขึ้นอยู่กับขนาดตัวอย่างและจำนวนของตัวแปร $R^2$ $R^2$ $R^2$

— probabilityislogic
แหล่งที่มา

4

+1 คะแนนที่ดีมากมาย การคำนวณเพิ่มข้อมูลเชิงลึกเชิงปริมาณให้กับคำตอบก่อนหน้า

— whuber

27

ถ้าฉันสามารถเพิ่มตัวอย่างเมื่อเป็นอันตราย หลายปีที่ผ่านมาฉันทำงานกับข้อมูลไบโอเมตริกซ์และยังเด็กและโง่ฉันดีใจเมื่อพบค่ามีนัยสำคัญทางสถิติสำหรับการถดถอยแบบแฟนซีซึ่งฉันได้สร้างขึ้นโดยใช้ฟังก์ชันแบบขั้นตอน มันเป็นเพียงคนเดียวหลังจากนั้นมองกลับมาหลังจากที่นำเสนอให้กับผู้ชมต่างประเทศขนาดใหญ่ได้ฉันตระหนักดีว่าได้รับความแปรปรวนขนาดใหญ่ของข้อมูล - รวมกับการแสดงที่น่าสงสารที่เป็นไปได้ของกลุ่มตัวอย่างที่เกี่ยวกับประชากรที่เป็น 0.02 เป็นความหมายอย่างเต็มที่ แม้ว่ามันจะเป็น "นัยสำคัญทางสถิติ" ... $R^2$ $R^2$ $R^2$

ผู้ที่ทำงานกับสถิติจำเป็นต้องเข้าใจข้อมูล!

— ฌอน
แหล่งที่มา

15

สถิติไม่มีอันตรายหากคุณเข้าใจความหมายของมัน ตัวอย่างของฌอนไม่มีอะไรพิเศษเกี่ยวกับจัตุรัส R เป็นปัญหาทั่วไปของการติดใจอย่างมีนัยสำคัญทางสถิติ เมื่อเราทำการทดสอบทางสถิติในทางปฏิบัติเราเพียง แต่สนใจในความแตกต่างที่มีความหมาย ประชากรสองคนไม่มีการแจกแจงที่เหมือนกัน หากพวกเขาใกล้เคียงกันเราไม่สนใจ ด้วยขนาดตัวอย่างที่มีขนาดใหญ่มากเราสามารถตรวจจับความแตกต่างเล็กน้อยที่ไม่สำคัญ นั่นคือเหตุผลในการให้คำปรึกษาด้านการวิจัยทางการแพทย์ของฉันฉันเน้นความแตกต่างระหว่างนัยสำคัญทางคลินิกและสถิติ

— Michael Chernick

11

ตอนแรกลูกค้าของฉันมักจะผอมที่นัยสำคัญทางสถิติคือเป้าหมายของการวิจัย พวกเขาจำเป็นต้องแสดงให้เห็นว่ามันไม่ได้เป็นอย่างนั้น

— Michael Chernick

นัยสำคัญทางสถิติที่ 0.02 นั้นหมายความว่าคุณมีข้อมูลเพียงพอที่จะอ้างว่าไม่ใช่ 0 แต่ใกล้เคียงกับ 0 ดังนั้นจึงมีความสัมพันธ์ระหว่างตัวแปรอิสระน้อยกับตัวแปรตาม

R^{2}

$R^2$

R^{2}

$R^2$

— Michael Chernick

1

เห็นด้วยอย่างแน่นอนกับไมเคิล ความรู้ทางสถิติเล็กน้อยอาจเป็นอันตรายได้! :) จากข้อมูลเชิงลึกนั้นเมื่อหลายปีที่ผ่านมาฉันทำงานอย่างหนักเพื่อไม่ให้ทำผิดพลาดซ้ำซากจำเจโดยทำการศึกษาจำนวนมากเพื่อทำความเข้าใจว่าสถิติหมายถึงอะไรจริงๆ ปริญญาโทและปริญญาเอกด้านสถิติและฉันก็ยังคิดว่าฉันจะไปเรียนต่อได้อีกนาน!

— ฌอน

ขอบคุณฌอน ฉันขอขอบคุณความคิดเห็นและความอ่อนน้อมถ่อมตนของคุณ

— Michael Chernick

16

เมื่อคุณมีการทำนายเดียวถูกตีความว่าเป็นสัดส่วนของการเปลี่ยนแปลงในที่สามารถอธิบายได้ด้วยการเชิงเส้นความสัมพันธ์กับXการตีความนี้จะต้องเก็บไว้ในใจเมื่อมองไปที่ค่าของ 2 $R^{2}$ $Y$ $X$ $R^2$

คุณสามารถได้รับขนาดใหญ่จากความสัมพันธ์ที่ไม่ใช่เชิงเส้นเฉพาะเมื่อความสัมพันธ์ใกล้เคียงกับเชิงเส้น ตัวอย่างเช่นสมมติว่าที่และ(0,1) ถ้าคุณทำการคำนวณของ $R^2$ $Y = e^{X} + \varepsilon$ $X \sim {\rm Uniform}(2,3)$ $\varepsilon \sim N(0,1)$

R^{2} = c o r (X, e^{X} + ε)^{2}

$R^{2} = {\rm cor}(X, e^{X} + \varepsilon)^{2}$

คุณจะพบว่ามันอยู่ที่ประมาณ (ฉันประมาณโดยการจำลองเท่านั้น) แม้ว่าความสัมพันธ์จะไม่ชัดเจน เหตุผลก็คือว่าดูแย่มากเช่นฟังก์ชั่นเส้นตรงในช่วงเวลา(2,3) $.914$ $e^{X}$ $(2,3)$

— มาโคร
แหล่งที่มา

1

จากหมายเหตุด้านล่างโดย Erik และ Macro ฉันไม่คิดว่าจะมีใครออกมาให้ฉันและน่าจะดีกว่าถ้ามีคำตอบรวมกันแทนที่จะเป็นคำตอบสามข้อแยกกัน แต่ทำไมมันถึงสำคัญที่ศูนย์อภิปรายรอบตัวคุณ เขียนสิ่งต่าง ๆ และที่คุณเขียนแทนการพูดถึงสิ่งที่พูด?

— Michael Chernick

8

@MichaelChernick ฉันไม่คิดว่าจะมีการสนทนา "มาก" เกี่ยวกับวิธีการเขียนสิ่ง แนวทางที่เราพยายามช่วยคุณนั้นเป็นไปตามแนวทางของ "ถ้าทุกคนทำเช่นนั้นไซต์นี้จะไม่เป็นระเบียบมากและทำตามได้ยาก" อาจดูเหมือนว่ามีการถกเถียงกันมากมายเกี่ยวกับสิ่งเหล่านี้ แต่นั่นอาจเป็นเพราะคุณเป็นผู้เข้าร่วมที่กระตือรือร้นมากตั้งแต่คุณเข้าร่วมซึ่งเยี่ยมมากเพราะคุณนำสิ่งต่าง ๆ มาที่โต๊ะอย่างชัดเจน หากคุณต้องการที่จะพูดคุยเกี่ยวกับเรื่องนี้พิจารณาเริ่มต้นด้ายบนเมตามากกว่าความคิดเห็นการอภิปรายภายใต้คำตอบที่ไม่เกี่ยวข้องกับฉัน :)

— มาโคร

จะมีความสุขอย่างไรถ้านัก Widers คนหนึ่งสนับสนุนการแจกชุดในตัวอย่างของคุณ?

— Qbik

เมื่อฉันได้รับประสบการณ์ในเว็บไซต์นี้ฉันต้องเห็นด้วยกับมาโครว่าการกระชับและรวบรวมข้อมูลเป็นสิ่งสำคัญ

— Michael Chernick

15

สถานการณ์หนึ่งที่คุณต้องการหลีกเลี่ยงคือการถดถอยหลายครั้งซึ่งการเพิ่มตัวแปรตัวทำนายที่ไม่เกี่ยวข้องลงในแบบจำลองนั้นในบางกรณีสามารถเพิ่มได้ สิ่งนี้สามารถแก้ไขได้โดยใช้ค่า ปรับแล้วแทนซึ่งคำนวณเป็น $R^2$ $R^2$ $R^2$

$\bar{R}^2 = 1 - (1-R^2)\frac{n-1}{n-p-1}$ โดยที่คือจำนวนตัวอย่างข้อมูลและคือจำนวน regressors ที่ไม่นับเทอมคงที่ . $n$ $p$

— jedfrancis
แหล่งที่มา

21

โปรดทราบว่าการเพิ่มตัวแปรที่ไม่เกี่ยวข้องนั้นรับประกันว่าจะเพิ่ม (ไม่ใช่เฉพาะใน "บางกรณี") เว้นแต่ว่าตัวแปรเหล่านั้นจะมีความสมบูรณ์พร้อมกับตัวแปรที่มีอยู่

R^{2}

$R^2$

— whuber

6

เป็นตัวอย่างที่ดีสำหรับสูงที่มีฟังก์ชั่นแบบไม่เชิงเส้นเป็นฟังก์ชันกำลังสองจำกัด ให้ช่วง[0,1]ด้วยเสียงรบกวน 0 มันจะไม่มีสี่เหลี่ยมจัตุรัส 1 ถ้าคุณมี 3 คะแนนขึ้นไปเนื่องจากมันจะไม่พอดีในแนวเส้นตรง แต่ถ้าจุดการออกแบบจะกระจายอย่างสม่ำเสมอบนคุณจะได้รับจะสูงอาจจะแปลกใจดังนั้น นี่อาจไม่ใช่กรณีที่คุณมีคะแนนมากใกล้ 0 และมากใกล้ 1 ที่มีค่าน้อยหรือไม่มีอะไรอยู่ตรงกลาง $R^2$ $y=x^2$ $[0,1]$ $R^2$ $[0, 1]$ $R^2$
$R^2$ จะไม่ดีในกรณีเส้นตรงที่สมบูรณ์แบบหากคำที่มีเสียงดังมีความแปรปรวนขนาดใหญ่ ดังนั้นคุณสามารถใช้โมเดลซึ่งเป็นโมเดลเชิงเส้นที่สมบูรณ์แบบ แต่ให้ความแปรปรวนใน e มีแนวโน้มที่จะไม่มีที่สิ้นสุดและคุณจะได้ไปที่ 0 ตรวจสอบข้อบกพร่องของมัน R Square ทำการวัดเปอร์เซ็นต์ของ ความแปรปรวนที่อธิบายโดยข้อมูลและมันวัดความดีของความพอดี สูงหมายถึงแบบที่ดี แต่เรายังต้องระวังเกี่ยวกับความพอดีที่เกิดจากพารามิเตอร์มากเกินไปสำหรับขนาดของชุดข้อมูลที่เรามี $Y= x + \epsilon$ $R^2$ $R^2$
ในสถานการณ์การถดถอยหลายครั้งจะมีปัญหาการ overfitting เพิ่มตัวแปรและจะเพิ่มขึ้นเสมอ การแก้ไขแก้ไขนี้ค่อนข้างจะคำนึงถึงจำนวนพารามิเตอร์ $R^2$ $R^2$

— Michael Chernick
แหล่งที่มา