คือ


233

ฉันกำลังอ่านบันทึกการบรรยายโดย Cosma Shalizi (โดยเฉพาะอย่างยิ่งหัวข้อ 2.1.1 ของการบรรยายครั้งที่สอง ) และได้รับการเตือนว่าคุณจะได้รับต่ำมากR2แม้ว่าคุณจะมีโมเดลเชิงเส้นสมบูรณ์

ในการถอดความตัวอย่างของ Shalizi: สมมติว่าคุณมีโมเดลY=aX+ϵโดยที่aรู้จัก จากนั้นVar[Y]=a2Var[x]+Var[ϵ]และจำนวนความแปรปรวนที่อธิบายคือa2Var[X]ดังนั้นR2=a2Var[x]a2Var[X]+Var[ϵ]epsilon]} นี้ไป 0 เป็นVar[X]0และ 1 Var[X]\

ในทางกลับกันคุณสามารถรับR ^ 2สูงR2ถึงแม้ว่าแบบจำลองของคุณจะไม่ใช่แบบเส้นตรง (ใครมีตัวอย่างที่ดีทันทีทันใด?)

ดังนั้นเมื่อR2เป็นสถิติที่มีประโยชน์และเมื่อใดควรจะละเว้น?


5
โปรดทราบหัวข้อความคิดเห็นที่เกี่ยวข้องในคำถามล่าสุด
whuber

36
ฉันไม่มีสถิติที่จะเพิ่มคำตอบที่ยอดเยี่ยมที่ได้รับ (โดยเฉพาะ @whuber) แต่ฉันคิดว่าคำตอบที่ถูกคือ "R-squared: มีประโยชน์และอันตราย" ชอบสถิติอะไรมาก
Peter Flom

32
คำตอบสำหรับคำถามนี้คือ: "ใช่"
Fomite

ดูstats.stackexchange.com/a/265924/99274สำหรับคำตอบอื่น
Carl

ตัวอย่างจากสคริปต์นั้นไม่มีประโยชน์อะไรมากนอกจากคุณจะบอกเราว่าคืออะไร? ถ้าเป็นค่าคงที่เช่นกันอาร์กิวเมนต์ของคุณ / เธอก็ผิดตั้งแต่นั้นอย่างไรก็ตามถ้าไม่คงที่ โปรดพลอตกับสำหรับขนาดเล็กและบอกฉันว่านี่คือเส้นตรง ........ϵ ϵ Var ( a X + b ) = a 2 Var ( X ) ϵ Y X Var ( X )Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

คำตอบ:


264

ในการตอบคำถามแรกพิจารณาตัวแบบ

Y=X+sin(X)+ε

กับ iidของค่าเฉลี่ยเป็นศูนย์และความแปรปรวนแน่นอน เมื่อช่วงของ (เพิ่มขึ้นคงที่หรือสุ่ม),ไปที่ 1 อย่างไรก็ตามหากความแปรปรวนของมีขนาดเล็ก (ประมาณ 1 หรือน้อยกว่า) ข้อมูลจะเป็น "ไม่เชิงเส้นอย่างเห็นได้ชัด" ในแปลงที่ 1X R 2 ε v a r ( ε ) = 1εXR2εvar(ε)=1

ช่วงสั้น ๆ ของ X

ช่วงกว้างของ X

วิธีที่ง่ายที่สุดในการรับคือการแบ่งตัวแปรอิสระออกเป็นช่วงแคบ ๆ การถดถอย (ใช้รูปแบบเดียวกันทั้งหมด ) ภายในแต่ละช่วงจะมีค่าต่ำแม้ว่าการถดถอยแบบเต็มตามข้อมูลทั้งหมดจะมีค่าสูง การไตร่ตรองสถานการณ์นี้เป็นการฝึกที่ให้ข้อมูลและเตรียมการที่ดีสำหรับคำถามที่สองR 2 R 2R2R2R2

ทั้งแปลงต่อไปนี้ใช้ข้อมูลเดียวกัน สำหรับการถดถอยเต็มคือ 0.86 สำหรับชิ้น (1/2 ของความกว้างจาก -5/2 ไป 5/2) เป็น 0.16, 0.18, 0.07, 0.14, 0.08, 0.17, 0.20, 0.12, 0.01 , .00, อ่านจากซ้ายไปขวา หากมีสิ่งใดสิ่งที่พอดีจะดีขึ้นในสถานการณ์ที่ถูกแบ่งออกเพราะเส้น 10 เส้นแยกกันสามารถสอดคล้องกับข้อมูลภายในช่วงแคบ ๆ แม้ว่าสำหรับชิ้นส่วนทั้งหมดจะต่ำกว่าค่าอย่างสมบูรณ์ทั้งความแข็งแกร่งของความสัมพันธ์ความเป็นเส้นตรงหรือลักษณะของข้อมูลใด ๆ (ยกเว้นช่วงของใช้สำหรับการถดถอย) มีการเปลี่ยนแปลงR 2 R 2 R 2 XR2R2R2R2X

ชี้กลุ่มเมฆด้วยการถดถอยแบบเต็ม

Clouded Point หั่นด้วย 10 การถดถอย

(หนึ่งอาจคัดค้านว่าขั้นตอนการแบ่งส่วนนี้เปลี่ยนการกระจายตัวของนั่นเป็นความจริง แต่ก็สอดคล้องกับการใช้งานในการสร้างแบบจำลองเอฟเฟกต์คงที่และแสดงให้เห็นถึงระดับที่บอกเราเกี่ยวกับ ความแปรปรวนของในสถานการณ์สุ่ม - เอฟเฟกต์โดยเฉพาะอย่างยิ่งเมื่อถูก จำกัด ให้เปลี่ยนแปลงภายในช่วงเวลาที่น้อยกว่าของช่วงธรรมชาติจะลดลง)R 2 R 2 X X R 2XR2R2XXR2

ปัญหาพื้นฐานของคือมันขึ้นอยู่กับหลายสิ่งหลายอย่างมากเกินไป (แม้เมื่อปรับในการถดถอยหลายครั้ง) แต่ส่วนใหญ่โดยเฉพาะอย่างยิ่งในความแปรปรวนของตัวแปรอิสระและความแปรปรวนของส่วนที่เหลือ ปกติแล้วมันจะไม่บอกอะไรเราเกี่ยวกับ "ความเป็นเส้นตรง" หรือ "ความแข็งแกร่งของความสัมพันธ์" หรือแม้แต่ "ความดีที่เหมาะสม" สำหรับการเปรียบเทียบลำดับของแบบจำลองR2

ส่วนใหญ่เวลาที่คุณสามารถหาสถิติที่ดีกว่า 2 สำหรับการเลือกรุ่นคุณสามารถดู AIC และ BIC; สำหรับการแสดงความเพียงพอของแบบจำลองให้ดูที่ความแปรปรวนของส่วนที่เหลือ R2

นี่นำเรามาถึงคำถามที่สองในที่สุด สถานการณ์หนึ่งที่อาจมีการใช้งานบางอย่างคือเมื่อตัวแปรอิสระถูกตั้งค่าเป็นค่ามาตรฐานการควบคุมผลกระทบของความแปรปรวนเป็นหลัก จากนั้นจะเป็นพร็อกซีสำหรับความแปรปรวนของค่าตกค้างที่ได้มาตรฐานอย่างเหมาะสม 1 - R 2R21R2


26
ช่างเป็นคำตอบที่ละเอียดและตอบสนองอย่างน่าอัศจรรย์โดย @whuber
Peter Flom

AIC และ BIC ไม่ปรับอย่างชัดเจนสำหรับจำนวนพารามิเตอร์โดยประมาณหรือไม่ ถ้าเป็นเช่นนั้นการเปรียบเทียบและไม่ได้ปรับ R ^ 2 นั้นไม่ยุติธรรม ดังนั้นฉันจึงถามว่าคำวิจารณ์ของคุณจะถูกปรับ R ^ 2 หรือไม่? ดูเหมือนว่าหากคุณถูกลงโทษสำหรับ 'การแบ่ง' ที่ปรับค่า R ^ 2 จะสามารถกลับไปบอกคุณเกี่ยวกับความดีของแบบจำลองได้
russellpierce

7
@dr วิจารณ์ของฉันใช้อย่างสมบูรณ์แบบเพื่อปรับ 2 กรณีเดียวที่มีมากของความแตกต่างระหว่างและปรับเมื่อคุณกำลังใช้โหลดของพารามิเตอร์เมื่อเทียบกับข้อมูล ในตัวอย่างการตัดมีเกือบ 1,000 จุดข้อมูลและการแบ่งเพิ่มเพียง 18 พารามิเตอร์; การปรับค่าจะไม่ส่งผลกระทบต่อตำแหน่งทศนิยมตำแหน่งที่สองยกเว้นในส่วนท้ายที่มีจุดข้อมูลเพียงไม่กี่โหลและมันจะลดระดับเสียงลงเพื่อให้การโต้แย้งแข็งแกร่งขึ้น R 2 R 2 R 2R2R2R2R2
whuber

5
คำตอบของคำถามในความคิดเห็นแรกของคุณควรขึ้นอยู่กับวัตถุประสงค์ของคุณและมีหลายวิธีในการตีความ "การทดสอบความสัมพันธ์เชิงเส้น" หนึ่งคือคุณต้องการทดสอบว่าสัมประสิทธิ์เป็นศูนย์หรือไม่ อีกประการหนึ่งคือคุณต้องการทราบว่ามีหลักฐานของความไม่เชิงเส้นหรือไม่ (โดยตัวมันเอง) ไม่มีประโยชน์อย่างมากสำหรับทั้งสองแม้ว่าเราจะรู้ว่ามีข้อมูลจำนวนมากหมายความว่าโปรเจ็กต์ของพวกเขาดูเหมือนเส้นเชิงประมาณ - เหมือนตัวอย่างที่สองของฉันหรือชอบ @ แมโคร สำหรับแต่ละวัตถุประสงค์มีการทดสอบที่เหมาะสมและค่า p ที่เกี่ยวข้อง R 2R2R2
whuber

4
สำหรับคำถามที่สองของคุณเราควรจะสงสัยว่าสิ่งที่อาจจะหมายถึงการพอดีเชิงเส้น "ดีที่สุด" ผู้สมัครคนใดคนหนึ่งจะมีขนาดพอดีที่ลดผลรวมที่เหลือของกำลังสอง คุณสามารถใช้เป็นพร็อกซีสำหรับสิ่งนี้ได้อย่างปลอดภัยแต่ทำไมไม่ตรวจสอบข้อผิดพลาดรูท มันเป็นสถิติที่มีประโยชน์มากกว่า R2
whuber

47

ตัวอย่างของคุณใช้เฉพาะเมื่อตัวแปรควรจะอยู่ในรูปแบบ มันใช้ไม่ได้อย่างแน่นอนเมื่อคนหนึ่งใช้ค่าประมาณกำลังสองน้อยที่สุดตามปกติ หากต้องการดูสิ่งนี้โปรดทราบว่าหากเราประมาณสี่เหลี่ยมอย่างน้อยในตัวอย่างของคุณเราจะได้รับ:X a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
โดยที่คือความแปรปรวน (ตัวอย่าง) ของและคือ ค่าเฉลี่ย (ตัวอย่าง) ของsX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

ตอนนี้คำที่สองนั้นน้อยกว่าเสมอ(เท่ากับในขีด จำกัด ) ดังนั้นเราจึงได้ขอบเขตบนสำหรับการสนับสนุนจากตัวแปร :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

ดังนั้นถ้าเช่นกันเราจะเห็น as (เนื่องจากตัวเศษเป็นศูนย์ แต่ตัวส่วนจะเป็น ) นอกจากนี้เราอาจได้รับบรรจบกันระหว่างถึงโดยขึ้นอยู่กับว่าคำสองคำนี้แตกต่างกันอย่างรวดเร็วเพียงใด ตอนนี้คำข้างต้นโดยทั่วไปจะแตกต่างเร็วกว่าหากควรอยู่ในรูปแบบและช้าลงหากไม่ควรอยู่ในรูปแบบ ในทั้งสองกรณีไปในทิศทางที่ถูกต้อง(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

และโปรดทราบว่าสำหรับชุดข้อมูล จำกัด ใด ๆ (เช่นชุดข้อมูลจริง) เราไม่สามารถมีเว้นแต่ว่าข้อผิดพลาดทั้งหมดจะเป็นศูนย์ สิ่งนี้โดยทั่วไปบ่งชี้ว่าเป็นหน่วยวัดที่สัมพันธ์กันแทนที่จะเป็นค่าสัมบูรณ์ ถ้าหากมีค่าเท่ากับเราสามารถหาแบบจำลองที่เหมาะสมได้ดีกว่าเสมอ นี่อาจเป็นแง่มุม "อันตราย" ของในเรื่องนั้นเพราะมันถูกปรับให้อยู่ระหว่างถึงดูเหมือนว่าเราจะสามารถสอดแทรกมันได้อย่างสมบูรณ์R2=1R2R21R201

มันอาจจะมีประโยชน์มากกว่าที่จะดูว่าค่าลดลงเร็วแค่ไหนเมื่อคุณเพิ่มตัวแปรลงในโมเดล และสุดท้าย แต่ไม่ท้ายสุดก็ไม่ควรเพิกเฉยในการเลือกตัวแปรเนื่องจากเป็นสถิติที่เพียงพอสำหรับการเลือกตัวแปร - มันมีข้อมูลทั้งหมดเกี่ยวกับการเลือกตัวแปรที่อยู่ในข้อมูล สิ่งเดียวที่จำเป็นคือการเลือกการลดลงในซึ่งสอดคล้องกับ "ข้อผิดพลาดที่เหมาะสม" - ซึ่งมักจะขึ้นอยู่กับขนาดตัวอย่างและจำนวนของตัวแปรR2R2R2


4
+1 คะแนนที่ดีมากมาย การคำนวณเพิ่มข้อมูลเชิงลึกเชิงปริมาณให้กับคำตอบก่อนหน้า
whuber

27

ถ้าฉันสามารถเพิ่มตัวอย่างเมื่อเป็นอันตราย หลายปีที่ผ่านมาฉันทำงานกับข้อมูลไบโอเมตริกซ์และยังเด็กและโง่ฉันดีใจเมื่อพบค่ามีนัยสำคัญทางสถิติสำหรับการถดถอยแบบแฟนซีซึ่งฉันได้สร้างขึ้นโดยใช้ฟังก์ชันแบบขั้นตอน มันเป็นเพียงคนเดียวหลังจากนั้นมองกลับมาหลังจากที่นำเสนอให้กับผู้ชมต่างประเทศขนาดใหญ่ได้ฉันตระหนักดีว่าได้รับความแปรปรวนขนาดใหญ่ของข้อมูล - รวมกับการแสดงที่น่าสงสารที่เป็นไปได้ของกลุ่มตัวอย่างที่เกี่ยวกับประชากรที่เป็น 0.02 เป็นความหมายอย่างเต็มที่ แม้ว่ามันจะเป็น "นัยสำคัญทางสถิติ" ...R2R2R2

ผู้ที่ทำงานกับสถิติจำเป็นต้องเข้าใจข้อมูล!


15
สถิติไม่มีอันตรายหากคุณเข้าใจความหมายของมัน ตัวอย่างของฌอนไม่มีอะไรพิเศษเกี่ยวกับจัตุรัส R เป็นปัญหาทั่วไปของการติดใจอย่างมีนัยสำคัญทางสถิติ เมื่อเราทำการทดสอบทางสถิติในทางปฏิบัติเราเพียง แต่สนใจในความแตกต่างที่มีความหมาย ประชากรสองคนไม่มีการแจกแจงที่เหมือนกัน หากพวกเขาใกล้เคียงกันเราไม่สนใจ ด้วยขนาดตัวอย่างที่มีขนาดใหญ่มากเราสามารถตรวจจับความแตกต่างเล็กน้อยที่ไม่สำคัญ นั่นคือเหตุผลในการให้คำปรึกษาด้านการวิจัยทางการแพทย์ของฉันฉันเน้นความแตกต่างระหว่างนัยสำคัญทางคลินิกและสถิติ
Michael Chernick

11
ตอนแรกลูกค้าของฉันมักจะผอมที่นัยสำคัญทางสถิติคือเป้าหมายของการวิจัย พวกเขาจำเป็นต้องแสดงให้เห็นว่ามันไม่ได้เป็นอย่างนั้น
Michael Chernick

นัยสำคัญทางสถิติที่ 0.02 นั้นหมายความว่าคุณมีข้อมูลเพียงพอที่จะอ้างว่าไม่ใช่ 0 แต่ใกล้เคียงกับ 0 ดังนั้นจึงมีความสัมพันธ์ระหว่างตัวแปรอิสระน้อยกับตัวแปรตาม R2R2
Michael Chernick

1
เห็นด้วยอย่างแน่นอนกับไมเคิล ความรู้ทางสถิติเล็กน้อยอาจเป็นอันตรายได้! :) จากข้อมูลเชิงลึกนั้นเมื่อหลายปีที่ผ่านมาฉันทำงานอย่างหนักเพื่อไม่ให้ทำผิดพลาดซ้ำซากจำเจโดยทำการศึกษาจำนวนมากเพื่อทำความเข้าใจว่าสถิติหมายถึงอะไรจริงๆ ปริญญาโทและปริญญาเอกด้านสถิติและฉันก็ยังคิดว่าฉันจะไปเรียนต่อได้อีกนาน!
ฌอน

ขอบคุณฌอน ฉันขอขอบคุณความคิดเห็นและความอ่อนน้อมถ่อมตนของคุณ
Michael Chernick

16

เมื่อคุณมีการทำนายเดียวถูกตีความว่าเป็นสัดส่วนของการเปลี่ยนแปลงในที่สามารถอธิบายได้ด้วยการเชิงเส้นความสัมพันธ์กับXการตีความนี้จะต้องเก็บไว้ในใจเมื่อมองไปที่ค่าของ 2R2YXR2

คุณสามารถได้รับขนาดใหญ่จากความสัมพันธ์ที่ไม่ใช่เชิงเส้นเฉพาะเมื่อความสัมพันธ์ใกล้เคียงกับเชิงเส้น ตัวอย่างเช่นสมมติว่าที่และ(0,1) ถ้าคุณทำการคำนวณของR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

คุณจะพบว่ามันอยู่ที่ประมาณ (ฉันประมาณโดยการจำลองเท่านั้น) แม้ว่าความสัมพันธ์จะไม่ชัดเจน เหตุผลก็คือว่าดูแย่มากเช่นฟังก์ชั่นเส้นตรงในช่วงเวลา(2,3).914eX(2,3)


1
จากหมายเหตุด้านล่างโดย Erik และ Macro ฉันไม่คิดว่าจะมีใครออกมาให้ฉันและน่าจะดีกว่าถ้ามีคำตอบรวมกันแทนที่จะเป็นคำตอบสามข้อแยกกัน แต่ทำไมมันถึงสำคัญที่ศูนย์อภิปรายรอบตัวคุณ เขียนสิ่งต่าง ๆ และที่คุณเขียนแทนการพูดถึงสิ่งที่พูด?
Michael Chernick

8
@MichaelChernick ฉันไม่คิดว่าจะมีการสนทนา "มาก" เกี่ยวกับวิธีการเขียนสิ่ง แนวทางที่เราพยายามช่วยคุณนั้นเป็นไปตามแนวทางของ "ถ้าทุกคนทำเช่นนั้นไซต์นี้จะไม่เป็นระเบียบมากและทำตามได้ยาก" อาจดูเหมือนว่ามีการถกเถียงกันมากมายเกี่ยวกับสิ่งเหล่านี้ แต่นั่นอาจเป็นเพราะคุณเป็นผู้เข้าร่วมที่กระตือรือร้นมากตั้งแต่คุณเข้าร่วมซึ่งเยี่ยมมากเพราะคุณนำสิ่งต่าง ๆ มาที่โต๊ะอย่างชัดเจน หากคุณต้องการที่จะพูดคุยเกี่ยวกับเรื่องนี้พิจารณาเริ่มต้นด้ายบนเมตามากกว่าความคิดเห็นการอภิปรายภายใต้คำตอบที่ไม่เกี่ยวข้องกับฉัน :)
มาโคร

จะมีความสุขอย่างไรถ้านัก Widers คนหนึ่งสนับสนุนการแจกชุดในตัวอย่างของคุณ?
Qbik

เมื่อฉันได้รับประสบการณ์ในเว็บไซต์นี้ฉันต้องเห็นด้วยกับมาโครว่าการกระชับและรวบรวมข้อมูลเป็นสิ่งสำคัญ
Michael Chernick

15

สถานการณ์หนึ่งที่คุณต้องการหลีกเลี่ยงคือการถดถอยหลายครั้งซึ่งการเพิ่มตัวแปรตัวทำนายที่ไม่เกี่ยวข้องลงในแบบจำลองนั้นในบางกรณีสามารถเพิ่มได้ สิ่งนี้สามารถแก้ไขได้โดยใช้ค่าปรับแล้วแทนซึ่งคำนวณเป็นR2R2R2

npR¯2=1(1R2)n1np1โดยที่คือจำนวนตัวอย่างข้อมูลและคือจำนวน regressors ที่ไม่นับเทอมคงที่ .np


21
โปรดทราบว่าการเพิ่มตัวแปรที่ไม่เกี่ยวข้องนั้นรับประกันว่าจะเพิ่ม (ไม่ใช่เฉพาะใน "บางกรณี") เว้นแต่ว่าตัวแปรเหล่านั้นจะมีความสมบูรณ์พร้อมกับตัวแปรที่มีอยู่ R2
whuber

6
  1. เป็นตัวอย่างที่ดีสำหรับสูงที่มีฟังก์ชั่นแบบไม่เชิงเส้นเป็นฟังก์ชันกำลังสองจำกัด ให้ช่วง[0,1]ด้วยเสียงรบกวน 0 มันจะไม่มีสี่เหลี่ยมจัตุรัส 1 ถ้าคุณมี 3 คะแนนขึ้นไปเนื่องจากมันจะไม่พอดีในแนวเส้นตรง แต่ถ้าจุดการออกแบบจะกระจายอย่างสม่ำเสมอบนคุณจะได้รับจะสูงอาจจะแปลกใจดังนั้น นี่อาจไม่ใช่กรณีที่คุณมีคะแนนมากใกล้ 0 และมากใกล้ 1 ที่มีค่าน้อยหรือไม่มีอะไรอยู่ตรงกลางR2y=x2[0,1]R2[0,1]R2

  2. R2จะไม่ดีในกรณีเส้นตรงที่สมบูรณ์แบบหากคำที่มีเสียงดังมีความแปรปรวนขนาดใหญ่ ดังนั้นคุณสามารถใช้โมเดลซึ่งเป็นโมเดลเชิงเส้นที่สมบูรณ์แบบ แต่ให้ความแปรปรวนใน e มีแนวโน้มที่จะไม่มีที่สิ้นสุดและคุณจะได้ไปที่ 0 ตรวจสอบข้อบกพร่องของมัน R Square ทำการวัดเปอร์เซ็นต์ของ ความแปรปรวนที่อธิบายโดยข้อมูลและมันวัดความดีของความพอดี สูงหมายถึงแบบที่ดี แต่เรายังต้องระวังเกี่ยวกับความพอดีที่เกิดจากพารามิเตอร์มากเกินไปสำหรับขนาดของชุดข้อมูลที่เรามีY=x+ϵR2R2

  3. ในสถานการณ์การถดถอยหลายครั้งจะมีปัญหาการ overfitting เพิ่มตัวแปรและจะเพิ่มขึ้นเสมอ การแก้ไขแก้ไขนี้ค่อนข้างจะคำนึงถึงจำนวนพารามิเตอร์R2R2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.