เมื่อ R กำลังสองเป็นค่าลบ


77

ความเข้าใจของฉันคือว่าไม่สามารถลบได้เนื่องจากมันเป็นสแควร์ของ R อย่างไรก็ตามฉันใช้การถดถอยเชิงเส้นอย่างง่ายใน SPSS ด้วยตัวแปรอิสระเดี่ยวและตัวแปรตาม เอาท์พุท SPSS ของฉันให้ฉันเป็นค่าลบสำหรับ 2 ถ้าฉันจะคำนวณด้วยมือจาก R แล้วจะเป็นค่าบวก SPSS ทำอะไรเพื่อคำนวณสิ่งนี้ว่าเป็นลบR2R 2R2R2

R=-.395
R squared =-.156
B (un-standardized)=-1261.611

รหัสที่ฉันใช้:

DATASET ACTIVATE DataSet1. 
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA 
           /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 
           /DEPENDENT valueP /METHOD=ENTER ageP

ฉันได้รับค่าลบ ใครช่วยอธิบายสิ่งนี้ได้บ้าง?

ลบ RSquared

ป้อนคำอธิบายรูปภาพที่นี่


3
สิ่งนี้ตอบคำถามของคุณหรือไม่ stats.stackexchange.com/questions/6181/… หากไม่ใช่โปรดระบุข้อมูลเพิ่มเติม: นี่คือ "เอาต์พุต SPSS" ของขั้นตอนใด
whuber

2
โมเดลการถดถอยเชิงเส้นของคุณมีการสกัดกั้นหรือไม่?
NPE

2
@Ane อีกครั้งคุณใช้ SPSS ขั้นตอนใด
whuber

1
@ ฉันขอแนะนำให้คุณไม่สนใจการตอบกลับอนุกรมเวลาเนื่องจากข้อมูลของคุณไม่ใช่อนุกรมเวลาและคุณไม่ได้ใช้ขั้นตอนอนุกรมเวลา คุณแน่ใจหรือไม่ว่า R กำลังสองได้รับเป็นค่าลบหรือไม่ ขนาดของมันคือที่ถูกต้อง: (-0.395)ฉันได้ตรวจสอบ SPSS เพื่อช่วยให้เห็นว่าอาจเป็นแบบแผนค่า R-squared สำหรับค่าลบ R ถูกลบล้างหรือไม่ แต่ฉันไม่เห็นหลักฐานใด ๆ ว่านี่เป็นกรณี บางทีคุณสามารถโพสต์ภาพหน้าจอของเอาต์พุตที่คุณกำลังอ่าน R-squared? (0.395)2=0.156
whuber

1
ตัวแปรตามคือราคาของบ้านดังนั้นจึงเป็นไปได้ที่ 95% CI อาจ 120,000 น่าเสียดายที่ฉันไม่สามารถโพสต์ข้อมูลได้ที่นี่เนื่องจากขัดกับเงื่อนไขการใช้ข้อมูล
Anne

คำตอบ:


106

R 2 R 2 R 2R2เปรียบเทียบความพอดีของรุ่นที่เลือกกับของเส้นตรงแนวนอน (สมมติฐานว่าง) หากโมเดลที่เลือกนั้นแย่กว่าเส้นแนวนอนดังนั้นจะเป็นลบ โปรดทราบว่าไม่ได้เป็นสแควร์ของอะไรเสมอไปดังนั้นมันสามารถมีค่าเป็นลบได้โดยไม่ละเมิดกฎคณิตศาสตร์ เป็นค่าลบเฉพาะเมื่อโมเดลที่เลือกไม่เป็นไปตามแนวโน้มของข้อมูลดังนั้นจึงเหมาะสมกว่าเส้นแนวนอนR2R2R2

ตัวอย่าง:ข้อมูลพอดีกับรูปแบบการถดถอยเชิงเส้น จำกัด เพื่อให้ตัดต้องเท่ากับ15001,500Y1500

ป้อนคำอธิบายรูปภาพที่นี่

ตัวแบบไม่สมเหตุสมผลเลยสำหรับข้อมูลเหล่านี้ เห็นได้ชัดว่าเป็นรูปแบบที่ผิดอาจเลือกโดยบังเอิญ

ความพอดีของตัวแบบ (เส้นตรงที่ถูกบังคับให้ผ่านจุด (0.1500)) นั้นแย่กว่าความพอดีของเส้นแนวนอน ดังนั้น sum-of-สี่เหลี่ยมจากแบบจำลองมีขนาดใหญ่กว่า sum-of-สี่เหลี่ยมจากเส้นแนวนอน{}) คำนวณเป็น{}} เมื่อมีค่ามากกว่า , สมการที่คำนวณเป็นค่าลบสำหรับ 2( S S ทีโอที ) R 2 1 - S S reg(SSreg)(SStot)R2 SSregSStotR21SSregSStotSSregSStotR2

ด้วยการถดถอยเชิงเส้นโดยไม่มีข้อ จำกัดต้องเป็นบวก (หรือเป็นศูนย์) และเท่ากับตารางของค่าสัมประสิทธิ์สหสัมพันธ์ที่Rค่าลบเป็นไปได้เฉพาะกับการถดถอยเชิงเส้นเมื่อทั้งจุดตัดหรือความชันถูก จำกัด ดังนั้นเส้น "ที่ดีที่สุด" (ให้ข้อ จำกัด ) จะแย่กว่าเส้นแนวนอน ด้วยการถดถอยแบบไม่เชิงเส้นสามารถเป็นลบได้ทุกครั้งที่แบบจำลองที่ดีที่สุด (ให้สมการที่เลือกและข้อ จำกัด ถ้ามี) เหมาะกับข้อมูลที่แย่กว่าเส้นแนวนอน r R 2 R 2R2rR2R2

Bottom line:ลบไม่ได้เป็นไปไม่ได้ทางคณิตศาสตร์หรือสัญญาณของบั๊กคอมพิวเตอร์ มันก็หมายความว่าแบบจำลองที่เลือก (มีข้อ จำกัด ) เหมาะสมกับข้อมูลที่ไม่ดีจริงๆR2


3
@JMS ตรงข้ามกับสิ่งที่ Googling ของฉันระบุ: "/ ORIGIN" จะแก้ไขจุดตัดที่ 0; "/ NOORIGIN" "บอก SPSS ไม่ให้ระงับค่าคงที่" ( คำแนะนำเบื้องต้นสำหรับ SPSS สำหรับ Windows )
whuber

10
@whuber ถูกต้อง @ harvey-motulsky ค่าลบ R ^ 2 เป็นไปไม่ได้ทางคณิตศาสตร์ (และแสดงให้เห็นข้อบกพร่องของคอมพิวเตอร์) สำหรับการถดถอย OLS ปกติ (โดยมีจุดตัด) นี่คือสิ่งที่คำสั่ง 'REGRESSION' ทำและสิ่งที่ผู้ถามเดิมถาม นอกจากนี้สำหรับการถดถอยแบบ OLS นั้น R ^ 2 คือความสัมพันธ์กำลังสองระหว่างค่าทำนายและค่าที่สังเกตได้ ดังนั้นจะต้องไม่เป็นลบ สำหรับการถดถอย OLS อย่างง่ายพร้อมตัวทำนายหนึ่งค่านี่จะเท่ากับความสัมพันธ์กำลังสองระหว่างตัวทำนายและตัวแปรตาม - อีกครั้งสิ่งนี้ต้องไม่ใช่แบบลบ
Wolfgang

1
@whuber แน่นอน ความผิดฉันเอง; เห็นได้ชัดว่าฉันไม่ได้ใช้โปรแกรม SPSS - หรืออ่านเห็นได้ชัด :)
JMS

1
@whuber ฉันเพิ่มย่อหน้าที่ชี้ให้เห็นว่าด้วยการถดถอยเชิงเส้น R2 สามารถลบได้เฉพาะเมื่อการสกัดกั้น (หรืออาจจะเป็นความลาดชัน) ถูก จำกัด โดยไม่มีข้อ จำกัด R2 จะต้องเป็นบวกและเท่ากับสแควร์ของ r, สัมประสิทธิ์สหสัมพันธ์
Harvey Motulsky

1
@HarveyMotulsky ในกรณีนี้การสกัดกั้นหรือความชันไม่ถูก จำกัด ดูเหมือนว่าคุณกำลังบอกว่า Rsquared สามารถลบได้หากสิ่งเหล่านี้ถูก จำกัด คุณช่วยอธิบายรายละเอียดเกี่ยวกับสิ่งที่อาจเกิดขึ้นได้ในกรณีนี้หรือไม่?
Anne

18

คุณลืมที่จะรวมการสกัดกั้นในการถดถอยของคุณ? ฉันไม่คุ้นเคยกับรหัส SPSS แต่ในหน้า 21 ของเศรษฐมิติของ Hayashi:

หาก regressors ไม่รวมค่าคงที่ แต่ (ตามที่บางแพคเกจซอฟต์แวร์การถดถอยทำ) คุณยังคงคำนวณตามสูตรR2

R2=1i=1nei2i=1n(yiy¯)2

ดังนั้นอาจเป็นลบได้ เนื่องจากไม่มีการสกัดกั้นการถดถอยอาจทำได้แย่กว่าค่าเฉลี่ยตัวอย่างในแง่ของการติดตามตัวแปรตาม (เช่นตัวเศษอาจมากกว่าตัวหาร)R2

ฉันจะตรวจสอบและตรวจสอบให้แน่ใจว่า SPSS รวมถึงการสกัดกั้นในการถดถอยของคุณ


4
คำสั่งย่อย NOORIGIN ในรหัสของเธอบอกว่ามีการสกัดกั้นในโมเดล
ttnphns

2
แปลกแฮะ, แปลกนะ, มันแปลก ๆ นะ. ฉันจะเดาได้ว่าNOORIGINจะหมายความว่าการสกัดกั้นไม่รวมอยู่ในโมเดลเพียงแค่ปิดชื่อ
Matt O'Brien

6

สิ่งนี้สามารถเกิดขึ้นได้หากคุณมีอนุกรมเวลาที่เป็น Niid และคุณสร้างแบบจำลอง ARIMA ที่ไม่เหมาะสมของแบบฟอร์ม (0,1,0) ซึ่งเป็นรูปแบบการสุ่มเดินแบบแรกที่แตกต่างโดยไม่มีการเบี่ยงเบนดังนั้นความแปรปรวน (ผลรวมของสี่เหลี่ยม - SSE) ของส่วนที่เหลือจะมีค่ามากกว่าความแปรปรวน (ผลรวมของกำลังสอง SSO) ของชุดต้นฉบับ ดังนั้นสมการ 1-SSE / SSO จะให้จำนวนลบเป็น SSE execeedS SSO เราได้เห็นสิ่งนี้เมื่อผู้ใช้พอดีกับโมเดลที่สมมติขึ้นหรือใช้ขั้นตอนที่ไม่เพียงพอในการระบุ / สร้างโครงสร้าง ARIMA ที่เหมาะสม ข้อความที่ใหญ่ขึ้นคือโมเดลสามารถบิดเบือน (คล้ายกับแว่นสายตา) คู่ใจของคุณ หากไม่มีการเข้าถึงข้อมูลของคุณฉันก็จะมีปัญหาในการอธิบายผลลัพธ์ที่ผิดพลาดของคุณ คุณได้นำสิ่งนี้ไปสู่ความสนใจของ IBM หรือไม่?

แนวคิดของแบบจำลองปลอมที่ใช้ต่อต้านการผลิตได้ถูกสะท้อนโดย Harvey Motulsky โพสต์ยอดเยี่ยม Harvey!


1
สถิติ ขอบคุณ ไม่ฉันไม่ได้คุยกับ IBM ข้อมูลไม่ใช่อนุกรมเวลา มันมาจากข้อมูล ณ เวลา
Anne

5
@ แอนน์และอื่น ๆ : เนื่องจากข้อมูลของคุณไม่ใช่อนุกรมเวลาและคุณไม่ได้ใช้ขั้นตอนอนุกรมเวลาโปรดมองข้ามคำตอบของฉัน คนอื่น ๆ ที่เคยเห็นสแควร์อาร์เชิงลบเมื่อเกี่ยวข้องกับอนุกรมเวลาอาจพบว่าโพสต์ของฉันน่าสนใจและมีข้อมูลที่น่าสนใจ คนอื่นอาจไม่น่าเสียดาย
IrishStat

@IrishStat: คุณช่วยเพิ่มลิงค์ไปยังโพสต์ Harvey Motulsky ได้ไหม?
kjetil b halvorsen

ฮาร์วีย์ตอบคำถามที่นี่
IrishStat
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.