สัมประสิทธิ์การตัดสินใจ (


21

ฉันต้องการเข้าใจความคิดของอย่างเต็มที่อธิบายถึงจำนวนของการเปลี่ยนแปลงระหว่างตัวแปร คำอธิบายทุกเว็บเป็นบิตกลและป้าน ฉันต้องการที่จะ "รับ" แนวคิดไม่ใช่แค่ใช้ตัวเลขโดยอัตโนมัติR2

เช่นชั่วโมงที่เรียนเทียบกับคะแนนทดสอบ

R = .8

R2 = .64

  • ดังนั้นสิ่งนี้หมายความว่าอย่างไร
  • 64% ของคะแนนความแปรปรวนสามารถอธิบายเป็นชั่วโมงได้หรือไม่
  • เราจะรู้ได้อย่างไรว่าเพียงแค่ยกกำลังสอง?

คำถามของคุณไม่ได้เกี่ยวกับ R VS R-ตาราง (คุณเข้าใจว่า ) มันเป็นเรื่องเกี่ยวกับการตีความของ 2 โปรดจัดระเบียบชื่อใหม่ r 20.82=0.64r2
robin girard

คำถามที่คล้ายกัน: stats.stackexchange.com/questions/28139/…
Abe

@ amoeba เห็นด้วยฉันดึงแท็ก
Brett

คุณต้องมีเพื่อตรวจสอบความสำคัญ นอกจากนี้ยังเห็นstats.stackexchange.com/a/265924/99274 n
Carl

คำตอบ:


27

เริ่มต้นด้วยแนวคิดพื้นฐานของการเปลี่ยนแปลง โมเดลเริ่มต้นของคุณคือผลรวมของการเบี่ยงเบนกำลังสองจากค่าเฉลี่ย ค่า R ^ 2 คือสัดส่วนของความแปรปรวนที่คำนวณโดยการใช้ตัวแบบทางเลือก ตัวอย่างเช่น R-squared บอกคุณว่าความแปรปรวนใน Y ที่คุณสามารถกำจัดได้โดยการรวมระยะทางยกกำลังสองจากเส้นการถดถอยมากกว่าค่าเฉลี่ย

ฉันคิดว่านี่ชัดเจนอย่างสมบูรณ์หากเราคิดถึงปัญหาการถดถอยอย่างง่าย พิจารณาแผนการกระจายทั่วไปที่คุณมีตัวทำนาย X ตามแกนนอนและการตอบสนอง Y ตามแกนตั้ง

ค่าเฉลี่ยคือเส้นแนวนอนบนพล็อตที่ Y คงที่ ความแปรปรวนทั้งหมดใน Y คือผลรวมของความแตกต่างกำลังสองระหว่างค่าเฉลี่ยของ Y และจุดข้อมูลแต่ละจุด มันคือระยะห่างระหว่างเส้นเฉลี่ยกับจุดแต่ละจุดยกกำลังสองและรวมกัน

นอกจากนี้คุณยังสามารถคำนวณการวัดความแปรปรวนอีกครั้งหลังจากที่คุณมีเส้นถดถอยจากโมเดล นี่คือความแตกต่างระหว่างแต่ละจุด Y กับเส้นการถดถอย แทนที่จะเป็น (Y - ค่าเฉลี่ย) กำลังสองเราได้ (Y - จุดบนเส้นการถดถอย) ยกกำลังสอง

หากเส้นการถดถอยนั้นเป็นแนวนอนเราจะได้ระยะทางรวมน้อยกว่าเมื่อเราใช้เส้นการถดถอยที่พอดีนี้แทนที่จะเป็นค่าเฉลี่ยนั่นคือมันมีการเปลี่ยนแปลงที่ไม่สามารถอธิบายได้น้อยกว่า อัตราส่วนระหว่างรูปแบบเพิ่มเติมที่อธิบายและรูปแบบดั้งเดิมคือ R ^ 2 ของคุณ มันเป็นสัดส่วนของความแปรปรวนดั้งเดิมในการตอบกลับของคุณที่อธิบายโดยการปรับเส้นการถดถอยให้เหมาะสม

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือโค้ด R บางตัวสำหรับกราฟที่มีค่าเฉลี่ย, เส้นถดถอยและเซกเมนต์จากเส้นถดถอยไปยังแต่ละจุดเพื่อช่วยให้มองเห็นได้:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)

> อัตราส่วนระหว่างรูปแบบที่อธิบายและรูปแบบดั้งเดิมคือ R ^ 2 ของคุณลองดูว่าฉันได้สิ่งนี้ หากรูปแบบดั้งเดิมจากผลรวมเฉลี่ย 100 และรูปแบบการถดถอยรวมทั้งหมด 20 ดังนั้นอัตราส่วน = 20/100 = .2 คุณกำลังพูดว่า R ^ 2 = .2 b / c 20% ของความแปรปรวนเฉลี่ย (สีแดง) สำหรับโดยรูปแบบที่อธิบายไว้ (สีเขียว) (ในกรณีของ r = 1) หากรูปแบบเดิมมีผลรวม 50 และรูปแบบการถดถอยรวมทั้งหมด 0 ดังนั้นอัตราส่วน = 0/50 = 0 = 0% ของการเปลี่ยนแปลงจากค่าเฉลี่ย ( สีแดง) ถูกอธิบายโดยการเปลี่ยนแปลงที่อธิบายไว้ (สีเขียว) ฉันคาดหวังว่า R ^ 2 จะเป็น 1 ไม่ใช่ 0
JackOfAll

1
R ^ 2 = 1- (SSR / SST) หรือ (SST-SSR) / SST ดังนั้นในตัวอย่างของคุณ R ^ 2 = .80 และ 1.00 ความแตกต่างระหว่างเส้นการถดถอยและแต่ละจุดนั้นไม่ได้อธิบายไว้อย่างพอดี ส่วนที่เหลือเป็นสัดส่วนที่อธิบาย มิเช่นนั้นถูกต้อง
เบร็ท

ฉันแก้ไขย่อหน้าสุดท้ายเพื่อพยายามทำให้ชัดเจนขึ้นเล็กน้อย แนวคิด (และการคำนวณ) ทั้งหมดที่คุณต้องการอยู่ที่นั่น มันอาจจะชัดเจนกว่าที่จะเพิ่มสูตรจริงและอ้างถึง SST SSE และ SSR แต่จากนั้นฉันก็พยายามที่จะเข้าใจแนวคิด
Brett

เช่น: R ^ 2 คือสัดส่วนของความแปรปรวนทั้งหมดจากค่าเฉลี่ย (SST) นั่นคือความแตกต่าง b / w ของค่าการถดถอยที่คาดหวังและค่าเฉลี่ย (SSE) ในตัวอย่างชั่วโมงและคะแนนค่าการถดถอยจะเป็นคะแนนการทดสอบที่คาดหวังจากความสัมพันธ์กับชั่วโมงที่เรียน การเปลี่ยนแปลงเพิ่มเติมใด ๆ จากนั้นมาจาก SSR สำหรับจุดที่กำหนดชั่วโมงการศึกษาตัวแปร / การถดถอยอธิบาย x% ของการเปลี่ยนแปลงทั้งหมดจากค่าเฉลี่ย (SST) ด้วยค่า r สูง "อธิบาย" เป็นเปอร์เซ็นต์ที่ยิ่งใหญ่ของ SST เมื่อเทียบกับ SSR ด้วยค่า r ต่ำ "อธิบาย" เป็นเปอร์เซ็นต์ที่ต่ำกว่าของ SST เมื่อเทียบกับ SSR
JackOfAll

@BrettMagill ผมคิดว่าการเชื่อมโยงไปยังภาพที่เสีย ...
การ์เร็ต

6

การสาธิตทางคณิตศาสตร์ของความสัมพันธ์ระหว่างสองอยู่ที่นี่: ความสัมพันธ์และสี่เหลี่ยมอย่างน้อยการวิเคราะห์การถดถอยเพียร์สัน

ฉันไม่แน่ใจว่ามีรูปทรงเรขาคณิตหรือสัญชาตญาณอื่น ๆ ที่สามารถให้นอกเหนือจากคณิตศาสตร์ แต่ถ้าฉันสามารถคิดได้ฉันจะอัปเดตคำตอบนี้

ปรับปรุง: สัญชาตญาณทางเรขาคณิต

xYY

Y=x β+ε

Y1,Y2x1,x2

ข้อความ ALT http://a.imageshack.us/img202/669/linearregression1.png

βx βYβxβ^βYY^=x β^

Y=Y^+ε^

YY^ε^β^

βx βε^

YYxYY12+Y22YY^Y^

ตามทฤษฎีบทพีทาโกรัสเรา:

Y2=Y^2+ε^2

xY^2Y2โอs(θ)=Y^Y

ดังนั้นเราจึงมีความสัมพันธ์ที่ต้องการ:

Yx

หวังว่าจะช่วย


ฉันซาบซึ้งที่คุณพยายามช่วยเหลือ แต่น่าเสียดายที่สิ่งนี้ยิ่งทำให้เรื่องแย่ลง 10 เท่า คุณแนะนำตรีโกณมิติเพื่ออธิบาย r ^ 2 หรือไม่? คุณฉลาดเกินกว่าจะเป็นครูที่ดีได้!
JackOfAll

ฉันคิดว่าคุณอยากรู้ว่าทำไมความสัมพันธ์ ^ 2 = R ^ 2 ไม่ว่าในกรณีใดวิธีการต่าง ๆ ในการทำความเข้าใจแนวคิดเดียวกันจะช่วยหรืออย่างน้อยก็เป็นมุมมองของฉัน

3

ถดถอยด้วยตาแอปเพล็อาจจะมีการใช้ถ้าคุณกำลังพยายามที่จะพัฒนาสัญชาตญาณบางอย่าง

มันช่วยให้คุณสร้างข้อมูลแล้วเดาค่าสำหรับRซึ่งคุณสามารถเปรียบเทียบกับค่าจริงได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.