จะนำเสนอผลกำไรในรูปแบบต่าง ๆ ที่อธิบายได้อย่างไรเนื่องจากสหสัมพันธ์ของ Y และ X เป็นอย่างไร?


11

ฉันกำลังค้นหาวิธี (มองเห็น) อธิบายความสัมพันธ์เชิงเส้นอย่างง่ายกับนักเรียนปีแรก

วิธีการมองภาพแบบดั้งเดิมคือการให้พล็อตกระจาย Y ~ X ที่มีเส้นถดถอยตรง

เมื่อเร็ว ๆ นี้ฉันมาด้วยความคิดที่จะขยายกราฟิกประเภทนี้โดยการเพิ่มพล็อตอีก 3 ภาพทิ้งฉันไว้กับ: พล็อตกระจายของ y ~ 1 จากนั้น y ~ x, ที่เหลือ (y ~ x) ~ x และสุดท้าย ของที่เหลือ (y ~ x) ~ 1 (อยู่กึ่งกลางค่ากลาง)

นี่คือตัวอย่างของการสร้างภาพข้อมูล: ข้อความแสดงแทน

และรหัส R เพื่อผลิตมัน:

set.seed(345)
x <- runif(50) * 10
y <- x +rnorm(50)


layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10))
plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)
plot(y~x, ylab = "", )
abline(lm(y~x), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~x, ylab = "", ylim = range(y))
abline(h =mean(y), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~rep(1, length(y)), axes = F, xlab = "", ylab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)

ซึ่งทำให้ฉันมีคำถาม: ฉันขอขอบคุณข้อเสนอแนะใด ๆเกี่ยวกับวิธีการปรับปรุงกราฟนี้ (ด้วยข้อความเครื่องหมายหรือการสร้างภาพข้อมูลที่เกี่ยวข้องประเภทอื่น ๆ ) การเพิ่มรหัส R ที่เกี่ยวข้องก็จะดีเช่นกัน

ทิศทางเดียวคือการเพิ่มข้อมูลของ R ^ 2 (ไม่ว่าจะเป็นข้อความหรือโดยการเพิ่มบรรทัดที่แสดงขนาดของความแปรปรวนก่อนและหลังการนำ x) ตัวเลือกอื่นคือการเน้นจุดหนึ่งและแสดงว่า "ดีขึ้นกว่าเดิม" อธิบาย "ขอบคุณบรรทัดการถดถอย ข้อมูลใด ๆ ที่จะได้รับการชื่นชม


1
ในขณะเดียวกันคุณแสดงให้เห็นว่าการถดถอยเชิงเส้นที่ดีสามารถแสดงให้ผู้ชมเห็นได้อย่างไรว่ามันล้มเหลวอย่างไรในสถานการณ์ที่ความสัมพันธ์ไม่ได้อธิบายเป็นเส้นตรง:require(mlbench) ; cor( mlbench.smiley()$x ); plot(mlbench.smiley()$x)
DWIN

จะทำ dwin ... :-)
Tal Galili

คำตอบ:


4

นี่คือคำแนะนำบางส่วน (เกี่ยวกับพล็อตของคุณไม่ใช่เกี่ยวกับวิธีที่ฉันจะแสดงให้เห็นถึงการวิเคราะห์ความสัมพันธ์ / การถดถอย):

  • แผนการแปลงสองแบบที่คุณแสดงในระยะขอบด้านซ้ายและด้านขวาอาจทำให้การเรียกใช้rug()ง่ายขึ้น
  • ฉันพบข้อมูลเพิ่มเติมเพื่อแสดงพล็อตความหนาแน่นของและหรือ boxplot ที่มีความเสี่ยงที่จะนำมาซึ่งความคิดของข้อสันนิษฐานสองทางซึ่งไม่มีเหตุผลในบริบทนี้YXY
  • นอกจากเส้นการถดถอยมันมีค่าที่จะแสดงการประมาณค่าแบบไม่อิงพารามิเตอร์ของแนวโน้มเช่นเหลือง (นี่เป็นวิธีปฏิบัติที่ดีและให้ข้อมูลเกี่ยวกับเส้นตรงที่ไม่เป็นไปได้ของท้องถิ่น)
  • อาจมีการเน้นจุด (ด้วยสีหรือขนาดที่แตกต่างกัน) ตามเอฟเฟ็กต์ Leverage หรือระยะทาง Cook เช่นใด ๆ ของมาตรการเหล่านั้นที่แสดงว่าค่าของแต่ละบุคคลมีอิทธิพลต่อเส้นการถดถอยโดยประมาณอย่างไร ฉันจะแสดงความคิดเห็นที่ @ DWin เป็นครั้งที่สองและฉันคิดว่าเป็นการดีกว่าที่จะเน้นว่าคะแนนแต่ละจุด "ลดความดี" ของความพอดีหรือทำให้ออกจากสมมติฐานเชิงเส้น

จากบันทึกย่อกราฟนี้ถือว่า X และ Y เป็นข้อมูลที่ไม่ได้จับคู่กันมิฉะนั้นฉันจะติดอยู่กับแผน Bland-Altman (เทียบกับ ) นอกเหนือจาก scatterplot( X + Y ) / 2(XY)(X+Y)/2


1

ไม่ตอบคำถามของคุณแน่นอน แต่สิ่งต่อไปนี้น่าสนใจโดยการแสดงภาพหลุมพรางที่เป็นไปได้ของความสัมพันธ์เชิงเส้นตามคำตอบจากstackoveflow :

par(mfrow=c(2,1))

set.seed(1)
x <- rnorm(1000)
y <- rnorm(1000)
plot(y~x, ylab = "", main=paste('1000 random values (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

x <- c(x, 500)
y <- c(y, 500)
cor(x,y)
plot(y~x, ylab = "", main=paste('1000 random values and (500, 500) (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

ข้อความแสดงแทน

@Gavin Simpsonและคำตอบของ @ bill_080ยังรวมถึงแผนการที่ดีของความสัมพันธ์ในหัวข้อเดียวกัน


1

ฉันมีสองแผนสองแผงทั้งคู่มีพล็อต xy ด้านซ้ายและฮิสโตแกรมด้านขวา ในพล็อตแรกเส้นแนวนอนถูกวางที่ค่าเฉลี่ยของ y และเส้นขยายจากจุดนี้ไปยังแต่ละจุดแทนค่าส่วนที่เหลือของค่า y จากค่าเฉลี่ย ฮิสโตแกรมที่มีเพียงแค่แปลงส่วนที่เหลือเหล่านี้ จากนั้นในคู่ต่อไปพล็อต xy มีเส้นที่แสดงถึงความพอดีเชิงเส้นและเส้นแนวตั้งอีกครั้งที่แสดงถึงส่วนที่เหลือซึ่งจะแสดงในฮิสโตแกรมทางด้านขวา รักษาแกน x ของฮิสโตแกรมให้คงที่เพื่อเน้นการเลื่อนไปยังค่าที่ต่ำกว่าในการพอดีเชิงเส้นสัมพันธ์กับค่าเฉลี่ย "พอดี"


1

ฉันคิดว่าสิ่งที่คุณเสนอนั้นดี แต่ฉันจะทำในสามตัวอย่างที่แตกต่างกัน

1) X และ Y ไม่เกี่ยวข้องกันอย่างสมบูรณ์ เพียงแค่ลบ "x" จากรหัส r ที่สร้าง y (y1 <-rnorm (50))

2) ตัวอย่างที่คุณโพสต์ (y2 <- x + rnorm (50))

3) X คือ Y เป็นตัวแปรเดียวกัน เพียงแค่ลบ "rnorm (50)" จากรหัส r ที่สร้าง y (y3 <-x)

สิ่งนี้จะแสดงให้เห็นชัดเจนยิ่งขึ้นว่าการเพิ่มความสัมพันธ์ลดความแปรปรวนในส่วนที่เหลือได้อย่างไร คุณเพียงแค่ต้องตรวจสอบให้แน่ใจว่าแกนตั้งไม่เปลี่ยนแปลงกับแต่ละพล็อตซึ่งอาจเกิดขึ้นหากคุณใช้การปรับสเกลเริ่มต้น

คุณสามารถเปรียบเทียบสามแปลง r1 กับ x, r2 vs x และ r3 vs x ฉันใช้ "r" เพื่อระบุสิ่งตกค้างจากความพอดีโดยใช้ y1, y2 และ y3 ตามลำดับ

ทักษะ R ของฉันในการวางแผนค่อนข้างสิ้นหวังดังนั้นฉันจึงไม่สามารถให้ความช่วยเหลือได้ที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.