จะเข้าใจสูตรสัมประสิทธิ์สหสัมพันธ์ได้อย่างไร


15

ทุกคนสามารถช่วยฉันเข้าใจสูตรสหสัมพันธ์ของเพียร์สันได้ไหม ตัวอย่างr = ค่าเฉลี่ยของผลิตภัณฑ์ของคะแนนมาตรฐานของตัวแปรXและYY

ฉันเข้าใจว่าทำไมพวกเขาต้องสร้างมาตรฐานXและYแต่จะเข้าใจผลิตภัณฑ์ของทั้งสองคะแนนได้อย่างไร

สูตรนี้เรียกอีกอย่างว่า "สัมประสิทธิ์สหสัมพันธ์ของโมเมนต์ผลิตภัณฑ์" แต่เหตุผลในการดำเนินการของผลิตภัณฑ์คืออะไร ฉันไม่แน่ใจว่าฉันได้ทำคำถามของฉันชัดเจนหรือไม่ แต่ฉันต้องการที่จะจำสูตรอย่างสังหรณ์ใจ


11
คุณอาจต้องการอ่านกระดาษ "สิบสามวิธีในการดูค่าสัมประสิทธิ์สหสัมพันธ์" (Rodgers & Nicewander 1988) ตามที่ชื่อแสดงถึงจะกล่าวถึงสิบสามมุมมองที่เข้าใจง่ายของสัมประสิทธิ์สหสัมพันธ์ หวังว่าอย่างน้อยจะคลิกหนึ่งครั้ง :)
ครึ่งผ่าน

10
สามารถพบ 13 วิธีได้ที่นี่
Dimitriy V. Masterov

4
วิธีที่ 14 ที่จะเข้าใจความสัมพันธ์ (ในแง่ของผลิตภัณฑ์ของคะแนนซี) ลงมาเพื่อทำความเข้าใจเกี่ยวกับความแปรปรวนของตัวแปรมาตรฐานที่เป็นภาพประกอบที่stats.stackexchange.com/questions/18058/...
whuber

4
... และวิธีที่ 15 ใช้วงกลมที่แสดงที่stats.stackexchange.com/a/46508/919 : รูปสี่เหลี่ยมจัตุรัสที่น้อยที่สุดจะย่อขนาดให้เล็กที่สุดลดพื้นที่ทั้งหมดของวงกลม (มีอย่างน้อยสองวิธีในการทำเช่นนี้เมื่อมีคะแนน ไม่เรียงกันอย่างแม่นยำ) และค่าสัมประสิทธิ์สหสัมพันธ์นั้นเป็นพื้นที่เฉลี่ยของพวกเขา(เมื่อตัวแปรทั้งสองมีมาตรฐาน)
whuber

2
ซ้ำซ้อนที่เป็น
kjetil b halvorsen

คำตอบ:


14

ในความคิดเห็นแนะนำวิธี 15 วิธีในการทำความเข้าใจค่าสัมประสิทธิ์สหสัมพันธ์:


13 วิธีที่กล่าวถึงในบทความของ Rodgers and Nicewander (The American Statisticsian, February 1988)

  1. ฟังก์ชั่นของคะแนนดิบและหมายถึง

    r=(XiX¯)(YiY¯)(XiX¯)2(YiY¯)2.
  2. ความแปรปรวนร่วมที่ได้มาตรฐาน

    r=sXY/(sXsY)

    โดยที่คือความแปรปรวนร่วมตัวอย่างและs Xและs Yเป็นค่าเบี่ยงเบนมาตรฐานตัวอย่างsXYsXsY

  3. ความชันมาตรฐานของเส้นถดถอย

    r=bYXsXsY=bXYsYsX,

    ที่และb X Yเป็นความชันของเส้นถดถอยbYXbXY

  4. ค่าเฉลี่ยเรขาคณิตของสองสมการการถดถอย

    r=±bYXbXY.
  5. สแควร์รูทของอัตราส่วนของสองผลต่าง (สัดส่วนความแปรปรวนที่พิจารณา)

    r=(YiYi^)2(YiY¯)2=SSREGSSTOT=sY^sY.
  6. Cross-Product เฉลี่ยของตัวแปรมาตรฐาน

    r=zXzY/N.
  7. ฟังก์ชั่นของมุมระหว่างเส้นถดถอยสองมาตรฐาน เส้นถดถอยสองเส้น (ของกับXและXเทียบกับY ) มีความสมมาตรเกี่ยวกับเส้นทแยงมุม ให้มุมระหว่างเส้นสองเส้นจะβ แล้วก็YXXYβ

    r=sec(β)±tan(β).
  8. ฟังก์ชั่นของมุมระหว่างเวกเตอร์สองตัวแปร

    r=cos(α).
  9. ความแปรปรวนที่ได้รับการลดหย่อนของความแตกต่างระหว่างคะแนนมาตรฐาน การให้เป็นความแตกต่างระหว่างตัวแปรXและYมาตรฐานสำหรับการสังเกตแต่ละครั้งzYzXXY

    r=1s(zYzX)2/2=s(zY+zX)2/21.
  10. ประมาณจากกฎ "บอลลูน"

    r1(h/H)2

    โดยที่คือช่วงแนวตั้งของScatterplot X - Y ทั้งหมดและhคือช่วงผ่าน "จุดศูนย์กลางของการกระจายบนแกนX " (นั่นคือผ่านจุดที่มีค่าเฉลี่ย)HXYhX

  11. ในส่วนที่เกี่ยวข้องกับรูปไข่ของ Bivariate แห่ง Isoconcentration

    r=D2d2D2+d2

    โดยที่และdเป็นความยาวแกนหลักและรองตามลำดับ rยังเท่ากับความลาดเอียงของเส้นสัมผัสของ isocontour (ในพิกัดมาตรฐาน) ณ จุดที่เส้นชั้นความยาวข้ามแกนแนวตั้งDdr

  12. ฟังก์ชั่นของสถิติทดสอบจากการทดลองที่ออกแบบมา

    r=tt2+n2

    ที่เป็นสถิติทดสอบในสองอิสระตัวอย่างทีทดสอบสำหรับการทดสอบการออกแบบที่มีสองเงื่อนไขการรักษา (กำหนดเป็นX = 0 , 1 ) และnเป็นจำนวนรวมของการสังเกตในสองกลุ่มการรักษาttX=0,1n

  13. อัตราส่วนของสองวิธี สมมติว่าค่าความแปรปรวนแบบ bivariate และทำให้ตัวแปรเป็นมาตรฐาน เลือกขนาดใหญ่บางพลคุ้มค่าของX แล้วก็XcX

    r=E(Y|X>Xc)E(X|X>Xc).

(ส่วนใหญ่จะเป็นคำต่อคำโดยมีการเปลี่ยนแปลงเล็กน้อยในสัญกรณ์)

วิธีการอื่น ๆ (อาจเป็นต้นฉบับของเว็บไซต์นี้) คือ

  • ผ่านแวดวง คือความชันของเส้นถดถอยในพิกัดได้มาตรฐาน บรรทัดนี้สามารถกำหนดลักษณะได้หลายวิธีรวมถึงรูปทรงเรขาคณิตเช่นการลดพื้นที่ทั้งหมดของวงกลมที่ลากระหว่างบรรทัดและจุดข้อมูลในรูปแบบกระจายr

  • โดยการระบายสีรูปสี่เหลี่ยมผืนผ้า ความแปรปรวนร่วมสามารถประเมินได้โดยการระบายสีรูปสี่เหลี่ยมผืนผ้าในสแกตเตอร์ล็อต (นั่นคือโดยการสรุปพื้นที่ที่เซ็นชื่อของรูปสี่เหลี่ยม) เมื่อ scatterplot เป็นมาตรฐานสุทธิจำนวนสี - รวมข้อผิดพลาดลงนาม - เป็นRr


2
ขอบคุณ @Avraham ที่พยายามนำเธรดที่ไม่ได้รับคำตอบนี้มาปิดบางส่วนโดยโพสต์คำตอบที่นี่
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.