ทำไมเพียร์สันρเป็นเพียงตัวชี้วัดของความสัมพันธ์ที่ละเอียดถี่ถ้วนหากการกระจายข้อต่อเป็นหลายตัวแปรปกติ?


16

การยืนยันนี้เกิดขึ้นจากการตอบคำถามสูงสุดของคำถามนี้ ฉันคิดว่าคำถาม 'ทำไม' แตกต่างกันพอสมควรที่จะรับประกันเธรดใหม่ Googling "การวัดความสัมพันธ์ครบถ้วนสมบูรณ์" ไม่ได้สร้างความนิยมใด ๆ และฉันไม่แน่ใจว่าวลีนั้นหมายถึงอะไร

คำตอบ:


15

อาจเป็นการดีที่สุดที่จะเข้าใจ "การวัดการเชื่อมโยง" ในการแจกแจงหลายตัวแปรเพื่อประกอบด้วยคุณสมบัติทั้งหมดที่ยังคงเหมือนเดิมเมื่อค่าถูกลดขนาดและนำกลับมาใหม่โดยพลการ การทำเช่นนั้นสามารถเปลี่ยนวิธีการและความแปรปรวนเป็นค่าที่อนุญาตทางทฤษฎีใด ๆ (ความแปรปรวนจะต้องเป็นบวก; หมายความว่าสามารถเป็นอะไรก็ได้)

สัมประสิทธิ์สหสัมพันธ์ ("Pearson's ") จากนั้นทำการตรวจสอบการแจกแจงปกติแบบหลายตัวแปร วิธีหนึ่งในการดูสิ่งนี้คือการดูคำจำกัดความของสูตรใด ๆ เช่นสูตรสำหรับฟังก์ชันความหนาแน่นหรือฟังก์ชันคุณลักษณะ พวกเขาเกี่ยวข้องกับเพียงหมายถึงความแปรปรวนและ covariances - แต่ covariances และความสัมพันธ์จะสามารถสรุปได้จากคนอื่นเมื่อคุณรู้ว่าความแปรปรวนρ

ครอบครัวปกติหลายตัวแปรไม่ได้เป็นตระกูลเดียวของการแจกแจงที่มีความสุขกับคุณสมบัตินี้ ตัวอย่างเช่นการแจกแจงพหุตัวแปรใด ๆ(สำหรับองศาอิสระเกิน ) มีเมทริกซ์สหสัมพันธ์ที่กำหนดไว้อย่างดีและถูกกำหนดโดยสมบูรณ์ในสองช่วงแรกเช่นกัน2


ฉันพูดถูกหรือไม่ว่าตามนิยามที่คุณใช้อยู่ที่นี่ความแปรปรวนร่วมจะไม่เป็นตัวชี้วัดความสัมพันธ์หรือไม่? เนื่องจากมันมีแนวโน้มที่จะขยายเมื่อความแปรปรวนขยายตัว
user1205901 - Reinstate Monica

2
ถูกต้อง. แม้ว่าความแปรปรวนร่วมจะเห็นได้ชัดว่าเกี่ยวข้องกับการวัดความเชื่อมโยง แต่ก็ไม่ได้เป็นตัวเดียวเนื่องจากได้รับผลกระทบจากปัจจัยอื่นเช่นกัน
whuber

19

ตัวแปรสามารถเชื่อมโยงในรูปแบบที่สหสัมพันธ์ของเพียร์สันตาบอดได้อย่างสมบูรณ์

ในหลายตัวแปรปกติความสัมพันธ์ของเพียร์สันคือ "ครบถ้วนสมบูรณ์" ในแง่ที่ว่ามีความเป็นไปได้เพียงอย่างเดียวคือดัชนีโดยρ. แต่สำหรับการแจกแจงแบบอื่น (แม้แต่ผู้ที่มีระยะขอบปกติ) ก็สามารถมีความสัมพันธ์ได้โดยไม่มีความสัมพันธ์กัน ต่อไปนี้เป็นแผนการสุ่มสองแบบ 3 ชุด (x, y และ x, z) มันเกี่ยวข้องกันมาก (ถ้าคุณบอกคุณค่าของx- แปรปรวนฉันจะบอกคุณอีกสองคนและถ้าคุณบอกฉัน Y ฉันสามารถบอกคุณได้ Z) แต่พวกเขาทั้งหมดไม่เกี่ยวข้องกัน

ป้อนคำอธิบายรูปภาพที่นี่

นี่เป็นอีกตัวอย่างของตัวแปรที่เกี่ยวข้อง แต่ไม่เกี่ยวข้อง:

ป้อนคำอธิบายรูปภาพที่นี่

(จุดอ้างอิงกำลังทำเกี่ยวกับการแจกแจงแม้ว่าฉันจะอธิบายด้วยข้อมูลที่นี่)

แม้ว่าความแปรปรวนจะสัมพันธ์กันความสัมพันธ์ของเพียร์สันโดยทั่วไปก็ไม่ได้บอกคุณว่าอย่างไร - คุณสามารถรับรูปแบบความสัมพันธ์ที่แตกต่างกันมากซึ่งมีความสัมพันธ์แบบเพียร์สันได้เหมือนกัน (แต่เมื่อตัวแปรนั้น ความสัมพันธ์ที่คุณสามารถบอกได้อย่างชัดเจนว่าความแตกต่างที่เป็นมาตรฐานนั้นเกี่ยวข้องกันอย่างไร)

ดังนั้นสหสัมพันธ์ของเพียร์สันจึงไม่“ หมดแรง” วิธีที่ตัวแปรต่าง ๆ มีความสัมพันธ์กัน - พวกมันสามารถสัมพันธ์กันได้ แต่ไม่เกี่ยวข้องกันหรือพวกมันสามารถสัมพันธ์กันได้ [ความหลากหลายของวิธีที่ความสัมพันธ์ที่ไม่ถูกจับโดยความสัมพันธ์ทั้งหมดสามารถเกิดขึ้นได้ค่อนข้างใหญ่ - แต่ถ้ามีวิธีใดเกิดขึ้นคุณจะไม่สามารถมีหลายตัวแปรได้ตามปกติ อย่างไรก็ตามโปรดทราบว่าไม่มีสิ่งใดในการสนทนาของฉันแสดงถึงสิ่งนี้ (ที่รู้ρ กำหนดความสัมพันธ์ที่เป็นไปได้) กำหนดลักษณะของตัวแปรหลายตัวแม้ว่าคำพูดของชื่อดูเหมือนจะแนะนำ []

(วิธีการทั่วไปในการจัดการกับความสัมพันธ์หลายตัวแปรคือผ่านทาง copulas มีคำถามมากมายในไซต์ที่เกี่ยวข้องกับ copulas คุณอาจพบว่าบางคนมีประโยชน์)


มีข้อมูลในโลกแห่งความจริงด้วยการแจกแจงเช่นนี้หรือไม่?

@ สิ่งที่มีข้อมูลในโลกแห่งความจริงแม้จะมาจากการแจกแจงแบบปกติ? ฉันสงสัยดังนั้น (เนื่องจากระยะขอบของฉันเป็นปกติในแผนภาพ) ที่จะทำให้คำตอบ "ไม่" ทันที จุดของตัวอย่างคือแสดงให้เห็นอย่างชัดเจนว่าทำไมความสัมพันธ์ระหว่างตัวแปรสุ่มไม่ง่ายอย่างที่คิดบางครั้ง (ผู้คนคำนวณความสัมพันธ์ของเพียร์สันเพื่อวัดความสัมพันธ์บ่อยแค่ไหน) และชี้ให้เห็นว่ามีระยะขอบปกติและหลายตัวแปร ปกติจะแตกต่างกัน ตัวอย่างจริงมาก ๆ ที่ความสัมพันธ์ของ Pearson ไม่ได้จับสิ่งที่เกิดขึ้นอย่างแน่นอน
Glen_b -Reinstate Monica

เราไม่พูดเกี่ยวกับการแจกแจงสักครู่ เมื่อเราคำนวณความสัมพันธ์จากจุดบนคลาวด์เราจะถือว่า "รูปทรงเรขาคณิต" (เชิงเส้น, ไฮเพอร์โบลิก, ลอการิทึม, ไซน์, ฯลฯ ) ความสัมพันธ์ในอุดมคติที่ซึ่งจุดในเมฆเบี่ยงเบนเนื่องจากข้อผิดพลาดบางอย่าง ตอนนี้รูปร่างในอุดมคติทั้งหมดที่ฉันได้เห็นเป็นนามธรรมจากข้อมูลจริงที่ต่อเนื่อง (โดยไม่หยุดพัก) และเพิ่มขึ้นเรื่อย ๆ ตามแกนอย่างน้อยหนึ่งแกน (นั่นคือไม่เช่นวงกลม) ความรู้เกี่ยวกับข้อมูลของฉันมี จำกัด ดังนั้นฉันจึงสงสัยว่าในความเป็นจริงมีข้อมูลในโลกแห่งความจริงซึ่งมีความสัมพันธ์ไม่ต่อเนื่องหรือเป็นวงกลม

ตัวอย่างเช่นอาจมีข้อมูลว่าถ้าฉันพล็อตมันจะดูเหมือนเมฆสองจุด หากฉันคำนวณความสัมพันธ์แบบสุ่มสี่สุ่มห้ากับข้อมูลนี้ฉันอาจพบหนึ่งในขณะที่ (หรือดังนั้นฉันได้รับการบอก) พล็อตแสดงให้เห็นอย่างชัดเจนว่าฉันขาดตัวแปรที่ไม่รู้จักที่ทำให้สับสนซึ่งถ้าฉันคิดไว้จะแก้ไขความสัมพันธ์ปลอมใน ข้อมูล. ถ้าอาจารย์ของฉันดูตัวอย่างที่มีรูปร่าง "x" หรือ "y" ของคุณเขาจะบอกฉันว่าฉันมีชุดข้อมูลย่อยสองชุดที่ผสมกัน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.