ข้อมูลร่วมกันกับความสัมพันธ์


คำตอบ:


77

ลองพิจารณาแนวคิดพื้นฐานหนึ่งของสหสัมพันธ์เชิงเส้นความแปรปรวนร่วม (ซึ่งก็คือสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันว่า "ไม่ได้มาตรฐาน") สำหรับตัวแปรสุ่มสองตัวที่แยกกันและY ที่มีฟังก์ชั่นมวลความน่าจะเป็นp ( x ) , p ( y )และข้อต่อ pmf p ( x , y ) ที่เรามีXYp(x)p(y)p(x,y)

Cov(X,Y)=E(XY)E(X)E(Y)=x,yp(x,y)xy(xp(x)x)(yp(y)y)

Cov(X,Y)=x,y[p(x,y)p(x)p(y)]xy

ข้อมูลร่วมกันระหว่างทั้งสองถูกกำหนดให้เป็น

I(X,Y)=E(lnp(x,y)p(x)p(y))=x,yp(x,y)[lnp(x,y)lnp(x)p(y)]

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

Cov(X,Y)I(X,Y)

I(X,Y)Cov(X,Y)

ดังนั้นทั้งสองจึงไม่เป็นปฏิปักษ์กัน - มันเป็นส่วนประกอบที่อธิบายความแตกต่างของความสัมพันธ์ระหว่างตัวแปรสุ่มสองตัว หนึ่งสามารถแสดงความคิดเห็นว่าข้อมูลร่วมกัน "ไม่เกี่ยวข้อง" ไม่ว่าจะเป็นความสัมพันธ์เชิงเส้นหรือไม่ในขณะที่ความแปรปรวนอาจเป็นศูนย์และตัวแปรอาจยังคงขึ้นอยู่กับสุ่ม ในอีกทางหนึ่งความแปรปรวนร่วมสามารถคำนวณได้โดยตรงจากตัวอย่างข้อมูลโดยไม่จำเป็นต้องรู้ว่ามีการแจกแจงความน่าจะเป็นที่เกี่ยวข้อง (เนื่องจากเป็นการแสดงออกที่เกี่ยวข้องกับช่วงเวลาของการแจกแจง) ในขณะที่ข้อมูลร่วมต้องการความรู้เกี่ยวกับการแจกแจง ไม่ทราบเป็นงานที่ละเอียดอ่อนและไม่แน่นอนมากขึ้นเมื่อเทียบกับการประมาณค่าความแปรปรวนร่วม


@ Alecos Papadopoulos; ขอบคุณสำหรับคำตอบที่ครอบคลุมของคุณ
SaZa

1
ฉันถามตัวเองด้วยคำถามเดียวกัน แต่ฉันไม่เข้าใจคำตอบทั้งหมด @ Alecos Papadopoulos: ฉันเข้าใจว่าการพึ่งพาการวัดนั้นไม่เหมือนกันโอเค ดังนั้นสำหรับความสัมพันธ์แบบไหนระหว่าง X และ Y เราควรต้องการข้อมูลร่วมกันฉัน (X, Y) มากกว่า Cov (X, Y)? ผมมีตัวอย่างเช่นเมื่อเร็ว ๆ นี้ที่แปลก Y ก็เกือบจะเป็นเส้นตรงขึ้นอยู่กับ X (มันก็เกือบเป็นเส้นตรงในการวางแผนกระจาย) และCorr (X, Y) เท่ากับ 0.87ในขณะที่ฉัน (X, Y) เท่ากับ 0.45 ดังนั้นมีบางกรณีที่ควรเลือกตัวบ่งชี้มากกว่าตัวบ่งชี้ตัวอื่น ขอบคุณสำหรับการช่วยเหลือ!
Gandhi91

XH(X)

นี่เป็นคำตอบที่ดีและชัดเจนมาก ฉันสงสัยว่าถ้าคุณมีตัวอย่างที่พร้อมใช้งานโดยที่ cov คือ 0 แต่ pmi ไม่ใช่
Thang

@thang ไม่ได้จริงๆ เราควรหาตัวอย่างที่ความแปรปรวนร่วมเป็นศูนย์และในเวลาเดียวกันก็มีการแจกแจงร่วมเพื่อคำนวณข้อมูลร่วมกัน (และการกระจายข้อต่อจะไม่เป็นผลคูณของระยะขอบเพราะเราต้องการให้ตัวแปรไม่เป็น อิสระ).
Alecos Papadopoulos

7

ข้อมูลร่วมกันคือระยะห่างระหว่างการแจกแจงความน่าจะเป็นสองแบบ ความสัมพันธ์เป็นระยะทางเชิงเส้นระหว่างตัวแปรสุ่มสองตัว

คุณสามารถมีข้อมูลร่วมกันระหว่างความน่าจะเป็นใด ๆ ที่กำหนดไว้สำหรับชุดของสัญลักษณ์ในขณะที่คุณไม่สามารถมีความสัมพันธ์กันระหว่างสัญลักษณ์ที่ไม่สามารถแมปเข้ากับพื้นที่ R ^ N โดยธรรมชาติได้

ในทางกลับกันข้อมูลร่วมไม่ได้ตั้งสมมติฐานเกี่ยวกับคุณสมบัติบางอย่างของตัวแปร ... หากคุณกำลังทำงานกับตัวแปรที่ราบรื่นความสัมพันธ์อาจบอกคุณเกี่ยวกับพวกเขามากขึ้น ตัวอย่างเช่นหากความสัมพันธ์ของพวกเขาคือเสียงเดียว

หากคุณมีข้อมูลก่อนหน้านี้คุณอาจเปลี่ยนจากที่หนึ่งไปยังอีกที่หนึ่งได้ ในเวชระเบียนคุณสามารถแมปสัญลักษณ์ "มีจีโนไทป์ A" เป็น 1 และ "ไม่มีจีโนไทป์ A" เป็น 0 และ 1 ค่าและดูว่าสิ่งนี้มีความสัมพันธ์ในรูปแบบหนึ่งกับความเจ็บป่วยหรืออื่น ในทำนองเดียวกันคุณสามารถใช้ตัวแปรที่ต่อเนื่อง (เช่นเงินเดือน) แปลงเป็นหมวดหมู่ที่ไม่ต่อเนื่องและคำนวณข้อมูลร่วมกันระหว่างหมวดหมู่เหล่านั้นและสัญลักษณ์ชุดอื่น


ความสัมพันธ์ไม่ใช่ฟังก์ชันเชิงเส้น มันควรจะพูดว่าความสัมพันธ์เป็นตัวชี้วัดความสัมพันธ์เชิงเส้นระหว่างตัวแปรสุ่มหรือไม่?
Matthew Gunn

1
ฉันคิดว่า: "คุณสามารถมีข้อมูลร่วมกันระหว่างความน่าจะเป็นที่กำหนดไว้สำหรับสัญลักษณ์หนึ่งชุดในขณะที่คุณไม่สามารถมีความสัมพันธ์กันระหว่างสัญลักษณ์ที่ไม่สามารถแมปเข้ากับพื้นที่ R ^ N ได้" Corr ไม่สมเหตุสมผลถ้าคุณไม่มีตัวแปรสุ่มสมบูรณ์ แม้กระนั้น pmi ก็สมเหตุสมผลแม้มีเพียง pdf และ sigma (ช่องว่าง) นี่คือเหตุผลว่าทำไมในแอปพลิเคชันจำนวนมากที่ RVs ไม่สมเหตุสมผล (เช่น NLP) จึงใช้ pmi
Thang

6

นี่คือตัวอย่าง

ในทั้งสองแปลงค่าสัมประสิทธิ์สหสัมพันธ์เป็นศูนย์ แต่เราสามารถได้รับข้อมูลร่วมกันสูงแม้ว่าความสัมพันธ์จะเป็นศูนย์

ในตอนแรกฉันเห็นว่าถ้าฉันมีค่า X สูงหรือต่ำฉันก็น่าจะได้ค่า Y สูง แต่ถ้าค่าของ X อยู่ในระดับปานกลางฉันจะมีค่าต่ำของ Y พล็อตแรก เก็บข้อมูลเกี่ยวกับข้อมูลร่วมที่แบ่งปันโดย X และ Y ในพล็อตที่สอง X ไม่ได้บอกอะไรเลยเกี่ยวกับ Y

ข้อมูลร่วมกันเทียบกับความสัมพันธ์


4

แม้ว่าทั้งคู่จะเป็นตัววัดความสัมพันธ์ระหว่างคุณลักษณะ แต่ MI ก็กว้างกว่าสัมประสิทธิ์สหสัมพันธ์ (CE) เพราะไซน์ CE นั้นสามารถพิจารณาความสัมพันธ์เชิงเส้นได้ แต่ MI ก็สามารถจัดการความสัมพันธ์ที่ไม่ใช่เชิงเส้นได้


ที่ไม่เป็นความจริง. สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันถือว่าเป็นค่าปกติและค่าความเป็นเชิงเส้นของตัวแปรสุ่มสองตัวเลือกทางเลือกอื่น ๆ เช่นสเปียร์แมนที่ไม่ใช่พารามิเตอร์ มีเพียงความน่าเบื่อระหว่าง rvs สองตัวเท่านั้น
meow
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.