ปัญหาที่มีความสัมพันธ์กับการสังเกตที่สมบูรณ์แบบคู่
ในกรณีที่คุณอธิบายปัญหาหลักคือการตีความ เนื่องจากคุณใช้การสังเกตที่สมบูรณ์แบบคู่คุณกำลังวิเคราะห์ชุดข้อมูลที่แตกต่างกันเล็กน้อยสำหรับแต่ละสหสัมพันธ์ขึ้นอยู่กับว่าการสังเกตใดหายไป
ลองพิจารณาตัวอย่างต่อไปนี้:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
สามตัวแปรในชุดข้อมูลที่a
, b
และc
แต่ละคนมีค่าที่ขาดหายไปบางส่วน หากคุณคำนวณความสัมพันธ์กับคู่ของตัวแปรที่นี่คุณจะสามารถใช้กรณีที่ไม่มีค่าที่หายไปสำหรับตัวแปรทั้งสองในคำถาม ในกรณีนี้หมายความว่าคุณจะวิเคราะห์เพียงแค่ช่วง 3 กรณีความสัมพันธ์ระหว่างa
และb
เพียงแค่สามกรณีเป็นครั้งแรกสำหรับความสัมพันธ์ระหว่างb
และc
ฯลฯ
ความจริงที่ว่าคุณกำลังวิเคราะห์กรณีที่แตกต่างอย่างสิ้นเชิงเมื่อคุณคำนวณแต่ละสหสัมพันธ์หมายความว่ารูปแบบผลลัพธ์ของความสัมพันธ์สามารถดูไร้สาระได้ ดู:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
สิ่งนี้ดูเหมือนความขัดแย้งเชิงตรรกะ --- a
และb
มีความสัมพันธ์เชิงบวกอย่างมากและb
และc
ยังมีความสัมพันธ์เชิงบวกอย่างมากดังนั้นคุณคาดหวังa
และc
มีความสัมพันธ์เชิงบวกเช่นกัน แต่จริงๆแล้วมีความสัมพันธ์ที่แข็งแกร่งในทิศทางตรงกันข้าม คุณสามารถเห็นได้ว่าทำไมนักวิเคราะห์จำนวนมากถึงไม่ชอบ
แก้ไขเพื่อรวมคำอธิบายที่เป็นประโยชน์จาก whuber:
โปรดสังเกตว่าส่วนหนึ่งของการโต้แย้งนั้นขึ้นอยู่กับความสัมพันธ์ที่ "แข็งแกร่ง" อาจหมายถึง มันค่อนข้างเป็นไปได้สำหรับa
และb
เช่นเดียวกับb
และc
เป็น "มีความสัมพันธ์เชิงบวกอย่างมาก" ในขณะที่มี "ความสัมพันธ์ที่แข็งแกร่งในทิศทางตรงกันข้าม" ระหว่างa
และc
มี แต่ไม่มากเท่าในตัวอย่างนี้ ประเด็นสำคัญของเรื่องนี้คือเมทริกซ์สหสัมพันธ์ที่ประมาณไว้ (หรือความแปรปรวนร่วม) อาจไม่เป็นบวกแน่นอน: นั่นเป็นวิธีที่เราควรหาปริมาณ "แข็งแกร่ง"
ปัญหากับประเภทของการหายไป
คุณอาจจะคิดกับตัวเองว่า "ก็ไม่เป็นไรใช่ไหมที่จะคิดว่าเซตย่อยของคดีที่ฉันมีให้สำหรับแต่ละสหสัมพันธ์นั้นมีรูปแบบเดียวกันมากขึ้นหรือน้อยลงถ้าฉันมีข้อมูลที่สมบูรณ์" และใช่มันเป็นความจริง --- ไม่มีอะไรผิดปกติกับการคำนวณสหสัมพันธ์บนชุดย่อยของข้อมูลของคุณ (แม้ว่าคุณจะสูญเสียความแม่นยำและพลังแน่นอนเพราะขนาดตัวอย่างที่เล็กลง) ตราบใดที่ข้อมูลที่มีอยู่เป็นแบบสุ่ม ตัวอย่างของข้อมูลทั้งหมดที่จะอยู่ที่นั่นถ้าคุณไม่มีความหายไป
เมื่อการหายตัวไปของการสุ่มล้วนเรียกว่า MCAR (สุ่มโดยสมบูรณ์) ในกรณีดังกล่าวการวิเคราะห์ชุดย่อยของข้อมูลที่ไม่มีความหายไปจะไม่ทำให้เกิดผลลัพธ์ของคุณอย่างเป็นระบบและมันก็ไม่น่าเป็นไปได้ (แต่ไม่ใช่เป็นไปไม่ได้) ที่จะได้รูปแบบสหสัมพันธ์ที่ฉันแสดงในตัวอย่างด้านบน
เมื่อการหายตัวไปของคุณเป็นระบบในทางใดทางหนึ่ง (มักย่อ MAR หรือ NI, การจำแนกการหายไปของระบบที่แตกต่างกันสองประเภท) จากนั้นคุณมีปัญหาที่ร้ายแรงมากขึ้นทั้งในแง่ของการแนะนำอคติในการคำนวณของคุณ ผลลัพธ์ต่อประชากรที่สนใจ (เพราะตัวอย่างที่คุณกำลังวิเคราะห์ไม่ใช่ตัวอย่างแบบสุ่มจากประชากรแม้ว่าชุดข้อมูลทั้งหมดของคุณจะเป็นเช่นนั้น)
มีจำนวนมากของแหล่งข้อมูลที่ดีพร้อมที่จะเรียนรู้เกี่ยวกับข้อมูลที่หายไปและวิธีการที่จะจัดการกับมันมี แต่คำแนะนำของฉันคือ Rubin:
คลาสสิก ,
และบทความล่าสุดเพิ่มเติม