มีปัญหาร้ายแรงหรือไม่ในการลดการสังเกตด้วยค่าที่หายไปเมื่อคำนวณเมทริกซ์สหสัมพันธ์?


12

ฉันมีชุดข้อมูลขนาดใหญ่ที่มีตัวแปร 2500 ตัวและชอบการสังเกต 142 ครั้ง

ฉันต้องการเรียกใช้ความสัมพันธ์ระหว่าง Variable X และส่วนที่เหลือของตัวแปร แต่สำหรับคอลัมน์จำนวนมากมีรายการขาดหายไป

ฉันพยายามทำสิ่งนี้ใน R โดยใช้อาร์กิวเมนต์ "pairwise-complete" ( use=pairwise.complete.obs) และมันแสดงความสัมพันธ์จำนวนมาก แต่บางคนใน StackOverflow โพสต์ลิงก์ไปยังบทความนี้http://bwlewis.github.io/covar/missing.htmlและทำให้วิธีการ "จับคู่แบบเต็ม" ใน R ดูใช้ไม่ได้

คำถามของฉัน: ฉันจะรู้ได้อย่างไรว่าเมื่อใดที่เหมาะสมที่จะใช้ตัวเลือก "pairwise-complete"

ฉันuse = complete.obsกลับมาno complete element pairsแล้วดังนั้นถ้าคุณสามารถอธิบายสิ่งที่มีความหมายเช่นนั้นก็จะดี


4
เรื่องราวคลาสสิคที่ควรรู้คือเรื่องราวของอับราฮัมวัลด์และคำถามที่ว่าจะเพิ่มเกราะให้กับเครื่องบินในสงครามโลกครั้งที่สองได้อย่างไร สิ่งสำคัญคือต้องมีความเข้าใจว่าทำไมข้อมูลของคุณถึงขาดหายไป
Matthew Gunn

คำตอบ:


11

ปัญหาที่มีความสัมพันธ์กับการสังเกตที่สมบูรณ์แบบคู่

ในกรณีที่คุณอธิบายปัญหาหลักคือการตีความ เนื่องจากคุณใช้การสังเกตที่สมบูรณ์แบบคู่คุณกำลังวิเคราะห์ชุดข้อมูลที่แตกต่างกันเล็กน้อยสำหรับแต่ละสหสัมพันธ์ขึ้นอยู่กับว่าการสังเกตใดหายไป

ลองพิจารณาตัวอย่างต่อไปนี้:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

สามตัวแปรในชุดข้อมูลที่a, bและcแต่ละคนมีค่าที่ขาดหายไปบางส่วน หากคุณคำนวณความสัมพันธ์กับคู่ของตัวแปรที่นี่คุณจะสามารถใช้กรณีที่ไม่มีค่าที่หายไปสำหรับตัวแปรทั้งสองในคำถาม ในกรณีนี้หมายความว่าคุณจะวิเคราะห์เพียงแค่ช่วง 3 กรณีความสัมพันธ์ระหว่างaและbเพียงแค่สามกรณีเป็นครั้งแรกสำหรับความสัมพันธ์ระหว่างbและcฯลฯ

ความจริงที่ว่าคุณกำลังวิเคราะห์กรณีที่แตกต่างอย่างสิ้นเชิงเมื่อคุณคำนวณแต่ละสหสัมพันธ์หมายความว่ารูปแบบผลลัพธ์ของความสัมพันธ์สามารถดูไร้สาระได้ ดู:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

สิ่งนี้ดูเหมือนความขัดแย้งเชิงตรรกะ --- aและbมีความสัมพันธ์เชิงบวกอย่างมากและbและcยังมีความสัมพันธ์เชิงบวกอย่างมากดังนั้นคุณคาดหวังaและcมีความสัมพันธ์เชิงบวกเช่นกัน แต่จริงๆแล้วมีความสัมพันธ์ที่แข็งแกร่งในทิศทางตรงกันข้าม คุณสามารถเห็นได้ว่าทำไมนักวิเคราะห์จำนวนมากถึงไม่ชอบ

แก้ไขเพื่อรวมคำอธิบายที่เป็นประโยชน์จาก whuber:

โปรดสังเกตว่าส่วนหนึ่งของการโต้แย้งนั้นขึ้นอยู่กับความสัมพันธ์ที่ "แข็งแกร่ง" อาจหมายถึง มันค่อนข้างเป็นไปได้สำหรับaและbเช่นเดียวกับbและcเป็น "มีความสัมพันธ์เชิงบวกอย่างมาก" ในขณะที่มี "ความสัมพันธ์ที่แข็งแกร่งในทิศทางตรงกันข้าม" ระหว่างaและcมี แต่ไม่มากเท่าในตัวอย่างนี้ ประเด็นสำคัญของเรื่องนี้คือเมทริกซ์สหสัมพันธ์ที่ประมาณไว้ (หรือความแปรปรวนร่วม) อาจไม่เป็นบวกแน่นอน: นั่นเป็นวิธีที่เราควรหาปริมาณ "แข็งแกร่ง"

ปัญหากับประเภทของการหายไป

คุณอาจจะคิดกับตัวเองว่า "ก็ไม่เป็นไรใช่ไหมที่จะคิดว่าเซตย่อยของคดีที่ฉันมีให้สำหรับแต่ละสหสัมพันธ์นั้นมีรูปแบบเดียวกันมากขึ้นหรือน้อยลงถ้าฉันมีข้อมูลที่สมบูรณ์" และใช่มันเป็นความจริง --- ไม่มีอะไรผิดปกติกับการคำนวณสหสัมพันธ์บนชุดย่อยของข้อมูลของคุณ (แม้ว่าคุณจะสูญเสียความแม่นยำและพลังแน่นอนเพราะขนาดตัวอย่างที่เล็กลง) ตราบใดที่ข้อมูลที่มีอยู่เป็นแบบสุ่ม ตัวอย่างของข้อมูลทั้งหมดที่จะอยู่ที่นั่นถ้าคุณไม่มีความหายไป

เมื่อการหายตัวไปของการสุ่มล้วนเรียกว่า MCAR (สุ่มโดยสมบูรณ์) ในกรณีดังกล่าวการวิเคราะห์ชุดย่อยของข้อมูลที่ไม่มีความหายไปจะไม่ทำให้เกิดผลลัพธ์ของคุณอย่างเป็นระบบและมันก็ไม่น่าเป็นไปได้ (แต่ไม่ใช่เป็นไปไม่ได้) ที่จะได้รูปแบบสหสัมพันธ์ที่ฉันแสดงในตัวอย่างด้านบน

เมื่อการหายตัวไปของคุณเป็นระบบในทางใดทางหนึ่ง (มักย่อ MAR หรือ NI, การจำแนกการหายไปของระบบที่แตกต่างกันสองประเภท) จากนั้นคุณมีปัญหาที่ร้ายแรงมากขึ้นทั้งในแง่ของการแนะนำอคติในการคำนวณของคุณ ผลลัพธ์ต่อประชากรที่สนใจ (เพราะตัวอย่างที่คุณกำลังวิเคราะห์ไม่ใช่ตัวอย่างแบบสุ่มจากประชากรแม้ว่าชุดข้อมูลทั้งหมดของคุณจะเป็นเช่นนั้น)

มีจำนวนมากของแหล่งข้อมูลที่ดีพร้อมที่จะเรียนรู้เกี่ยวกับข้อมูลที่หายไปและวิธีการที่จะจัดการกับมันมี แต่คำแนะนำของฉันคือ Rubin: คลาสสิก , และบทความล่าสุดเพิ่มเติม


2
+1 โปรดทราบว่าส่วนหนึ่งของการโต้แย้งของคุณขึ้นอยู่กับความสัมพันธ์ "แข็งแกร่ง" อาจหมายถึง มันค่อนข้างเป็นไปได้สำหรับและเช่นเดียวกับและจะเป็น "อย่างยิ่งความสัมพันธ์เชิงบวก" ในขณะที่มีอยู่ "สัมพันธ์ที่แข็งแกร่งในทิศทางตรงกันข้าม" ระหว่างและคอย่างไรก็ตามมันเป็นไปไม่ได้ที่ค่าสัมประสิทธิ์สหสัมพันธ์ทั้งสามจะค่อนข้างสุดขั้วในตัวอย่างของคุณดังนั้นคุณจึงตกลง ประเด็นสำคัญของเรื่องนี้คือเมทริกซ์สหสัมพันธ์ที่ประมาณไว้ (หรือความแปรปรวนร่วม) อาจไม่เป็นบวกแน่นอน: นั่นเป็นวิธีที่เราควรหาปริมาณ "แข็งแกร่ง" b b c a cabbcac
whuber

1
@whuber ขอบคุณนั่นเป็นประเด็นสำคัญ ฉันได้อัปเดตส่วนของคำตอบเพื่อรวมคำอธิบายนั้นแล้ว
Rose Hartman

7

ความกังวลอย่างมากคือข้อมูลหายไปอย่างเป็นระบบหรือไม่ซึ่งจะทำให้การวิเคราะห์ของคุณเสียหาย ข้อมูลของคุณอาจหายไปโดยไม่สุ่ม

นี่เป็นคำตอบก่อนหน้านี้ แต่ฉันคิดว่าฉันมีส่วนร่วมเป็นตัวอย่าง

ตัวอย่างทางการเงิน: ผลตอบแทนที่หายไปอาจเป็นผลตอบแทนที่ไม่ดี

  • ซึ่งแตกต่างจากกองทุนรวมกองทุนส่วนบุคคล (และกองทุนส่วนบุคคลอื่น ๆ ) ไม่ได้ถูกกำหนดโดยกฎหมายในการรายงานผลตอบแทนของพวกเขาไปยังฐานข้อมูลกลางบางแห่ง
  • ดังนั้นข้อกังวลที่สำคัญคือการรายงานนั้นมีความเฉพาะเจาะจงมากขึ้นโดยเฉพาะว่าบาง บริษัท จะไม่รายงานผลตอบแทนที่ไม่ดี
  • หากเป็นเช่นนั้นค่าเฉลี่ยของกองทุนที่รายงานของคุณจะส่งคืนจะประเมินค่าเฉลี่ยที่สูงเกินไปเพราะค่าต่ำมักจะหายไปRฉัน1niRiRi

ทั้งหมดไม่จำเป็นต้องสูญหายในสถานการณ์เหล่านี้ (มีหลายสิ่งที่คุณสามารถทำได้) แต่การเรียกใช้การถดถอย (หรือการคำนวณความสัมพันธ์) อย่างไร้เดียงสากับข้อมูลที่ไม่สูญหายอาจนำไปสู่การประมาณค่าพารามิเตอร์ที่แท้จริงในประชากรอย่างไม่ลำเอียง


4

ความสัมพันธ์แบบคู่มีความเหมาะสมหากข้อมูลที่ขาดหายไปของคุณขาดหายไปโดยสมบูรณ์ (MCAR) หนังสือMissing Dataของ Paul Allison เป็นจุดเริ่มต้นที่ดีสำหรับเหตุผล

คุณสามารถทดสอบสิ่งนี้ได้โดยใช้การทดสอบ MCAR ของ Little (1988) ซึ่งอยู่ในBaylorEdPsychแพ็คเกจ


1
ยังมีสาเหตุของความกังวล: แม้จะมีข้อมูล MCAR แล้วเมทริกซ์สหสัมพันธ์ที่ประเมินผ่านความสัมพันธ์แบบคู่สามารถล้มเหลวได้แน่นอน
whuber

แน่นอน แต่คำถามถามเกี่ยวกับสหสัมพันธ์มันไม่ได้เอ่ยถึงการใช้เมทริกซ์สหสัมพันธ์ที่เกิดขึ้นเป็นอินพุตของอัลกอริทึมอื่น และด้วยขนาดของตัวอย่าง MCAR ก็ไม่น่าเป็นไปได้
ทิม

1
หากเมทริกซ์ไม่ได้เป็นค่าบวกแน่นอนมันเป็นการประมาณที่ไม่ถูกต้อง อย่างน้อยเราก็ต้องกังวลเกี่ยวกับความไม่สอดคล้องนั้น ฉันเกรงว่าฉันจะไม่เห็นความน่าจะเป็นของ MCAR (ซึ่งเป็นกลไกของการหายไป) อาจเกี่ยวข้องกับขนาดตัวอย่าง
whuber

ผู้ถามมีความสนใจในแถวเดียวของเมทริกซ์สหสัมพันธ์ คุณมีหลักฐานที่แสดงให้เห็นถึงความสัมพันธ์ของแถวที่ไม่ถูกต้องทั้งหมดหรือไม่หากเมทริกซ์นั้นไม่แน่นอน ฉันชอบที่จะเห็นหลักฐานนี้และได้รับภูมิปัญญาบางอย่าง โดยทั่วไปแล้ว MCAR นั้นแทบไม่น่าเป็นไปได้ที่จะมีข้อมูลในโลกแห่งความเป็นจริง ด้วยขนาดตัวอย่างที่มีขนาดใหญ่พลังของการทดสอบของ Little จะเพิ่มขึ้นดังนั้นจึงมีโอกาสที่ดีในการปฏิเสธสมมติฐานว่างของ MCAR อย่าเข้าใจฉันผิดที่นี่: ฉันจะไม่ใช้เมทริกซ์สหสัมพันธ์ข้อมูลบางส่วนเป็นอินพุตในวิธีการหลายตัวแปร แต่นี่ไม่ใช่สิ่งที่คำถามถาม
ทิม

1
ให้ฉันอธิบาย: ฉันไม่ได้เรียกร้องความสัมพันธ์ว่า "ทั้งหมดไม่ถูกต้อง" ฉันอ้างว่าคอลเลกชันของการประมาณค่าสหสัมพันธ์ (นั่นคือเมทริกซ์) อาจไม่ถูกต้อง นั่นคือเถียงไม่ได้ (ไม่ต้องมีการพิสูจน์) เพราะสิ่งที่ต้องทำทั้งหมดคือการจัดแสดงตัวอย่างหนึ่งของการประมาณการที่ไม่ถูกต้องซึ่ง @RoseHartman ได้ทำไปแล้วในกระทู้นี้ ฉันจะไม่โต้แย้งการอ้างสิทธิ์ของคุณว่า MCAR อาจไม่น่าเป็นไปได้ - หากเป็นที่เข้าใจกันในแง่ส่วนตัว: จากประสบการณ์ของคุณด้วยข้อมูลประเภทต่างๆที่คุณคุ้นเคย MCAR นั้นหายาก ฉันไม่เห็นว่าคุณจะพิสูจน์ความหมายที่กว้างขึ้นของการอ้างสิทธิ์นั้นได้อย่างไร
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.