ทำไมนักสถิติจึงไม่ใช้ข้อมูลร่วมกันเพื่อเป็นตัวชี้วัดความสัมพันธ์?


10

ฉันได้เห็นการพูดคุยสองสามครั้งโดยนักสถิติที่ไม่ใช่พวกเขาดูเหมือนจะนำเสนอมาตรการความสัมพันธ์โดยใช้ข้อมูลร่วมกันมากกว่าการถดถอย

ฉันคิดว่ามันมีเหตุผลที่ดีที่นักสถิติไม่ใช้วิธีนี้ ความเข้าใจของคนธรรมดาของฉันคือการประมาณการของข้อมูลเอนโทรปี / ข้อมูลร่วมกันมีแนวโน้มที่จะเป็นปัญหาและไม่เสถียร ฉันถือว่าพลังเป็นปัญหาเช่นกัน: พวกเขาพยายามหลีกเลี่ยงสิ่งนี้โดยอ้างว่าพวกเขาไม่ได้ใช้กรอบการทดสอบแบบพารามิเตอร์ โดยทั่วไปแล้วงานประเภทนี้จะไม่รบกวนการคำนวณพลังงานหรือแม้แต่ความมั่นใจ / ความน่าเชื่อถือ

แต่ถ้าจะรับตำแหน่งผู้สนับสนุนของปีศาจมันเป็นการบรรจบกันอย่างช้าๆซึ่งเป็นเรื่องใหญ่เมื่อชุดข้อมูลมีขนาดใหญ่มาก? นอกจากนี้บางครั้งวิธีการเหล่านี้ดูเหมือนจะ "ทำงาน" ในแง่ที่ว่าสมาคมได้รับการตรวจสอบความถูกต้องโดยการศึกษาติดตามผล บทวิจารณ์ที่ดีที่สุดในการใช้ข้อมูลร่วมกันเป็นตัวชี้วัดความเชื่อมโยงคืออะไรและทำไมจึงไม่ใช้กันอย่างแพร่หลายในการฝึกสถิติ

แก้ไข: นอกจากนี้ยังมีเอกสารที่ดีที่ครอบคลุมปัญหาเหล่านี้หรือไม่


3
MI เป็นการวัดความสัมพันธ์ระหว่างตัวแปรสองตัวที่แยกกัน ไม่ใช่ว่าการตั้งค่าทั่วไปในสถิติทั่วไป (อาจอยู่ในฟิลด์ย่อยบางฟิลด์) แต่ภายในการตั้งค่านั้นฉันเห็นว่ามันใช้บ่อยพอ แน่นอนเมื่อฉันพบผู้สมัครที่ใช้ความสัมพันธ์แบบเพียร์สันในชุดข้อมูลแยก bivariate ฉันชี้ MI กับพวกเขา
user603

1
ดูเพิ่มเติมstats.stackexchange.com/questions/1052/…อย่างไรก็ตามการสนทนาที่นี่มีอยู่แล้วในมุมมองของฉันดีหรือดีกว่าดังนั้นคำถามทั่วไปเกี่ยวกับการทำซ้ำจะเป็นที่สงสัย
Nick Cox

นอกจากนี้สำหรับการอ้างอิงโปรดดูstats.stackexchange.com/q/20011/1036
Andy W

2
การอ้างอิงทั่วไปเพิ่มเติมคือ Matthew Reimherr และ Dan L. Nicolae 2013. การพึ่งพาเชิงปริมาณ: กรอบการทำงานสำหรับการพัฒนามาตรการที่สามารถตีความได้ วิทยาศาสตร์สถิติ 28: 116-130
Nick Cox

คำตอบ:


4

ฉันคิดว่าคุณควรแยกความแตกต่างระหว่างข้อมูลเด็ดขาด (ไม่ต่อเนื่อง) และข้อมูลต่อเนื่อง

สำหรับข้อมูลต่อเนื่อง Pearson correlation วัดความสัมพันธ์เชิงเส้น (monotonic) จัดอันดับความสัมพันธ์แบบ monotonic

MI ในทางกลับกัน "ตรวจจับ" ความสัมพันธ์ใด ๆ นี่ไม่ใช่สิ่งที่คุณสนใจและ / หรือมีแนวโน้มว่าจะมีเสียงดัง โดยเฉพาะอย่างยิ่งคุณต้องประเมินความหนาแน่นของการกระจาย แต่เนื่องจากเป็นแบบต่อเนื่องคุณจะต้องสร้างฮิสโตแกรม [ถังขยะแยก] ก่อนแล้วจึงคำนวณ MI แต่เนื่องจาก MI อนุญาตให้มีความสัมพันธ์ใด ๆ MI จะเปลี่ยนไปเมื่อคุณใช้ถังขยะขนาดเล็ก ดังนั้นคุณจะเห็นได้ว่าการประมาณค่าของ MI จะไม่เสถียรมากไม่อนุญาตให้คุณใส่ช่วงความเชื่อมั่นในการประเมิน ฯลฯ [เหมือนกันถ้าคุณทำการประเมินความหนาแน่นอย่างต่อเนื่อง] โดยทั่วไปมีหลายสิ่งที่จะประเมินก่อนที่จะคำนวณจริง MI

ข้อมูลเชิงหมวดหมู่ในทางตรงกันข้ามนั้นค่อนข้างเหมาะกับกรอบ MI (ดูการทดสอบ G) และไม่มีอะไรให้เลือกระหว่าง G-test และไคสแควร์มากนัก


ฉันส่วนใหญ่อ้างถึงกรณีของการเชื่อมโยงที่ไม่ต่อเนื่อง (โดยการถดถอยฉันมี GLMs ในใจไม่ใช่แค่ OLS) ที่จริงแล้วนักวิทยาศาสตร์จำนวนมากที่ศึกษาปรากฏการณ์ที่ซับซ้อน (เช่นพันธุศาสตร์) อาจบอกว่าพวกเขาสนใจสิ่งที่คุณกำลังอธิบาย (ตรวจจับความสัมพันธ์ใด ๆ ) สิ่งล่อใจของการหลบหนีจากการวิพากษ์วิจารณ์ทั่วไปที่เห็นได้ชัดของ "จะเกิดอะไรขึ้นถ้ารูปแบบการทำงานของความสัมพันธ์นั้นผิดปกติ? แน่นอนว่าฉันต้องการตรวจสอบความสัมพันธ์ใด ๆ !" แข็งแรง อย่างไรก็ตามฉันคิดว่ามีการเข้าใจผิดที่ไม่มีอาหารกลางวันฟรีที่นี่ แต่ที่จะถูกมองข้ามว่าฉันพยายามที่จะชัดเจนขึ้น / เข้าใจ
user4733

1
... ฉันไม่ได้ตระหนักถึงความสัมพันธ์ระหว่างการทดสอบ LR และ MI แม้ว่ามันน่าสนใจมาก!
user4733
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.