การเชื่อมโยงระหว่างวิธีเช่นการจับคู่และการควบคุมสถิติสำหรับตัวแปรคืออะไร?


10

บ่อยครั้งในบทความวิจัยที่คุณอ่านนักวิจัยได้ควบคุมตัวแปรบางอย่าง สิ่งนี้สามารถทำได้โดยวิธีการต่าง ๆ เช่นการจับคู่การบล็อก ฯลฯ

แต่ฉันคิดเสมอว่าการควบคุมตัวแปรนั้นเป็นสิ่งที่ทำในเชิงสถิติโดยการวัดตัวแปรหลายอย่างที่อาจมีอิทธิพลและทำการวิเคราะห์เชิงสถิติเกี่ยวกับตัวแปรเหล่านั้นซึ่งสามารถทำได้ทั้งในการทดลองจริงและเสมือนจริง ตัวอย่างเช่นคุณจะมีแบบสำรวจหรือแบบทดสอบอื่นที่คุณวัดตัวแปรอิสระและตัวแปรที่อาจทำให้สับสนและทำการวิเคราะห์บางอย่าง

  • เป็นไปได้ที่จะควบคุมตัวแปรในการทดลองเสมือนหรือไม่?
  • การเชื่อมโยงระหว่างวิธีเช่นการจับคู่และการควบคุมสถิติสำหรับตัวแปรคืออะไร?

คำตอบ:


6

เช่นเดียวกับ AdamO ฉันคิดว่ากุญแจสำคัญในการตอบคำถามนี้คือแนวคิดเกี่ยวกับการอนุมานเชิงสาเหตุและวิธีการ "เข้าสู่" โมเดลเชิงสาเหตุโดยใช้การตั้งค่าเชิงสังเกตการณ์

ในโลกที่สมบูรณ์แบบเราจะมีบางสิ่งที่เรียกว่าประชากรต่อต้าน - ประชากรการศึกษาเหมือนกันทุกประการยกเว้นสิ่งเดียวที่เราสนใจความแตกต่างระหว่างประชากรสองคนนั้นขึ้นอยู่กับความแตกต่างนั้นเป็นผลเชิงสาเหตุที่แท้จริง

เห็นได้ชัดว่าเราไม่มีสิ่งนี้

อย่างไรก็ตามมีหลายวิธีในการพยายามเข้าใกล้:

  • การสุ่ม: ในทางทฤษฎี (ถ้าการสุ่มทำอย่างถูกต้อง) ควรให้ประชากรสองคนที่เหมือนกันยกเว้นการรักษาหลังการสุ่ม

  • การแบ่งชั้น: คุณสามารถดูประชากรในระดับของโควาเรียส์ที่คุณกำลังทำการเปรียบเทียบแบบ "ชอบกับเหมือน" สิ่งนี้ใช้งานได้อย่างยอดเยี่ยมสำหรับจำนวนที่น้อย แต่ก็กลายเป็นเรื่องยุ่งยาก

  • การจับคู่: การจับคู่เป็นความพยายามที่จะรวบรวมประชากรการศึกษาเช่นที่กลุ่ม A คล้ายกับกลุ่ม B และทำให้สามารถเปรียบเทียบได้

  • การปรับทางสถิติ: การรวม covariates ในตัวแบบการถดถอยช่วยให้สามารถประมาณค่าผลกระทบภายในระดับของ covariates - อีกครั้ง, การเปรียบเทียบเช่นกับสิ่งที่ชอบ, หรืออย่างน้อยก็พยายาม

ทั้งหมดเป็นความพยายามที่จะเข้าใกล้จำนวนประชากรที่ต่อต้าน วิธีที่ดีที่สุดที่จะได้มันขึ้นอยู่กับสิ่งที่คุณต้องการออกไปและสิ่งที่การศึกษาของคุณมีลักษณะ


คำอธิบายที่ยอดเยี่ยม กระชับและตอบคำถามได้ดีกว่าเดิมมากขึ้น ให้ฉันเพิ่มวิธีการเหล่านี้เฉพาะการปรับเชิงสถิติเท่านั้นที่จะเป็นปัญหาของการมีชั้นว่าง ในการศึกษาแบบควบคุมกรณีหากเราต้องการแบ่งชั้นประชากรตามอายุการจับคู่การแบ่งชั้นและการสุ่ม (บล็อก) ตามอายุต้องมีการรวมกลุ่มหรือการแบ่งกลุ่มเพื่อเปรียบเทียบกรณีอายุ 50 ปีกับการควบคุม 51 ปี
AdamO

อย่างไรก็ตามในการถดถอยโลจิสติกคุณสามารถใช้ข้อมูลอย่างต่อเนื่องเพื่อยืมข้อมูลโดยอ้อมในกลุ่มเช่นอายุเชิงเส้นเชิงเส้นหรือพื้นฐานที่ปรับเปลี่ยนเพื่อทำการเปรียบเทียบ สิ่งนี้ทำให้การสร้างแบบจำลองการถดถอยเป็นหนึ่งในวิธีการทางสถิติที่มีประสิทธิภาพและมีประโยชน์มากที่สุด
AdamO

@AdamO เห็นด้วย - ในคำตอบของฉันในคำถามที่เชื่อมโยงข้างต้นฉันพูดถึงว่ามันสามารถนำมาใช้เพื่อราบรื่นกว่าพื้นที่ของข้อมูลที่ไม่มีตราบใดที่การขาดข้อมูลที่เป็นเพราะโอกาสและ binning แต่ใช่ - มีเหตุผลการถดถอยที่น่ากลัว
Fomite

2

ฉันคิดว่าการสร้างแบบจำลองเชิงสาเหตุเป็นกุญแจสำคัญในการตอบคำถามนี้ สิ่งแรกคือต้องเผชิญกับการเริ่มต้นเพื่อระบุผลที่ถูกต้อง / การแบ่งชั้น / การควบคุมที่ถูกต้องก่อนที่จะดูข้อมูล ถ้าฉันจะประเมินความสัมพันธ์ความสูง / ความจุปอดในผู้ใหญ่ฉันจะปรับสถานะการสูบบุหรี่เนื่องจากการสูบบุหรี่ต้องเลิกการเจริญเติบโตและมีผลต่อความจุปอด Confounders เป็นตัวแปรที่เกี่ยวข้องกับสาเหตุของการทำนายผลประโยชน์และสัมพันธ์กับผลลัพธ์ของผลประโยชน์ ดู Causality จาก Judea Pearl, 2nd ed. หนึ่งควรระบุและพลังการวิเคราะห์ของพวกเขาสำหรับตัวแปรรบกวนที่ถูกต้องก่อนที่กระบวนการรวบรวมข้อมูลจะเริ่มใช้ตรรกะเหตุผลและความรู้ก่อนหน้านี้จากการศึกษาเชิงสำรวจก่อนหน้านี้

R2สำหรับโมเดลเชิงเส้นสำหรับตัวแปรการปรับค่าเหล่านี้ อีกกระบวนการที่พบบ่อยในระบาดวิทยาคือที่ซึ่งตัวแปรถูกเพิ่มเข้ากับโมเดลเท่านั้นหากพวกเขาเปลี่ยนการประเมินผลกระทบหลัก (เช่นอัตราส่วนอัตราต่อรองหรืออัตราส่วนอันตราย) อย่างน้อย 10% แม้ว่านี่จะถูกต้องมากกว่าการเลือกแบบจำลอง AIC แต่ก็ยังคิดว่ามีข้อควรระวังสำคัญในวิธีการนี้

ข้อเสนอแนะของฉันคือการวิเคราะห์ที่ต้องการล่วงหน้าซึ่งเป็นส่วนหนึ่งของสมมติฐาน การปรับความเสี่ยงในการสูบบุหรี่ / มะเร็งอายุเป็นพารามิเตอร์ที่แตกต่างกันและนำไปสู่การอนุมานที่แตกต่างกันในการศึกษาที่มีการควบคุมมากกว่าความเสี่ยงการสูบบุหรี่ / มะเร็งดิบ การใช้ความรู้ในสาระการเรียนรู้เป็นวิธีที่ดีที่สุดในการเลือกตัวทำนายสำหรับการปรับในการวิเคราะห์การถดถอยหรือการแบ่งชั้นการจับคู่หรือตัวแปรถ่วงน้ำหนักในการวิเคราะห์ "ควบคุม" ประเภทอื่น ๆ ของการออกแบบการทดลองและกึ่งทดลอง


2

เรื่องราวเกี่ยวกับความสัมพันธ์ระหว่างการจับคู่และการถดถอยโดยสรุปสั้น ๆ ในบล็อกโพสต์ที่นี่ ในระยะสั้น

"ถอยหลังจาก D [ตัวบ่งชี้การรักษา] ชุดจำลองเต็มรูปแบบ (เช่นอิ่มตัว) สำหรับ X [covariates] การประเมินผลลัพธ์ของผลกระทบของ D เท่ากับการจับคู่กับ X และการถ่วงน้ำหนักทั่วเซลล์ covariate โดยความแปรปรวน เงื่อนไขการรักษาบน X "

ดูส่วนที่ 3.3 ของเศรษฐมิติที่ไม่เป็นอันตรายส่วนใหญ่หรือส่วนที่ 5.3 ของการต่อต้านและการอนุมานเชิงสาเหตุสำหรับการอภิปรายอย่างละเอียดรวมถึงข้อดีและข้อเสียของ D ที่ให้น้ำหนัก X ที่การถดถอยให้โดยปริยาย

@EpiGrad ให้การเริ่มต้นที่ดีสำหรับคำถามแรกของคุณ หนังสือที่ลิงก์ข้างต้นถือว่าเป็นหนังสือเกือบทั้งหมด หากคุณไม่มีพื้นหลังวิทยาศาสตร์คอมพิวเตอร์ / คณิตศาสตร์คุณอาจพบว่า Pearl กำลังดำเนินไปอย่างยากลำบาก (แม้ว่าจะคุ้มค่าที่สุด!)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.