จับคู่คะแนนความน่าเชื่อถือกับข้อมูลพาเนล


13

ฉันมีชุดข้อมูลระยะยาวของแต่ละบุคคลและบางคนก็อยู่ภายใต้การรักษาและคนอื่นไม่ได้ บุคคลทุกคนอยู่ในกลุ่มตัวอย่างตั้งแต่แรกเกิดจนถึงอายุ 18 ปีและการรักษาเกิดขึ้นในบางช่วงอายุ อายุของการรักษาอาจแตกต่างกันในแต่ละกรณี การใช้การจับคู่คะแนนความชอบฉันต้องการจับคู่หน่วยที่ได้รับการรักษาและควบคุมเป็นคู่กับการจับคู่ที่แน่นอนในปีเกิดซึ่งฉันสามารถติดตามแต่ละคู่ตั้งแต่วันเกิดของพวกเขาจนถึงอายุ 18 ทั้งหมดมีทั้งหมด 150 คนและ 4000 คนที่ไม่ผ่านการรักษา หลังจากการจับคู่ความคิดคือการใช้กลยุทธ์ที่แตกต่างในความแตกต่างในการประเมินผลของการรักษา

ปัญหาที่ฉันเผชิญในขณะนี้คือทำการจับคู่กับข้อมูลพาเนล ฉันกำลังใช้psmatch2คำสั่งของ Stata และฉันจับคู่กับลักษณะครัวเรือนและส่วนบุคคลโดยใช้การจับคู่คะแนนความชอบ โดยทั่วไปกับข้อมูลพาเนลจะมีการจับคู่ที่เหมาะสมที่สุดในแต่ละช่วงอายุ เป็นตัวอย่าง: ถ้าได้รับการปฏิบัติ B และ C เป็นตัวควบคุมและพวกเขาทั้งหมดเกิดในปี 1980 ดังนั้น A และ B อาจถูกจับคู่ในปี 1980 ที่อายุ 0 ขณะที่ A และ C ถูกจับคู่ในปี 1981 ที่อายุ 1 และอื่น ๆ . นอกจากนี้ A อาจถูกจับคู่กับค่าการรักษาล่วงหน้าของตัวเองจากปีก่อนหน้า

เพื่อที่จะแก้ไขปัญหานี้ฉันใช้ค่าเฉลี่ยของตัวแปรที่แปรผันตามเวลาทั้งหมดซึ่งการจับคู่สามารถระบุบุคคลที่มีค่าเฉลี่ยที่คล้ายกันมากที่สุดในช่วงระยะเวลาของตัวอย่างและฉันทำการจับคู่แยกต่างหากสำหรับแต่ละกลุ่มอายุ 0 ถึง 18 น่าเสียดายที่นี่ยังคงตรงกับหน่วยควบคุมที่แตกต่างกันสำหรับแต่ละหน่วยที่ได้รับต่อกลุ่มอายุ

หากใครบางคนสามารถบอกฉันถึงวิธีการจับคู่แบบจับคู่กับข้อมูลพาเนลใน Stata สิ่งนี้จะได้รับการชื่นชมอย่างมาก

คำตอบ:


9

โดยทั่วไปคุณต้องสร้างชุดข้อมูลรูปแบบกว้างพร้อมด้วยคุณสมบัติทั้งหมดที่เกี่ยวข้องกับขั้นตอนการจับคู่ดำเนินการจับคู่กับชุดข้อมูลแบบตัดขวางนี้แล้วใช้ ID เพื่อระบุคู่ที่ตรงกันในชุดข้อมูลพาเนล นี่คือรายละเอียดเพิ่มเติมบางส่วน:

  1. ใช้reshapeเพื่อสร้างชุดข้อมูลรูปแบบกว้าง จัดรูปแบบตัวแปรการรักษาล่วงหน้าในแบบที่คุณต้องการใช้ในขั้นตอนการจับคู่ คุณสามารถใช้ค่าเฉลี่ยของตัวแปรของคุณถ้าคุณมีการสังเกตหลายครั้งสำหรับแต่ละคน แต่คุณสามารถหาวิธีอื่น ๆ ได้ (คุณยังสามารถสังเกตการเปลี่ยนแปลงของตัวแปรเดียวกันเช่น health1, health2 และการใช้ทั้งหมดของพวกเขาในการจับคู่ ) มีเป้าหมายที่จะมีชุดข้อมูลที่มีหนึ่งสังเกตต่อบุคคล

  2. psmatch2ใช้ชุดนี้ทำตามขั้นตอนการจับคู่กับ

  3. รวมข้อมูลเกี่ยวกับกรณีและปัญหาที่ตรงกันกับชุดข้อมูลดั้งเดิม วางกรณีที่ไม่ตรงกัน ฯลฯ ฉันไม่แน่ใจเกี่ยวกับรายละเอียดที่นี่เพราะฉันไม่รู้ stata จริง ๆpsmatch2แต่ฉันคิดว่าคุณได้รับความคิด

โดยใช้ขั้นตอนเหล่านี้คุณสามารถจับคู่เคสตามข้อมูลการรักษาก่อนหน้าและคุณมีการแข่งขันเพียงหนึ่งครั้งต่อหน่วยการรักษา


3
ฉันไม่รู้จริงๆว่าทำไมโพสต์นี้ถูกโหวตเพราะคำตอบนี้ช่วยได้จริง ฉันจะลงคะแนนมันอีกครั้ง ขอบคุณ greg!
Andy

5

ไม่มีวิธีการทำเช่นนั้นใน Stata หรือซอฟต์แวร์อื่น ๆที่ฉันรับรู้

หากคุณพยายามแก้ไขตัวประมาณการจับคู่แบบเอนเอียงด้วยเทคนิคข้อมูลพาเนลต่อไปนี้เป็นวิธีการหนึ่งที่อาจใช้งานได้ หากคุณสามารถสันนิษฐานได้ว่าการจับคู่ดูแลบางส่วน แต่ไม่ใช่ทั้งหมดของอคติการเลือก แต่อคติส่วนใหญ่ยังคงที่ตลอดเวลาคุณสามารถลบส่วนที่ไม่แปรผันตามเวลาของการตั้งค่าโดยการสร้างการประมาณการจับคู่แยกกันในแต่ละช่วงเวลา ความแตกต่าง.

ttY0

E[Y0t|X,D=1]E[Y0t|X,D=0]=E[Y0t|X,D=1]E[Y0t|X,D=0]=Bias,
ΔtM=ΔTT+BiasΔtM=BiasΔtMΔtM=ΔTT

Heckman, Ichimura, Smith และ Todd 1998 Econometricaและ Eichler and Lechner 2002 เอกสารเศรษฐศาสตร์แรงงานเป็นตัวอย่างของแนวทางนี้ ในทางกลับกันการสังเกตที่ได้รับการรักษา 150 ครั้งอาจไม่เพียงพอสำหรับวิธีการนี้ในการทำงาน


1
มันควรจะเป็นไปได้ที่จะจับคู่บุคคลในคู่สำหรับข้อมูลแผงเพราะทั้งสองเอกสาร ( paper1 , paper2 ) ทำเช่นกัน น่าเสียดายที่ผู้เขียนไม่ได้ระบุว่าพวกเขาทำมันอย่างไร แนวคิดที่คุณอธิบายด้วย Heckman et al (1998) เป็นเหตุผลที่ใช้ Diff-in-Diff หลังจากการจับคู่แบบตามเข็มคู่
Andy

ไม่ชัดเจนสำหรับฉันว่าพวกเขากำลังจับคู่พาเนล แต่คุณพูดถูกว่าขั้นตอนนั้นคลุมเครือ ผู้เขียนเขียน pscore ซึ่งส่งสัญญาณความเต็มใจที่จะช่วยเหลือผู้อื่น บางทีอีเมลถึงพวกเขาจะอธิบายสิ่งต่าง ๆ รายงานสิ่งที่พวกเขาพูด มันเป็นคำถามที่สำคัญ
Dimitriy V. Masterov

0

ขั้นตอน:

  1. ตามที่ได้รับการกล่าวถึงอย่างละเอียดโดย Greg คุณสามารถใช้ชุดข้อมูลแบบตัดขวางไม่ว่าจะเป็นการเตรียมการรักษาหรือในช่วงก่อนการบำบัดเฉพาะเพื่อสร้างการจับคู่

  2. โดยใช้แผงทั้งคุณตัวแปรตัวบ่งชี้ที่กำหนดสำหรับ
    ถือว่า
    บุคคล ถือว่าช่วงก่อนหลังเท่ากับศูนย์ทันทีที่การรักษาเกิดขึ้นสำหรับผู้ป่วยแต่ละราย

    เนื่องจากจุดในช่วงเวลาที่เปลี่ยนแปลงที่ถือว่าเป็นช่วงจาก 0 เป็น 1 จะแตกต่างกันไปตามแต่ละบุคคลและไม่เคยเปลี่ยนเป็น 1 สำหรับการไม่ได้รับการรักษาคุณจะต้องกำหนดจุดเริ่มต้นเดียวกันจากการแข่งขันที่ได้รับการรักษา นี่เป็นสัญชาตญาณ แต่ฉันยังอยากจะเห็นการอ้างอิงที่ดีที่แสดงให้เห็นถึงวิธีการที่ฉันยังไม่พบ

การตั้งค่าการถดถอยจะเป็น:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

ในกรณีที่คำปฏิสัมพันธ์ช่วยให้คุณมีผลการรักษา


-2

คุณพิจารณาใช้คำสั่งnnmatchหรือไม่?

ฉันใช้คำสั่งนี้และมันก็เป็นคำสั่งที่ครอบคลุมทีเดียว มันคำนึงถึงอัลกอริธึมการจับคู่ที่แตกต่างกันและในบางกรณีซึ่งคะแนนความชอบนั้นเหมือนกันสำหรับบุคคลกลุ่มควบคุมบางคน แน่นอนว่าการรักษากรณีนี้ขึ้นอยู่กับอัลกอริธึมการจับคู่ถ้าคุณใช้ k- เพื่อนบ้านที่ใกล้ที่สุดหรือเคอร์เนลหรืออะไรก็ตาม


ในบทความที่คุณอ้างอิงฉันไม่เห็นการกล่าวถึงข้อมูลพาเนล คุณเคยใช้ข้อมูลแผงควบคุมหรือไม่ถ้าใช่โปรดระบุและระบุรหัสเพื่อตอบคำถามของ OP
ตัวชี้วัด

การจับคู่ที่แน่นอนนั้นง่ายกว่า แต่ nnmatch โดยรวมนั้นซับซ้อนกว่าเนื่องจากไม่ได้เก็บรหัสการจับคู่ไว้ในชุดข้อมูลปัจจุบัน แต่แยกกัน ฉันจะจบลงด้วยชุดข้อมูลหนึ่งชุดสำหรับแต่ละกลุ่มอายุซึ่งต้องรวมเข้ากับข้อมูลดั้งเดิม การรวมในกรณีนี้ใช้งานไม่ได้เนื่องจากลักษณะการจับคู่ไม่ได้ระบุตัวบุคคลในข้อมูลดั้งเดิมโดยเฉพาะ โชคไม่ดีที่นี่ไม่มีทางออก
Andy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.