คุณจะทำอย่างไรเมื่อคุณมีตัวแปรตัวทำนายที่ใช้ค่าเฉลี่ยของกลุ่มที่มีขนาดตัวอย่างต่างกัน


14

พิจารณาปัญหาคลาสสิกการวิเคราะห์ข้อมูลที่คุณมีผลYiและวิธีการที่เกี่ยวข้องกับจำนวนของการทำนายXi1,...,Xip . ประเภทพื้นฐานของแอปพลิเคชันในที่นี้คือ

  1. Yiบางผลระดับกลุ่มเช่นอัตราการเกิดอาชญากรรมในเมืองผมi

  2. ทำนายลักษณะระดับกลุ่มเช่นคุณลักษณะทางประชากรของเมืองที่ฉันi

เป้าหมายพื้นฐานคือเพื่อให้เหมาะสมกับโมเดลการถดถอย (อาจมีเอฟเฟกต์แบบสุ่ม แต่ลืมไปแล้วว่าตอนนี้):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

ความยุ่งยากทางเทคนิคบางอย่างเกิดขึ้นหรือไม่เมื่อหนึ่ง (หรือมากกว่า) ของผู้ทำนายเป็นผลจากการสำรวจที่มีขนาดตัวอย่างแตกต่างกันสำหรับแต่ละหน่วย? ตัวอย่างเช่นสมมติว่าเป็นคะแนนสรุปสำหรับเมืองที่ฉันนั่นคือการตอบสนองโดยเฉลี่ยจากกลุ่มตัวอย่างประชาชนจากเมืองฉันแต่ตัวอย่างขนาดเฉลี่ยเหล่านี้อยู่บนพื้นฐานของความแตกต่างกันอย่างดุเดือด:Xi1ii

CitySample size120210033004553

เนื่องจากตัวแปรทำนายไม่ได้มีความหมายเหมือนกันในบางแง่มุมสำหรับแต่ละเมืองฉันกลัวว่าการปรับเปลี่ยนตัวแปรเหล่านี้ในรูปแบบการถดถอยราวกับว่าพวกเขาทั้งหมด "สร้างเท่ากัน" อาจทำให้การอนุมานที่ทำให้เข้าใจผิดบางอย่าง

มีชื่อสำหรับปัญหาประเภทนี้หรือไม่? ถ้าเป็นเช่นนั้นมีงานวิจัยเกี่ยวกับวิธีจัดการกับเรื่องนี้หรือไม่?

ความคิดของฉันคือการปฏิบัติต่อมันเป็นตัวแปรทำนายที่วัดได้ด้วยความผิดพลาดและทำบางสิ่งบางอย่างตามเส้นเหล่านี้ แต่มีความแตกต่างของข้อผิดพลาดในการวัดดังนั้นจึงมีความซับซ้อนมาก ฉันคิดว่าวิธีนี้ผิดหรืออาจทำให้มันซับซ้อนกว่านี้ แต่การสนทนาใด ๆ ที่นี่จะเป็นประโยชน์


8
สิ่งนี้เรียกว่าปัญหา "heteroscedastic ข้อผิดพลาดในตัวแปร" (วลีนี้เป็นเป้าหมายที่ดีสำหรับการค้นหาของ Google.) เมื่อเร็ว ๆ นี้ (2007), และ Delaigle Meister เสนออิงประมาณการความหนาแน่นของเคอร์เนลในบทความ JASA นามธรรมเกี่ยวกับวิธีการตัวแปรบาง (วิธีของช่วงเวลาและ MLE) แสดงให้เห็นวิธีการบางอย่างเพิ่มเติม: sciencedirect.com/science/article/pii/S1572312709000045 (ฉันไม่คุ้นเคยเพียงพอกับการวิจัยเพื่อให้คำตอบที่เชื่อถือได้เกี่ยวกับวิธีจัดการชุดข้อมูลของคุณโดยเฉพาะ)
whuber

1
@whuber +1 สำหรับทั้งความคิดเห็น ฉันคิดว่า "ข้อผิดพลาดในตัวแปร" เป็นคำหลักที่ขาดหายไปที่ฉันกำลังค้นหา หากไม่มีใครให้คำตอบที่ดีด้านล่างที่ฉันสามารถยอมรับได้แล้วฉันจะดูในวรรณคดีและกลับมาโพสต์สิ่งที่ฉันท้ายทำเป็นคำตอบ
แมโคร

คำตอบ:


2

บทความ "แบบจำลองข้อผิดพลาดในโครงสร้างแบบ heteroscedastic พร้อมข้อผิดพลาดสมการ" สามารถดาวน์โหลดได้ที่หน้าของผู้เขียน:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

โดยทั่วไปคุณต้องคำนึงถึงความแปรปรวนของตัวแปรทั้งสองเพื่อหลีกเลี่ยงการประมาณที่ไม่สอดคล้องกันการทดสอบสมมติฐานที่ไม่น่าเชื่อถือและช่วงความมั่นใจ


0

วิธีหนึ่งในการจัดการกับสิ่งนี้คือสมมติว่าทุกเมืองมีการแจกแจงที่มีความแปรปรวนเหมือนกันสำหรับการตอบกลับของแต่ละบุคคล จากนั้นการวัดค่าเฉลี่ยแต่ละเมืองของX ฉันสำหรับการทำนายจะมีความแปรปรวนσ 2 / n ฉันที่n ฉันคือจำนวนของบุคคลในค่าเฉลี่ยสำหรับเมืองที่ฉัน นั่นจะเป็นวิธีที่ง่ายในการจัดการกับความแตกต่างของความคิด ฉันไม่รู้ชื่อพิเศษสำหรับปัญหาการถดถอยแบบนี้σ2Xiσ2/ninii


ดูเหมือนจะสมเหตุสมผลแม้ว่าฉันหวังว่าจะได้หลีกเลี่ยงแบบจำลองข้อผิดพลาดในการวัดเลย หากฉันไปในทิศทางนั้นคุณจะใช้อะไรในการประเมินผลกระทบของตัวทำนายที่วัดโดยมีข้อผิดพลาด ฉันใช้วิธีหนึ่งที่เรียกว่า SIMEX แต่ดูเหมือนว่าผิดปกติและฉันสงสัยว่ามีตัวเลือกอื่น ๆ หรือไม่
แมโคร

@Macro ฉันไม่คุ้นเคยกับซอฟต์แวร์เฉพาะสำหรับการสร้างแบบจำลองการถดถอยด้วยฟังก์ชันความแปรปรวนเพื่อประเมิน
Michael R. Chernick

3
มาโครซึ่งเป็นกฎง่ายๆในการถดถอยข้อผิดพลาดในตัวแปรแบบ homoscedastic หากข้อผิดพลาดใน IV มีขนาดเล็กเมื่อเทียบกับข้อผิดพลาดใน DV คุณสามารถเพิกเฉยอดีตและหันไปใช้การถดถอยแบบปกติได้อย่างปลอดภัย ที่ให้วิธีรวดเร็วและง่ายในการแยกแยะปัญหา
whuber

1
@whuber ขอบคุณ - มันมีประโยชน์ ดูเหมือนว่าถ้ากฎของหัวแม่มือที่ทำให้รู้สึกแล้วมันจะทำให้รู้สึกในกรณี heteroskedastic ที่จะใช้ "ถ้าความแปรปรวนข้อผิดพลาดที่ใหญ่ที่สุดใน IV มีขนาดเล็กเมื่อเทียบกับความแปรปรวนข้อผิดพลาดใน DV คุณสามารถละเว้นปัญหาได้อย่างปลอดภัย" กฎง่ายๆที่เหมาะสมซึ่งเป็นเงื่อนไขที่จริงอาจพอใจในข้อมูลที่ฉันดู
แมโคร

1
σ211/n(.05,1)Yi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.