คุณจะทำอย่างไรเมื่อคุณมีตัวแปรตัวทำนายที่ใช้ค่าเฉลี่ยของกลุ่มที่มีขนาดตัวอย่างต่างกัน

พิจารณาปัญหาคลาสสิกการวิเคราะห์ข้อมูลที่คุณมีผล $Y_{i}$ และวิธีการที่เกี่ยวข้องกับจำนวนของการทำนาย $X_{i1}, ..., X_{ip}$ . ประเภทพื้นฐานของแอปพลิเคชันในที่นี้คือ

$Y_{i}$ บางผลระดับกลุ่มเช่นอัตราการเกิดอาชญากรรมในเมืองผม $i$
ทำนายลักษณะระดับกลุ่มเช่นคุณลักษณะทางประชากรของเมืองที่ฉัน $i$

เป้าหมายพื้นฐานคือเพื่อให้เหมาะสมกับโมเดลการถดถอย (อาจมีเอฟเฟกต์แบบสุ่ม แต่ลืมไปแล้วว่าตอนนี้):

E (Y_{i} | X_{i}) = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p}

$E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip}$

ความยุ่งยากทางเทคนิคบางอย่างเกิดขึ้นหรือไม่เมื่อหนึ่ง (หรือมากกว่า) ของผู้ทำนายเป็นผลจากการสำรวจที่มีขนาดตัวอย่างแตกต่างกันสำหรับแต่ละหน่วย? ตัวอย่างเช่นสมมติว่าเป็นคะแนนสรุปสำหรับเมืองที่นั่นคือการตอบสนองโดยเฉลี่ยจากกลุ่มตัวอย่างประชาชนจากเมืองแต่ตัวอย่างขนาดเฉลี่ยเหล่านี้อยู่บนพื้นฐานของความแตกต่างกันอย่างดุเดือด: $X_{i1}$ $i$ $i$

\begin{array}{cc} C i t y & S a m p l e s i z e \\ 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ ⋮ & ⋮ \end{array}

$\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}$

เนื่องจากตัวแปรทำนายไม่ได้มีความหมายเหมือนกันในบางแง่มุมสำหรับแต่ละเมืองฉันกลัวว่าการปรับเปลี่ยนตัวแปรเหล่านี้ในรูปแบบการถดถอยราวกับว่าพวกเขาทั้งหมด "สร้างเท่ากัน" อาจทำให้การอนุมานที่ทำให้เข้าใจผิดบางอย่าง

มีชื่อสำหรับปัญหาประเภทนี้หรือไม่? ถ้าเป็นเช่นนั้นมีงานวิจัยเกี่ยวกับวิธีจัดการกับเรื่องนี้หรือไม่?

ความคิดของฉันคือการปฏิบัติต่อมันเป็นตัวแปรทำนายที่วัดได้ด้วยความผิดพลาดและทำบางสิ่งบางอย่างตามเส้นเหล่านี้ แต่มีความแตกต่างของข้อผิดพลาดในการวัดดังนั้นจึงมีความซับซ้อนมาก ฉันคิดว่าวิธีนี้ผิดหรืออาจทำให้มันซับซ้อนกว่านี้ แต่การสนทนาใด ๆ ที่นี่จะเป็นประโยชน์

regression measurement-error errors-in-variables

— มาโคร
แหล่งที่มา

สิ่งนี้เรียกว่าปัญหา "heteroscedastic ข้อผิดพลาดในตัวแปร" (วลีนี้เป็นเป้าหมายที่ดีสำหรับการค้นหาของ Google.) เมื่อเร็ว ๆ นี้ (2007), และ Delaigle Meister เสนออิงประมาณการความหนาแน่นของเคอร์เนลในบทความ JASA นามธรรมเกี่ยวกับวิธีการตัวแปรบาง (วิธีของช่วงเวลาและ MLE) แสดงให้เห็นวิธีการบางอย่างเพิ่มเติม: sciencedirect.com/science/article/pii/S1572312709000045 (ฉันไม่คุ้นเคยเพียงพอกับการวิจัยเพื่อให้คำตอบที่เชื่อถือได้เกี่ยวกับวิธีจัดการชุดข้อมูลของคุณโดยเฉพาะ)

— whuber

@whuber +1 สำหรับทั้งความคิดเห็น ฉันคิดว่า "ข้อผิดพลาดในตัวแปร" เป็นคำหลักที่ขาดหายไปที่ฉันกำลังค้นหา หากไม่มีใครให้คำตอบที่ดีด้านล่างที่ฉันสามารถยอมรับได้แล้วฉันจะดูในวรรณคดีและกลับมาโพสต์สิ่งที่ฉันท้ายทำเป็นคำตอบ

— แมโคร

คำตอบ:

บทความ "แบบจำลองข้อผิดพลาดในโครงสร้างแบบ heteroscedastic พร้อมข้อผิดพลาดสมการ" สามารถดาวน์โหลดได้ที่หน้าของผู้เขียน:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

โดยทั่วไปคุณต้องคำนึงถึงความแปรปรวนของตัวแปรทั้งสองเพื่อหลีกเลี่ยงการประมาณที่ไม่สอดคล้องกันการทดสอบสมมติฐานที่ไม่น่าเชื่อถือและช่วงความมั่นใจ

— Alexandre Patriota
แหล่งที่มา

วิธีหนึ่งในการจัดการกับสิ่งนี้คือสมมติว่าทุกเมืองมีการแจกแจงที่มีความแปรปรวนเหมือนกันสำหรับการตอบกลับของแต่ละบุคคล จากนั้นการวัดค่าเฉลี่ยแต่ละเมืองของสำหรับการทำนายจะมีความแปรปรวนที่คือจำนวนของบุคคลในค่าเฉลี่ยสำหรับเมืองที่ฉันนั่นจะเป็นวิธีที่ง่ายในการจัดการกับความแตกต่างของความคิด ฉันไม่รู้ชื่อพิเศษสำหรับปัญหาการถดถอยแบบนี้ $σ^2$ $X_i$ $σ^2/n_i$ $n_i$ $i$

— Michael R. Chernick
แหล่งที่มา

ดูเหมือนจะสมเหตุสมผลแม้ว่าฉันหวังว่าจะได้หลีกเลี่ยงแบบจำลองข้อผิดพลาดในการวัดเลย หากฉันไปในทิศทางนั้นคุณจะใช้อะไรในการประเมินผลกระทบของตัวทำนายที่วัดโดยมีข้อผิดพลาด ฉันใช้วิธีหนึ่งที่เรียกว่า SIMEX แต่ดูเหมือนว่าผิดปกติและฉันสงสัยว่ามีตัวเลือกอื่น ๆ หรือไม่

— แมโคร

@Macro ฉันไม่คุ้นเคยกับซอฟต์แวร์เฉพาะสำหรับการสร้างแบบจำลองการถดถอยด้วยฟังก์ชันความแปรปรวนเพื่อประเมิน

— Michael R. Chernick

มาโครซึ่งเป็นกฎง่ายๆในการถดถอยข้อผิดพลาดในตัวแปรแบบ homoscedastic หากข้อผิดพลาดใน IV มีขนาดเล็กเมื่อเทียบกับข้อผิดพลาดใน DV คุณสามารถเพิกเฉยอดีตและหันไปใช้การถดถอยแบบปกติได้อย่างปลอดภัย ที่ให้วิธีรวดเร็วและง่ายในการแยกแยะปัญหา

— whuber

@whuber ขอบคุณ - มันมีประโยชน์ ดูเหมือนว่าถ้ากฎของหัวแม่มือที่ทำให้รู้สึกแล้วมันจะทำให้รู้สึกในกรณี heteroskedastic ที่จะใช้ "ถ้าความแปรปรวนข้อผิดพลาดที่ใหญ่ที่สุดใน IV มีขนาดเล็กเมื่อเทียบกับความแปรปรวนข้อผิดพลาดใน DV คุณสามารถละเว้นปัญหาได้อย่างปลอดภัย" กฎง่ายๆที่เหมาะสมซึ่งเป็นเงื่อนไขที่จริงอาจพอใจในข้อมูลที่ฉันดู

— แมโคร

σ^{2} \approx 1

$\sigma^2 \approx 1$

\approx 1 / n

$\approx 1/n$

(.05, 1)

$(.05,1)$

Y_{i}

$Y_i$