ความแตกต่างระหว่างการควบคุมและการรักษาควรเป็นแบบอย่างชัดเจนหรือโดยปริยาย?

รับการตั้งค่าการทดลองต่อไปนี้:

ตัวอย่างจำนวนมากนำมาจากหัวเรื่องและแต่ละตัวอย่างได้รับการปฏิบัติหลายวิธี (รวมถึงการรักษาควบคุม) สิ่งที่น่าสนใจที่สุดคือความแตกต่างระหว่างการควบคุมและการรักษาแต่ละครั้ง

ฉันนึกถึงโมเดลง่าย ๆ สองแบบสำหรับข้อมูลนี้ ด้วยตัวอย่างรักษารักษา 0 ถูกควบคุมให้เป็นข้อมูลเป็นพื้นฐานสำหรับตัวอย่าง ,มีความแตกต่างในการรักษาญโมเดลแรกดูทั้งการควบคุมและความแตกต่าง: $i$ $j$ $Y_{ij}$ $\gamma_i$ $i$ $\delta_j$ $j$

Y_{i j} = γ_{i} + δ_{j} + ϵ_{i j}

$Y_{ij}=\gamma_i+\delta_j+\epsilon_{ij}$

δ_{0} = 0

$\delta_0=0$

ในขณะที่รุ่นที่สองเท่านั้นที่ดูความแตกต่าง หากเราทำการล่วงหน้าล่วงหน้า ดังนั้น $d_{ij}$

d_{i j} = Y_{i j} - Y_{i 0}

$d_{ij}=Y_{ij}-Y_{i0}$

d_{i j} = δ_{j} + ε_{i j}

$d_{ij}=\delta_j+\varepsilon_{ij}$

คำถามของฉันคืออะไรความแตกต่างพื้นฐานระหว่างการตั้งค่าทั้งสองนี้คืออะไร โดยเฉพาะอย่างยิ่งหากระดับนั้นไร้ความหมายในตัวเองและมีเพียงความแตกต่างเท่านั้นที่เป็นโมเดลแรกที่ทำมากเกินไปและอาจต่ำกว่าความเป็นจริง?

— Rónán Daly
แหล่งที่มา

ฉันสามารถให้คำตอบอย่างละเอียดมากขึ้นในภายหลัง แต่ฉันอยากจะแนะนำบทความนี้โดย Paul Allison น่าสนใจ ( Allison, 1990 )

— Andy W

แก้ไขเพื่อสะท้อนถึงความจริงที่ว่าข้อผิดพลาดในแบบจำลองที่แตกต่างกันนั้นไม่เหมือนกันจริงและดังนั้นจึงไม่ควรใช้สัญลักษณ์เดียวกัน

— Rónán Daly

มีแนวโน้มที่จะมีความสัมพันธ์ในรูปแบบที่สอง แต่ไม่ได้เป็นครั้งแรก $\epsilon_{ij}$

ในข้อแรกคำเหล่านี้แสดงถึงข้อผิดพลาดในการวัดและการเบี่ยงเบนจากแบบจำลองการเติม ด้วยความระมัดระวังตามสมควร - เช่นโดยการสุ่มลำดับของการวัด - ข้อผิดพลาดเหล่านั้นสามารถทำให้เป็นอิสระได้เมื่อแบบจำลองนั้นถูกต้อง จากไหน

d_{i j} = Y_{i j} - Y_{i 0} = γ_{i} + δ_{j} + ϵ_{i j} - (γ_{i} + δ_{0} + ϵ_{i 0}) = δ_{j} + (ϵ_{i j} - ϵ_{i 0}) .

$d_{ij} = Y_{ij} - Y_{i0} = \gamma_i + \delta_j + \epsilon_{ij} - (\gamma_i + \delta_0 + \epsilon_{i0}) = \delta_j + (\epsilon_{ij} - \epsilon_{i0}).$

(โปรดทราบว่าสิ่งนี้ขัดแย้งกับสมการสุดท้ายในคำถามเพราะมันผิดที่จะสมมติว่าทำเช่นนั้นจะบังคับให้เรายอมรับว่าเป็นตัวแปรสุ่มมากกว่าพารามิเตอร์อย่างน้อยเมื่อเรายอมรับ ความเป็นไปได้ของข้อผิดพลาดในการวัดสำหรับการควบคุมซึ่งจะนำไปสู่ข้อสรุปเดียวกันด้านล่าง) $\epsilon_{i0}=0$ $\gamma_i$

สำหรับ ,นี่หมายถึง $j, k \ne 0$ $j \ne k$

C o v (d_{i j}, d_{i k}) = C o v (ϵ_{i j} - ϵ_{i 0}, ϵ_{i k} - ϵ_{i 0}) = V a r (ϵ_{i 0}) \neq 0.

$Cov(d_{ij}, d_{ik}) = Cov(\epsilon_{ij} - \epsilon_{i0}, \epsilon_{ik} - \epsilon_{i0}) = Var(\epsilon_{i0}) \ne 0.$

ความสัมพันธ์สามารถเป็นกอบเป็นกำ สำหรับข้อผิดพลาดของ iid การคำนวณที่คล้ายกันแสดงว่ามันเท่ากับ 0.5 ยกเว้นว่าคุณกำลังใช้โพรซีเดอร์ที่จัดการความสัมพันธ์นี้อย่างชัดเจนและถูกต้องโปรดเลือกโมเดลแรกในช่วงที่สอง

— whuber
แหล่งที่มา

ดังนั้นคุณจึงสันนิษฐานว่าโมเดลแรกเป็นโมเดลจริงและได้มาซึ่งคุณสมบัติที่ไม่พึงประสงค์ของโมเดลที่สอง เรารู้ว่าแบบจำลองทั้งหมดไม่ถูกต้องดังนั้นผลลัพธ์นี้มีความหมายจริงหรือไม่

— มาโคร

@Macro โปรดอ่านคำตอบของฉันอย่างละเอียดมากขึ้น: มันถูกสร้างขึ้นมาเพื่อแสดงว่าจำเป็นต้องใช้สมมติฐานใดในการปรับรูปแบบแรกและแยกความแตกต่างจากรุ่นที่สอง แต่ไม่มีข้อสันนิษฐานว่าแบบจำลองใดเป็น "ของจริง" ตัวอย่างเช่นให้สังเกตคำเตือน "เมื่อแบบจำลองนั้นถูกต้อง" แม้แต่คำว่า "ถูกต้อง" ก็ถูกเลือกด้วยความคิดบางอย่างเพื่อหลีกเลี่ยงความเข้าใจผิดที่มีรูปแบบ "ของจริง" หรือ "ถูกต้อง"

— whuber

ฉันสับสนเล็กน้อยคืออะไร

d_{i k}

$d_{ik}$

— Andy W

@ Andyและ index สองการรักษาที่แตกต่างกัน ฉันควรเขียน "สำหรับ ... "; ฉันจะแก้ไขข้อผิดพลาดนั้น ขอบคุณสำหรับการจับมัน

j

$j$

k

$k$

j, k \neq 0

$j,k \ne 0$

— whuber

@whuber มีการอ้างอิงใดบ้างที่สนับสนุนข้อความของคุณเช่นเพื่อโน้มน้าวผู้ตรวจสอบ?

— แดเนียล