คำถามนี้แสดงให้เห็นการเปรียบเทียบโมเดลที่เกี่ยวข้องสามแบบ ในการทำให้การเปรียบเทียบชัดเจนให้เป็นตัวแปรตามให้ปล่อยให้เป็นรหัสชุมชนปัจจุบันและกำหนดและให้เป็นตัวบ่งชี้ของชุมชน 1 และ 2 ตามลำดับ (ซึ่งหมายความว่าสำหรับชุมชน 1 และสำหรับชุมชน 2 และ 3;สำหรับชุมชน 2 และสำหรับชุมชน 1 และ 3)YX∈{1,2,3}X1X2X1=1X1=0X2=1X2=0
การวิเคราะห์ปัจจุบันอาจเป็นหนึ่งในสิ่งต่อไปนี้: อย่างใดอย่างหนึ่ง
Y=α+βX+ε(first model)
หรือ
Y=α+β1X1+β2X2+ε(second model).
ในทั้งสองกรณีหมายถึงชุดของตัวแปรสุ่มอิสระแบบกระจายที่เหมือนกันโดยไม่มีการคาดหวัง รุ่นที่สองน่าจะเป็นรุ่นที่ตั้งใจไว้ แต่รุ่นแรกเป็นรุ่นที่เหมาะสมกับการเข้ารหัสที่อธิบายไว้ในคำถามε
ผลลัพธ์ของการถดถอย OLS คือชุดของพารามิเตอร์ที่ติดตั้ง (ระบุด้วย "หมวก" บนสัญลักษณ์ของพวกเขา) พร้อมกับการประมาณความแปรปรวนทั่วไปของข้อผิดพลาด ในรุ่นแรกมีหนึ่ง t-test เพื่อเปรียบเทียบไป0ในรูปแบบที่สองมีสอง -ทดสอบ T: หนึ่งเพื่อเปรียบเทียบไปและอื่น ๆ เพื่อเปรียบเทียบไป0เนื่องจากคำถามรายงานการทดสอบ t เดียวเรามาเริ่มด้วยการตรวจสอบแบบจำลองแรกβ^0β1^0β2^0
เมื่อสรุปว่าแตกต่างอย่างมีนัยสำคัญจากเราสามารถประมาณ = =สำหรับชุมชนใด ๆ :β^0YE[α+βX+ε]α+βX
สำหรับชุมชน 1,และค่าประมาณเท่ากับ ;X=1α+β
สำหรับชุมชน 2,และค่าประมาณเท่ากับ ; และX=2α+2β
สำหรับชุมชนที่ 3,และประมาณการเท่ากับ\ X=3α+3β
โดยเฉพาะอย่างยิ่งโมเดลแรกบังคับให้เอฟเฟกต์ชุมชนอยู่ในระหว่างการดำเนินการทางคณิตศาสตร์ หากการเข้ารหัสชุมชนมีจุดประสงค์เพื่อเป็นวิธีการแยกความแตกต่างระหว่างชุมชนการ จำกัด การใช้งานภายในนี้เป็นไปตามอำเภอใจและอาจผิด
มันเป็นคำแนะนำเพื่อทำการวิเคราะห์รายละเอียดเดียวกันของการทำนายของแบบจำลองที่สอง:
สำหรับชุมชน 1 ที่และค่าคาดการณ์ของเท่ากับ\ โดยเฉพาะอย่างยิ่งX1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
สำหรับชุมชนที่ 2 ซึ่งและค่าคาดการณ์ของเท่ากับ\โดยเฉพาะอย่างยิ่งX1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
สำหรับชุมชน 3 ที่ค่าคาดการณ์ของเท่ากับ\โดยเฉพาะอย่างยิ่งX1=X2=0Yα
Y(community 3)=α+ε.
พารามิเตอร์ทั้งสามให้อิสระอย่างเต็มที่กับโมเดลในการประเมินค่าที่คาดหวังสามค่าของแยกกันได้อย่างมีประสิทธิภาพ Y t-tests ประเมินว่า (1) ; นั่นคือไม่ว่าจะมีความแตกต่างระหว่างชุมชน 1 และ 3; และ (2) ; นั่นคือไม่ว่าจะมีความแตกต่างระหว่างชุมชน 2 และ 3 นอกจากนี้เราสามารถทดสอบ "ความแตกต่าง"ด้วยการทดสอบทีเพื่อดูว่าชุมชน 2 และ 1 แตกต่างกันหรือไม่: งานนี้เพราะความแตกต่างของพวกเขาคือ = \β1=0β2=0β2−β1(α+β2)−(α+β1)β2−β1
ตอนนี้เราสามารถประเมินผลของการถดถอยสามแบบแยกกันได้ พวกเขาจะเป็น
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
เปรียบเทียบกับรูปแบบนี้ที่สองเราจะเห็นว่าควรเห็นด้วยกับ ,ควรเห็นด้วยกับและควรเห็นด้วยกับ\ดังนั้นในแง่ของความยืดหยุ่นของพารามิเตอร์ที่เหมาะสมทั้งสองรุ่นก็ดีเหมือนกัน อย่างไรก็ตามสมมติฐานในโมเดลนี้เกี่ยวกับเงื่อนไขข้อผิดพลาดนั้นอ่อนแอกว่า ทั้งหมดต้องเป็นอิสระและกันกระจาย (IID); ทั้งหมดต้อง IID และทุกต้อง IID, แต่ไม่มีอะไรจะสันนิษฐานเกี่ยวกับความสัมพันธ์ทางสถิติในหมู่ถดถอยแยกต่างหากα1α+β1α2α+β2α3αε1ε2ε3 แยกการถดถอยจึงอนุญาตให้มีความยืดหยุ่นเพิ่มเติม:
สิ่งสำคัญที่สุดคือการกระจายของสามารถแตกต่างจากที่ซึ่งอาจแตกต่างจากที่\ε1ε2ε3
ในบางสถานการณ์ที่อาจจะมีความสัมพันธ์กับ\ไม่มีโมเดลเหล่านี้ที่สามารถจัดการกับสิ่งนี้ได้อย่างชัดเจน แต่รุ่นที่สาม (การถดถอยแบบแยกต่างหาก) อย่างน้อยจะไม่ได้รับผลกระทบจากรุ่นดังกล่าวεiεj
ความยืดหยุ่นเพิ่มเติมนี้หมายความว่าผลลัพธ์การทดสอบ t สำหรับพารามิเตอร์อาจแตกต่างกันระหว่างรุ่นที่สองและสาม (ไม่ควรส่งผลให้การประมาณพารามิเตอร์แตกต่างกัน)
หากต้องการดูว่าจำเป็นต้องใช้การถดถอยแบบแยกกันหรือไม่ให้ทำดังนี้:
พอดีกับรุ่นที่สอง พล็อตเรื่องที่เหลือต่อชุมชนเช่นชุดของ boxplots แบบเคียงข้างกันหรือสามฮิสโทแกรมหรือแม้กระทั่งเป็นสามแปลงความน่าจะเป็น มองหาหลักฐานที่มีรูปร่างการกระจายที่แตกต่างกันและโดยเฉพาะอย่างยิ่งความแปรปรวนที่แตกต่างกันอย่างเห็นได้ชัด หากหลักฐานนั้นขาดโมเดลที่สองควรจะโอเค หากมีอยู่จะมีการรับประกันการถอยหลังแยกต่างหาก
เมื่อตัวแบบหลายตัวแปร - นั่นคือพวกเขารวมถึงปัจจัยอื่น ๆ - การวิเคราะห์ที่คล้ายกันเป็นไปได้ด้วยข้อสรุปที่คล้ายกัน (แต่ซับซ้อนกว่า) โดยทั่วไปแล้วการดำเนินการถดถอยแบบแยกกันนั้นจะเท่ากับการรวมการโต้ตอบแบบสองทางที่เป็นไปได้ทั้งหมดกับตัวแปรชุมชน