ฉันควรรันการถดถอยแบบแยกกันสำหรับทุกชุมชนหรือชุมชนสามารถเป็นตัวแปรควบคุมในรูปแบบรวมได้หรือไม่


11

ฉันใช้โมเดล OLS พร้อมตัวแปรดัชนีสินทรัพย์อย่างต่อเนื่องในฐานะ DV ข้อมูลของฉันถูกรวบรวมจากชุมชนที่คล้ายกันสามแห่งในพื้นที่ใกล้เคียงทางภูมิศาสตร์ใกล้กัน อย่างไรก็ตามเรื่องนี้ฉันคิดว่ามันสำคัญที่จะต้องใช้ชุมชนเป็นตัวแปรควบคุม ชุมชนกลายเป็นสิ่งสำคัญในระดับ 1% (คะแนน t--4.52) ชุมชนเป็นตัวแปรที่ระบุ / หมวดหมู่ที่เข้ารหัสเป็น 1,2,3 สำหรับ 1 ใน 3 ชุมชนที่แตกต่างกัน

คำถามของฉันคือถ้าความสำคัญระดับสูงนี้หมายความว่าฉันควรทำการถดถอยในชุมชนทีละรายการแทนที่จะเป็นการรวมตัว มิฉะนั้นการใช้ชุมชนเป็นตัวแปรควบคุมเป็นหลักทำเช่นนั้น?


มันสมเหตุสมผลไหมที่จะใช้โมเดลลำดับชั้นกับชุมชนเป็นเอฟเฟกต์แบบสุ่ม? ชุมชนไม่ใช่ความกังวลหลักของคุณใช่ไหม โดยการใช้โมเดลลำดับชั้นคุณจะแบ่งปันความแข็งแรง
Wayne

คำตอบ:


14

คำถามนี้แสดงให้เห็นการเปรียบเทียบโมเดลที่เกี่ยวข้องสามแบบ ในการทำให้การเปรียบเทียบชัดเจนให้เป็นตัวแปรตามให้ปล่อยให้เป็นรหัสชุมชนปัจจุบันและกำหนดและให้เป็นตัวบ่งชี้ของชุมชน 1 และ 2 ตามลำดับ (ซึ่งหมายความว่าสำหรับชุมชน 1 และสำหรับชุมชน 2 และ 3;สำหรับชุมชน 2 และสำหรับชุมชน 1 และ 3)YX{1,2,3}X1X2X1=1X1=0X2=1X2=0

การวิเคราะห์ปัจจุบันอาจเป็นหนึ่งในสิ่งต่อไปนี้: อย่างใดอย่างหนึ่ง

Y=α+βX+ε(first model)

หรือ

Y=α+β1X1+β2X2+ε(second model).

ในทั้งสองกรณีหมายถึงชุดของตัวแปรสุ่มอิสระแบบกระจายที่เหมือนกันโดยไม่มีการคาดหวัง รุ่นที่สองน่าจะเป็นรุ่นที่ตั้งใจไว้ แต่รุ่นแรกเป็นรุ่นที่เหมาะสมกับการเข้ารหัสที่อธิบายไว้ในคำถามε

ผลลัพธ์ของการถดถอย OLS คือชุดของพารามิเตอร์ที่ติดตั้ง (ระบุด้วย "หมวก" บนสัญลักษณ์ของพวกเขา) พร้อมกับการประมาณความแปรปรวนทั่วไปของข้อผิดพลาด ในรุ่นแรกมีหนึ่ง t-test เพื่อเปรียบเทียบไป0ในรูปแบบที่สองมีสอง -ทดสอบ T: หนึ่งเพื่อเปรียบเทียบไปและอื่น ๆ เพื่อเปรียบเทียบไป0เนื่องจากคำถามรายงานการทดสอบ t เดียวเรามาเริ่มด้วยการตรวจสอบแบบจำลองแรกβ^0β1^0β2^0

เมื่อสรุปว่าแตกต่างอย่างมีนัยสำคัญจากเราสามารถประมาณ = =สำหรับชุมชนใด ๆ :β^0YE[α+βX+ε]α+βX

สำหรับชุมชน 1,และค่าประมาณเท่ากับ ;X=1α+β

สำหรับชุมชน 2,และค่าประมาณเท่ากับ ; และX=2α+2β

สำหรับชุมชนที่ 3,และประมาณการเท่ากับ\ X=3α+3β

โดยเฉพาะอย่างยิ่งโมเดลแรกบังคับให้เอฟเฟกต์ชุมชนอยู่ในระหว่างการดำเนินการทางคณิตศาสตร์ หากการเข้ารหัสชุมชนมีจุดประสงค์เพื่อเป็นวิธีการแยกความแตกต่างระหว่างชุมชนการ จำกัด การใช้งานภายในนี้เป็นไปตามอำเภอใจและอาจผิด

มันเป็นคำแนะนำเพื่อทำการวิเคราะห์รายละเอียดเดียวกันของการทำนายของแบบจำลองที่สอง:

สำหรับชุมชน 1 ที่และค่าคาดการณ์ของเท่ากับ\ โดยเฉพาะอย่างยิ่งX1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

สำหรับชุมชนที่ 2 ซึ่งและค่าคาดการณ์ของเท่ากับ\โดยเฉพาะอย่างยิ่งX1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

สำหรับชุมชน 3 ที่ค่าคาดการณ์ของเท่ากับ\โดยเฉพาะอย่างยิ่งX1=X2=0Yα

Y(community 3)=α+ε.

พารามิเตอร์ทั้งสามให้อิสระอย่างเต็มที่กับโมเดลในการประเมินค่าที่คาดหวังสามค่าของแยกกันได้อย่างมีประสิทธิภาพ Y t-tests ประเมินว่า (1) ; นั่นคือไม่ว่าจะมีความแตกต่างระหว่างชุมชน 1 และ 3; และ (2) ; นั่นคือไม่ว่าจะมีความแตกต่างระหว่างชุมชน 2 และ 3 นอกจากนี้เราสามารถทดสอบ "ความแตกต่าง"ด้วยการทดสอบทีเพื่อดูว่าชุมชน 2 และ 1 แตกต่างกันหรือไม่: งานนี้เพราะความแตกต่างของพวกเขาคือ = \β1=0β2=0β2β1(α+β2)(α+β1)β2β1

ตอนนี้เราสามารถประเมินผลของการถดถอยสามแบบแยกกันได้ พวกเขาจะเป็น

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

เปรียบเทียบกับรูปแบบนี้ที่สองเราจะเห็นว่าควรเห็นด้วยกับ ,ควรเห็นด้วยกับและควรเห็นด้วยกับ\ดังนั้นในแง่ของความยืดหยุ่นของพารามิเตอร์ที่เหมาะสมทั้งสองรุ่นก็ดีเหมือนกัน อย่างไรก็ตามสมมติฐานในโมเดลนี้เกี่ยวกับเงื่อนไขข้อผิดพลาดนั้นอ่อนแอกว่า ทั้งหมดต้องเป็นอิสระและกันกระจาย (IID); ทั้งหมดต้อง IID และทุกต้อง IID, แต่ไม่มีอะไรจะสันนิษฐานเกี่ยวกับความสัมพันธ์ทางสถิติในหมู่ถดถอยแยกต่างหากα1α+β1α2α+β2α3αε1ε2ε3 แยกการถดถอยจึงอนุญาตให้มีความยืดหยุ่นเพิ่มเติม:

  • สิ่งสำคัญที่สุดคือการกระจายของสามารถแตกต่างจากที่ซึ่งอาจแตกต่างจากที่\ε1ε2ε3

  • ในบางสถานการณ์ที่อาจจะมีความสัมพันธ์กับ\ไม่มีโมเดลเหล่านี้ที่สามารถจัดการกับสิ่งนี้ได้อย่างชัดเจน แต่รุ่นที่สาม (การถดถอยแบบแยกต่างหาก) อย่างน้อยจะไม่ได้รับผลกระทบจากรุ่นดังกล่าวεiεj

ความยืดหยุ่นเพิ่มเติมนี้หมายความว่าผลลัพธ์การทดสอบ t สำหรับพารามิเตอร์อาจแตกต่างกันระหว่างรุ่นที่สองและสาม (ไม่ควรส่งผลให้การประมาณพารามิเตอร์แตกต่างกัน)

หากต้องการดูว่าจำเป็นต้องใช้การถดถอยแบบแยกกันหรือไม่ให้ทำดังนี้:

พอดีกับรุ่นที่สอง พล็อตเรื่องที่เหลือต่อชุมชนเช่นชุดของ boxplots แบบเคียงข้างกันหรือสามฮิสโทแกรมหรือแม้กระทั่งเป็นสามแปลงความน่าจะเป็น มองหาหลักฐานที่มีรูปร่างการกระจายที่แตกต่างกันและโดยเฉพาะอย่างยิ่งความแปรปรวนที่แตกต่างกันอย่างเห็นได้ชัด หากหลักฐานนั้นขาดโมเดลที่สองควรจะโอเค หากมีอยู่จะมีการรับประกันการถอยหลังแยกต่างหาก

เมื่อตัวแบบหลายตัวแปร - นั่นคือพวกเขารวมถึงปัจจัยอื่น ๆ - การวิเคราะห์ที่คล้ายกันเป็นไปได้ด้วยข้อสรุปที่คล้ายกัน (แต่ซับซ้อนกว่า) โดยทั่วไปแล้วการดำเนินการถดถอยแบบแยกกันนั้นจะเท่ากับการรวมการโต้ตอบแบบสองทางที่เป็นไปได้ทั้งหมดกับตัวแปรชุมชน


-3
  • การเลือกแบบจำลอง (IMHO) ป้อนคำอธิบายรูปภาพที่นี่อาจได้รับการแนะนำอีกครั้ง เนื่องจากโมเดลที่ซับซ้อน (ความชันแยก) จะมีโทษหนักกว่าดังนั้นโมเดลที่กระชับและตีความได้ง่ายกว่าจะเป็น "ดีกว่า"

1
ยังไม่ชัดเจนว่าคุณแนะนำให้ทำอะไรหรือเกี่ยวข้องกับตารางนี้อย่างไร
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.