“ แบบจำลองลักษณะพิเศษแบบสุ่ม” ในแบบเศรษฐมิติสัมพันธ์อย่างไรกับแบบจำลองแบบผสมนอกเศรษฐมิติ


56

ฉันเคยคิดว่า "แบบจำลองเอฟเฟกต์แบบสุ่ม" ในเศรษฐมิติสอดคล้องกับ "โมเดลผสมกับการสกัดกั้นแบบสุ่ม" นอกเศรษฐมิติ แต่ตอนนี้ฉันไม่แน่ใจ ทำมัน?

เศรษฐมิติใช้คำเช่น "เอฟเฟ็กต์คงที่" และ "เอฟเฟ็กต์แบบสุ่ม" ค่อนข้างแตกต่างจากวรรณกรรมในโมเดลผสมและสิ่งนี้ทำให้เกิดความสับสนฉาวโฉ่ ให้เราพิจารณาสถานการณ์ง่าย ๆ ที่เชิงเส้นขึ้นอยู่กับแต่ด้วยการสกัดกั้นที่แตกต่างกันในการวัดกลุ่มต่างๆ:Yx

Yผมเสื้อ=βxผมเสื้อ+ยูผม+εผมเสื้อ.

นี่แต่ละหน่วย / กลุ่มเป็นที่สังเกตที่แตกต่างกัน timepoints ทีนักเศรษฐศาสตร์เรียกมันว่า "ข้อมูลแผง"ผมเสื้อ

  • ในคำศัพท์แบบผสมเราสามารถถือว่าเป็นเอฟเฟกต์คงที่หรือเป็นเอฟเฟกต์แบบสุ่ม (ในกรณีนี้คือการสกัดกั้นแบบสุ่ม) การดำเนินการตามที่ได้รับการแก้ไขหมายถึงการติดตั้งและเพื่อลดข้อผิดพลาดกำลังสอง (เช่นการเรียกใช้ OLS regression พร้อมกับตัวแปรกลุ่มจำลอง) การปฏิบัติเป็นแบบสุ่มหมายความว่าเรายังสมมติว่าและใช้โอกาสสูงสุดเพื่อให้พอดีกับและแทนการปรับแต่ละด้วยตนเอง นี้นำไปสู่ผล "บางส่วนร่วมกัน" ซึ่งประมาณการได้รับการหดตัวที่มีต่อค่าเฉลี่ยของพวกเขาu_0เบต้ายูผมUฉันU ฉัน ~ N ( U 0 , σ 2 U ) U 0 σ 2 U u ที่ฉันUฉันU 0β^ยู^ผมยูผม~ยังไม่มีข้อความ(ยู0,σยู2)u0σu2ยูผมยู^ผมยู^0

    R formula when treating group as fixed:    y ~ x + group
    R formula when treating group as random:   y ~ x + (1|group)
  • ในคำศัพท์เศรษฐมิติเราสามารถใช้แบบจำลองทั้งหมดนี้เป็นแบบจำลองลักษณะพิเศษแบบคงที่หรือเป็นแบบจำลองลักษณะพิเศษแบบสุ่ม ตัวเลือกแรกเทียบเท่ากับผลกระทบคงที่ด้านบน (แต่เศรษฐมิติมีวิธีการประมาณในกรณีนี้เรียกว่า) ฉันเคยคิดว่าตัวเลือกที่สองนั้นเทียบเท่ากับเอฟเฟกต์แบบสุ่มด้านบน เช่น @JiebiaoWang ในคำตอบที่ได้รับการโหวตขึ้นอย่างสูงของเขาต่อความแตกต่างระหว่างเอฟเฟกต์แบบสุ่ม - เอฟเฟกต์คงที่ - และโมเดลร่อแร่คืออะไร บอกว่า β"within" estimator

    ในเศรษฐมิติตัวแบบสุ่มเอฟเฟกต์อาจอ้างถึงรูปแบบการสกัดกั้นแบบสุ่มเท่านั้นในด้านชีวสถิติ

โอเค - ให้เราทดสอบว่าความเข้าใจนี้ถูกต้องหรือไม่ นี่คือข้อมูลสุ่มที่สร้างโดย @ChristophHanck ในคำตอบของเขาต่อความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสมคืออะไร (ฉันใส่ข้อมูลที่นี่บน pastebinสำหรับผู้ที่ไม่ได้ใช้ R):

ป้อนคำอธิบายรูปภาพที่นี่

@ Christoph ทำสองวิธีที่เหมาะสมกับการใช้เศรษฐมิติ:

fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

คนแรกให้ผลการประมาณการของเบต้าเท่ากับ-1.0451คนที่สอง0.77031(ใช่บวก!) ฉันพยายามทำซ้ำด้วยlmและlmer:

l1 = lm(stackY ~ stackX + as.factor(unit), data = paneldata)
l2 = lmer(stackY ~ stackX + (1|as.factor(unit)), data = paneldata)

คนแรกให้ผลตอบแทน-1.045ที่สอดคล้องกับผู้ประเมินภายในข้างต้น เย็น. แต่ผลผลิตที่สอง-1.026ซึ่งอยู่ห่างจากตัวประมาณเอฟเฟกต์แบบสุ่มเป็นไมล์ หึ? เกิดอะไรขึ้น? ในความเป็นจริงสิ่งที่จะ ทำplmแม้เมื่อเรียกด้วย?model = "random"

ไม่ว่ามันจะทำอะไรเราสามารถเข้าใจมันผ่านมุมมองโมเดลผสมได้หรือไม่?

และสัญชาตญาณที่อยู่เบื้องหลังสิ่งที่มันทำคืออะไร? ฉันอ่านในสถานที่เศรษฐมิติสองแห่งที่ตัวประมาณผลกระทบแบบสุ่มเป็นค่าเฉลี่ยถ่วงน้ำหนักระหว่างตัวประมาณค่าผลกระทบคงที่และ"between" estimatorความชันถดถอยมากขึ้นหรือน้อยลงหากเราไม่ได้รวมตัวตนของกลุ่มไว้ในแบบจำลองเลย กรณีรอบ4) เช่น @Andy เขียนที่นี่ :

ตัวประมาณเอฟเฟกต์แบบสุ่มจะใช้ค่าเฉลี่ยถ่วงน้ำหนักเมทริกซ์ของความแปรปรวนภายในและระหว่างข้อมูล [... ] สิ่งนี้ทำให้เอฟเฟกต์แบบสุ่มมีประสิทธิภาพมากขึ้น [.]

ทำไม? ทำไมเราต้องการค่าเฉลี่ยถ่วงน้ำหนักนี้ และโดยเฉพาะอย่างยิ่งทำไมเราถึงต้องการแทนที่จะใช้โมเดลผสม?


8
ว้าวมีผู้โหวตมากกว่า 20 คนขึ้นไปและคำตอบที่กระจ่างแจ้งหกคำในเวลาน้อยกว่า 24 ชั่วโมง แต่ทุกคนมุ่งเน้นด้านความคิดทางเศรษฐมิติ ไม่มีคำตอบที่ทำให้การเชื่อมต่อกับรุ่นที่ผสมกันนั้น
อะมีบาพูดว่า Reinstate Monica

หมายเหตุถึงตัวฉันเอง: เปรียบเทียบpeople.stern.nyu.edu/wgreene/Econometrics/Mundlak-1978.pdfกับ Gelman & Bafumi paper: stat.columbia.edu/~gelman/research/unpublished/… .
อะมีบากล่าวว่า Reinstate Monica

คำตอบ:


16

สรุป: "แบบจำลองเอฟเฟกต์แบบสุ่ม" ในเศรษฐมิติและ "โมเดลการสกัดกั้นแบบสุ่มผสม" เป็นรูปแบบเดียวกันแน่นอน แต่มีการประเมินในรูปแบบต่างๆ วิธีเศรษฐมิติคือการใช้ FGLS และวิธีแบบผสมคือการใช้ ML มีอัลกอริธึมที่แตกต่างกันในการทำ FGLS และบางอัน (ในชุดข้อมูลนี้) ให้ผลลัพธ์ที่ใกล้เคียงกับ ML มาก


1. ความแตกต่างระหว่างวิธีการประมาณค่าใน plm

ฉันจะตอบด้วยการทดสอบplm(..., model = "random")และlmer()ใช้ข้อมูลที่สร้างโดย @ChristophHanck

ตามคู่มือแพคเกจ PLMมีสี่ตัวเลือกสำหรับrandom.method: วิธีการประเมินสำหรับส่วนประกอบความแปรปรวนในรูปแบบผลกระทบแบบสุ่ม @amoeba ใช้ค่าเริ่มต้นswar(Swamy และ Arora, 1972)

สำหรับโมเดลเอฟเฟ็กต์แบบสุ่มมีตัวประมาณค่าพารามิเตอร์การแปลงสี่ตัวด้วยการตั้งค่าแบบสุ่มวิธีหนึ่งใน "swar" (Swamy and Arora (1972)) (ค่าเริ่มต้น), "amemiya" (Amemiya (1971)), "walhus" ( Wallace and Hussain (1969)) หรือ "nerlove" (Nerlove (1971))

ผมทดสอบทุกตัวเลือกที่สี่โดยใช้ข้อมูลเดียวกันรับข้อผิดพลาดสำหรับamemiyastackXสามและประมาณการค่าสัมประสิทธิ์ที่แตกต่างกันโดยสิ้นเชิงสำหรับตัวแปร คนที่มาจากการใช้random.method='nerlove'และ 'amemiya' เกือบจะเทียบเท่ากับที่ได้จากlmer(), -1.029 และ -1.025 เทียบกับ -1.026 พวกเขายังไม่แตกต่างจากที่ได้รับในรูปแบบ "ผลกระทบคงที่", -1.045

# "amemiya" only works using the most recent version:
# install.packages("plm", repos="http://R-Forge.R-project.org")

re0 <- plm(stackY~stackX, data = paneldata, model = "random") #random.method='swar'
re1 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='amemiya')
re2 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='walhus')
re3 <- plm(stackY~stackX, data = paneldata, model = "random",  random.method='nerlove')
l2  <- lmer(stackY~stackX+(1|as.factor(unit)), data = paneldata)

coef(re0)     #    (Intercept)   stackX    18.3458553   0.7703073 
coef(re1)     #    (Intercept)   stackX    30.217721   -1.025186 
coef(re2)     #    (Intercept)   stackX    -1.15584     3.71973 
coef(re3)     #    (Intercept)   stackX    30.243678   -1.029111 
fixef(l2)     #    (Intercept)   stackX    30.226295   -1.026482 

น่าเสียดายที่ฉันไม่มีเวลาตอนนี้ แต่ผู้อ่านที่สนใจสามารถค้นหาข้อมูลอ้างอิงทั้งสี่นี้เพื่อตรวจสอบขั้นตอนการประมาณของพวกเขา มันจะมีประโยชน์มากหากคิดว่าทำไมพวกเขาถึงสร้างความแตกต่าง ผมคาดหวังว่าสำหรับบางกรณีplmขั้นตอนการประมาณค่าใช้กับข้อมูลที่เปลี่ยนควรจะเทียบเท่ากับขั้นตอนโอกาสสูงสุดที่ใช้ในการlm()lmer()

2. การเปรียบเทียบระหว่าง GLS และ ML

ผู้เขียนของplmแพคเกจได้เปรียบเทียบทั้งสองในมาตรา 7 ของกระดาษของพวกเขา: Yves Croissant และจิโอวานนี่มิลโล, 2008 แผงข้อมูลเศรษฐมิติใน R: แพคเกจ

เศรษฐมิติส่วนใหญ่จัดการกับข้อมูลที่ไม่ใช่การทดลอง ให้ความสำคัญอย่างยิ่งกับขั้นตอนการระบุและการทดสอบการสะกดผิด ข้อมูลจำเพาะของแบบจำลองมีแนวโน้มที่จะง่ายมากในขณะที่ให้ความสนใจอย่างมากกับประเด็นของความเป็นเอกฐานของรีจีสเตอร์โครงสร้างการพึ่งพาอาศัยในข้อผิดพลาดและความทนทานของตัวประมาณภายใต้การเบี่ยงเบนจากปกติ วิธีที่นิยมใช้มักเป็นแบบกึ่งหรือไม่อิงพารามิเตอร์และเทคนิคที่สอดคล้องกันของเฮเทอโรสเคดีซิสติกส์กำลังกลายเป็นมาตรฐานปฏิบัติทั้งในการประมาณค่าและการทดสอบ

ด้วยเหตุผลทั้งหมดเหล่านี้ [... ] การประมาณค่าแบบจำลองพาเนลในเศรษฐมิติส่วนใหญ่สำเร็จในกรอบสี่เหลี่ยมกำลังสองน้อยที่สุดที่อิงตามทฤษฎีบทของ Aitken [... ] ในทางกลับกันโมเดลข้อมูลตามยาวในnlmeและlme4ถูกประเมินโดยความน่าจะเป็นสูงสุด (ถูก จำกัด หรือไม่ จำกัด ) [ ... ]

วิธี GLS แบบเศรษฐมิติมีวิธีการวิเคราะห์แบบปิดที่คำนวณได้โดยพีชคณิตเชิงเส้นมาตรฐานและแม้ว่าบางครั้งจะสามารถคำนวณหนักบนเครื่องได้ แต่การแสดงออกของตัวประมาณค่านั้นค่อนข้างง่าย การประมาณค่า ML ของตัวแบบตามยาวนั้นขึ้นอยู่กับการเพิ่มประสิทธิภาพเชิงตัวเลขของฟังก์ชันที่ไม่เชิงเส้นโดยไม่มีการแก้ปัญหาแบบปิดดังนั้นจึงขึ้นอยู่กับการประมาณและเกณฑ์การลู่เข้า


3. อัปเดตสำหรับรุ่นผสม

ฉันขอขอบคุณ @ChristophHanck ได้ให้คำแนะนำอย่างละเอียดเกี่ยวกับสิ่งที่random.methodใช้ทั้งสี่plmและอธิบายว่าทำไมการประมาณของพวกเขาจึงแตกต่างกันมาก ตามที่ @amoeba ร้องขอฉันจะเพิ่มความคิดบางอย่างเกี่ยวกับโมเดลผสม (อิงตามความน่าจะเป็น) และการเชื่อมต่อกับ GLS

วิธีการตามความน่าจะเป็นโดยทั่วไปจะถือว่าการแจกแจงสำหรับทั้งเอฟเฟกต์แบบสุ่มและคำผิดพลาด สมมติฐานการแจกแจงแบบปกตินั้นใช้กันทั่วไป แต่ก็มีงานวิจัยบางชิ้นที่สมมติว่าการแจกแจงแบบไม่ปกติ ฉันจะทำตาม @ สัญลักษณ์ ChristophHanck สำหรับรูปแบบการตัดแบบสุ่มและช่วยให้ข้อมูลที่ไม่สมดุลเช่นการให้ฉันT=nผม

รูปแบบคือ กับ η ฉัน ~ N ( 0 , σ 2 η ) , ε ฉันที ~ N ( 0 , σ 2 ε )

Yผมเสื้อ=xผมเสื้อ'β+ηผม+εผมเสื้อผม=1,...,ม.,เสื้อ=1,...,nผม
ηผม~ยังไม่มีข้อความ(0,ση2),εผมเสื้อ~ยังไม่มีข้อความ(0,σε2)

สำหรับแต่ละ , ดังนั้นฟังก์ชั่นบันทึกความน่าจะเป็นคือy ฉันฉันN ( X ฉัน β , Σ ฉัน ) ,ผม const-1

yiN(Xiβ,Σi),Σi=ση21ni1ni+σϵ2Ini.
const12ilog|Σi|12i(yiXiβ)Σi1(yiXiβ).

เมื่อทราบความแปรปรวนทั้งหมดดังที่แสดงใน Laird and Ware (1982) MLE คือ ซึ่งเทียบเท่ากับ GLSมาจาก @ChristophHanck ดังนั้นความแตกต่างที่สำคัญคือการประมาณค่าผลต่าง เนื่องจากไม่มีวิธีแก้ปัญหาแบบปิดมีหลายวิธี:βRE

β^=(iXiΣi1Xi)1(iXiΣi1yi),
β^RE
  • เพิ่มฟังก์ชั่นการบันทึกความเป็นไปได้สูงสุดโดยตรงโดยใช้อัลกอริธึมการเพิ่มประสิทธิภาพ
  • อัลกอริธึม - ความคาดหวัง (EM): มีการแก้ปัญหาแบบปิดอยู่แล้ว แต่ตัวประมาณเกี่ยวข้องกับการทดลองแบบเบส์ที่สกัดจากการทดลองแบบสุ่มβ
  • การรวมกันของทั้งสองข้างต้นอัลกอริทึมที่คาดหวัง / มีเงื่อนไขทั้ง (ECME) อัลกอริทึม (Schafer, 1998; แพคเกจ R lmm) ด้วย parameterization ที่แตกต่างกันปิดรูปแบบโซลูชั่นสำหรับ (ข้างต้น) และอยู่ วิธีแก้ปัญหาสำหรับสามารถเขียนเป็นที่ถูกกำหนดเป็นและสามารถประเมินได้ในกรอบ EMσ 2 ε σ 2 ε σ 2 ε = 1βσϵ2σϵ2ξσ2η/σ2ε
    σϵ2=1inii(yiXiβ^)(ξ^1ni1ni+Ini)1(yiXiβ^),
    ξση2/σϵ2

โดยสรุป MLE มีสมมติฐานการกระจายและมีการประมาณในอัลกอริทึมซ้ำ ความแตกต่างที่สำคัญระหว่าง MLE และ GLS คือการประมาณค่าผลต่าง

ครัวซองต์และมิลโล (2008) ชี้ให้เห็นว่า

ในขณะที่อยู่ภายใต้ภาวะปกติ homoskedasticity และไม่มีความสัมพันธ์แบบอนุกรมของข้อผิดพลาด OLS ยังเป็นตัวประมาณค่าความน่าจะเป็นสูงสุดในกรณีอื่น ๆ ทั้งหมดมีความแตกต่างที่สำคัญ

ในความเห็นของฉันสำหรับสมมติฐานการกระจายเช่นเดียวกับความแตกต่างระหว่างวิธีการแบบพารามิเตอร์และแบบไม่ใช่พารามิเตอร์ MLE จะมีประสิทธิภาพมากขึ้นเมื่อมีการสันนิษฐานในขณะที่ GLS จะแข็งแกร่งกว่า


ฉันสงสัยว่าปัญหาเกี่ยวกับข้อความแสดงข้อผิดพลาดเกี่ยวข้องกับฉันอย่างใดอย่างหนึ่งในการสร้างตัวแปรเป็นพาหะ? บางที PLM ชอบที่จะเก็บข้อมูลต่าง ๆ กันไหม?
Christoph Hanck

1
nerloveทำงานได้ดีที่นี่ แต่ใช้ไม่ได้กับพาเนลที่ไม่สมดุลเนื่องจากฉันค้นพบโดยการลบการสังเกต 1 รายการจากพาเนลสุดท้ายและพยายามเรียกใช้วิธีการทั้งหมด
อะมีบาพูดว่า Reinstate Monica

2
@ChristophHanck @amoeba plmข้อผิดพลาดที่random.method="amemiya"เกิดขึ้นกับฉันที่พวกเขาอาจจะควรใช้X[, -1, drop=FALSE]แทนX[, -1]การรักษารูปแบบเมทริกซ์X[, -1]เมื่อมี covariate เพียงหนึ่งในรูปแบบ อย่างไรก็ตามฉันพยายามเอาชนะมันโดยการเพิ่มตัวแปรปกติมาตรฐานลงในสูตร amemiyaทำซ้ำผลลัพธ์ด้วยการประมาณ -1.02 และทำงานกับข้อมูลที่ไม่สมดุลเช่นกัน
Randel

3
@ jiebiao-wang @ChristophHanck @amoeba เวอร์ชันการพัฒนาปัจจุบันของ plm ทำงานได้ดีกับrandom.method="amemiya": var std.dev แบ่งปันนิสัยแปลก 0.6360 0.7975 0.002 บุคคล 313.6510 17.7102 0.998 theta: 0.9841
Helix123

1
สวัสดี @JiebiaoWang ฉันคิดว่าหลังจากอัปเดตแล้วคำตอบของคุณจะตอบคำถามของฉันอย่างน่าพอใจ ฉันใช้เสรีภาพในการแก้ไขและแทรกการอัปเดตamemiyaและอ้างถึง ML vs GLS ฉันกำลังทำเครื่องหมายว่าเป็นที่ยอมรับและจะให้รางวัลเป็นรางวัล ไชโย
อะมีบาพูดว่า Reinstate Monica

17

คำตอบนี้ไม่ได้แสดงความคิดเห็นในแบบผสม แต่ฉันสามารถอธิบายได้ว่าตัวประมาณผลกระทบแบบสุ่มทำอะไรและทำไมมันถึงขันบนกราฟนั้น

สรุป: สุ่มผลประมาณการถือว่าE[uix]=0ซึ่งไม่เป็นความจริงในตัวอย่างนี้


ตัวประมาณเอฟเฟกต์แบบสุ่มกำลังทำอะไรอยู่

สมมติว่าเรามีรูปแบบ:

yit=βxit+ui+ϵit

เรามีสองมิติของการเปลี่ยนแปลง: กลุ่มiและเวลาทีtในการประมาณβเราสามารถ:

  1. ใช้รูปแบบอนุกรมเวลาภายในกลุ่มเท่านั้น นี่คือสิ่งที่ตัวประมาณผลกระทบคงที่ทำ (และนี่คือสาเหตุที่มักเรียกว่าตัวประมาณภายใน)
  2. ถ้าuiเป็นแบบสุ่มเราสามารถใช้เพียงรูปแบบตัดขวางระหว่างอนุกรมเวลาวิธีการของกลุ่ม สิ่งนี้เรียกว่าตัวประมาณระหว่าง

    สำหรับแต่ละกลุ่มiโดยเฉพาะให้ใช้เวลาเฉลี่ยของโมเดลข้อมูลพาเนลข้างต้นเพื่อรับ:

    y¯i=βx¯i+vi where vi=ui+ϵ¯i

    ถ้าเราใช้การถดถอยนี้เราจะได้ค่าประมาณ สังเกตว่ามันเป็นประมาณการที่สอดคล้องกันถ้าผลกระทบuiเป็นเสียงสีขาวสุ่ม uncorrelated กับx ! หากเป็นกรณีนี้การสลับระหว่างรูปแบบกลุ่ม (อย่างที่เราทำกับตัวประมาณค่าคงที่) นั้นไม่มีประสิทธิภาพ

ตัวประมาณผลกระทบแบบสุ่มของเศรษฐมิติจะรวม (1) ภายในตัวประมาณ (เช่นตัวประมาณผลกระทบคงที่) และ (2) ระหว่างตัวประมาณค่าเพื่อหาประสิทธิภาพสูงสุด มันเป็นโปรแกรมของทั่วไปน้อยสแควร์และแนวคิดพื้นฐานคือผกผันน้ำหนักแปรปรวน เพื่อเพิ่มประสิทธิภาพการสุ่มผลประมาณการคำนวณβเป็นค่าเฉลี่ยถ่วงน้ำหนักของประมาณการภายในและระหว่างประมาณการβ^

เกิดอะไรขึ้นในกราฟนั้น ...

เพียงแค่ดูกราฟนั้นคุณสามารถเห็นได้อย่างชัดเจนว่าเกิดอะไรขึ้น:

  • ในแต่ละกลุ่มi (เช่นจุดที่มีสีเดียวกัน) สูงxitมีความเกี่ยวข้องกับที่ต่ำกว่าyit
  • กลุ่มiมีสูงx¯iมีความสูงuiฉัน

สมมติฐานสุ่มเอฟเฟกต์ที่E[uix]=0ไม่ชัดเจน ผลกระทบกลุ่มuiไม่ได้ฉากกับx (ในความรู้สึกสถิติ) ค่อนข้างผลกระทบกลุ่มที่มีความสัมพันธ์ในเชิงบวกชัดเจนกับxx

E[uix]=0E[uix]=0β^

จากนั้นในการเปิดตัวประมาณผลกระทบแบบสุ่มถูกปิดเพราะมันเป็นค่าเฉลี่ยถ่วงน้ำหนักของตัวประมาณภายในและระหว่างตัวประมาณ


+1 ขอบคุณแมทธิว ไม่แน่ใจว่าทำไมใครบางคนลดคำตอบของคุณ ฉันกำลังมองหาคำตอบที่สร้างการเชื่อมต่อกับโมเดลผสมดังนั้นฉันจะไม่ยอมรับคุณ แต่ฉันก็ยังพบว่ามันมีประโยชน์สำหรับการสนทนานี้ หากคุณสามารถขยายเล็กน้อยเกี่ยวกับวิธีการใช้ GLS และการถ่วงน้ำหนักค่าความแปรปรวนแบบผกผันและคำนวณที่นี่มันจะมีประโยชน์มาก
อะมีบาพูดว่า Reinstate Monica

16

ในคำตอบนี้ฉันขออธิบายเล็กน้อยเกี่ยวกับคำตอบ +1 ของ Matthew เกี่ยวกับมุมมอง GLS เกี่ยวกับสิ่งที่วรรณกรรมเศรษฐศาสตร์เรียกว่าตัวประมาณผลกระทบแบบสุ่ม

มุมมอง GLS

yit=α+Xitβ+uiti=1,,m,t=1,,T
E(uit|Xit)=0n=mT

uit

uit=ηi+ϵit

y=αιmT+Xβ+Dη+ϵ
yϵnyitϵitDn×mDiDii=1,,m

E(ϵϵ)=σϵ2I

ηϵit

E(ηi|X)=0
ηiση2

Var(uit)=ση2+σϵ2Cov(uit,uis)=ση2Cov(uit,ujs)=0for all ij

n×nΩ

Ω=(ΣOOOΣOOOΣ)
Σ=ση2ιι+σϵ2IT
ιT
Ω=ση2(Imιι)+σϵ2(ImIT)
β^RE=(XΩ1X)1XΩ1y
Ω1JT=ιιJ¯T=JT/TET=ITJ¯T
Ω=Tση2(ImJ¯T)+σϵ2(ImET)+σϵ2(ImJ¯T)
Ω=(Tση2+σϵ2)(ImJ¯T)+σϵ2(ImET)
P=ImJ¯TQ=ImET
Ω1=1σ12P+1σϵ2Q=ση2σ12σϵ2(Imιι)+1σϵ2(ImIT),
σ12=Tση2+σϵ2

ηi

(yitθy¯i)=(XitθX¯i)β+(uitθui),
θ=1ση/σ1θ=1θθ=0

เป็นไปได้ GLS

σ12σϵ2

uit

σ^12=T1mi=1mu¯i2
σ^ϵ2=1m(T1)i=1mt=1T(uit1mi=1mu¯i)2
u¯ii

u

iηi=0α^=y¯X¯β^FEitu^=yα^Xβ^FE

σ^ϵ2=[yQ(IX(XQX)1XQ)y]/[m(T1)K]
σ^12=[yP(IZ(ZPX)1ZP)y]/[mK1]
Z=(ιmTX)

ση2i=1m(η^iη^¯)2/(m1)η^iσ^ϵ2mT

ฉันประหลาดใจมากที่สิ่งเหล่านี้สร้างความแตกต่างอย่างมากดังที่แสดงโดยการคำนวณของ Randelar!

แก้ไข:

plmβamemiya

> ercomp(stackY~stackX, data = paneldata, method = "walhus")
                  var std.dev share
idiosyncratic 21.0726  4.5905 0.981
individual     0.4071  0.6380 0.019
theta:  0.06933  
> ercomp(stackY~stackX, data = paneldata, method = "swar")
                 var std.dev share
idiosyncratic 0.6437  0.8023 0.229
individual    2.1732  1.4742 0.771
theta:  0.811  
> ercomp(stackY~stackX, data = paneldata, method = "nerlove")
                   var  std.dev share
idiosyncratic   0.5565   0.7460 0.002
individual    342.2514  18.5000 0.998
theta:  0.9857  

X

หากคุณแทนที่คุณสมบัติ "offending" ของตัวอย่างนั้น

alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))

พูดง่าย ๆ

alpha = runif(n)

Xββ=1


อ้างอิง

Amemiya, T. , 1971, การประมาณค่าความแปรปรวนในรูปแบบความแปรปรวน - องค์ประกอบ , International Economic Review 12, 1–13

Baltagi, BH, การวิเคราะห์ทางเศรษฐมิติของข้อมูลแผง, ไวลีย์

Nerlove, M. , 1971a, หลักฐานอื่น ๆ เพิ่มเติมในการประมาณค่าความสัมพันธ์ทางเศรษฐกิจแบบไดนามิกจากอนุกรมเวลาของการข้ามส่วนที่ , โคโน 39, 359-382

Swamy, PAVB และ SS Arora, 1972, คุณสมบัติตัวอย่างแน่นอนที่แน่นอนของตัวประมาณค่าสัมประสิทธิ์ในแบบจำลองการถดถอยองค์ประกอบข้อผิดพลาด , Econometrica 40, 261-275

Wallace, TD และ A. Hussain, 1969, การใช้โมเดลข้อผิดพลาดในการรวมข้อมูลข้ามส่วนและอนุกรมเวลา , Econometrica 37, 55–72


4
+1 ขอบคุณ Christoph สิ่งนี้มีประโยชน์และฉันก็มีความสุขที่ได้เห็นรายละเอียดทางคณิตศาสตร์ในหัวข้อนี้ มันจะเป็นการดีถ้าคุณค้นหาว่าวิธีการทั้งสี่วิธีนำไปใช้plmและจดทะเบียนโดย Randely ทำงานอย่างไรและอัปเดตคำตอบของคุณพร้อมความคิดเห็นเกี่ยวกับมัน หากไม่ใช่คำอธิบายโดยละเอียดอย่างน้อยก็มีบันทึกย่อสั้น ๆ เกี่ยวกับสิ่งที่เกิดขึ้น คุณคิดว่าคุณจะสามารถค้นหามันได้หรือไม่? ฉันมีความสุขที่จะให้รางวัลสำหรับ :-) วิธีการที่ไร้เดียงสาของฉันจะประเมิน sigmas ทั้งสองจากการแก้ไขผลกระทบคงที่ มันสอดคล้องกับหนึ่งในวิธีการ "ตั้งชื่อ" หรือไม่?
อะมีบาพูดว่า Reinstate Monica

@ amoeba ฉันรวมความคิดเห็นเกี่ยวกับวิธีการประมาณค่าความแปรปรวนในรูปแบบองค์ประกอบข้อผิดพลาด ดูเหมือนว่าข้อเสนอแนะของคุณจะเกี่ยวข้องอย่างใกล้ชิดกับ Amemiya
Christoph Hanck

σεση

ση2(σ^12σ^ϵ2)/T

1
Ω-1lmer

11

ยังไม่มีข้อความ=ΣผมTผม

นี่คือ Stata บางส่วนที่แสดงความเท่าเทียมกัน (ต้องการesttabและeststoจาก SSC):

set more off
estimates clear
webuse nlswork, clear
eststo, title(mixed): mixed ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure || id: // Mixed estimator
eststo, title(MLE): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) mle // MLE RE estimator 
eststo, title(GLS): xtreg ln_w grade age c.age#c.age ttl_exp tenure c.tenure#c.tenure, i(id) re // GLS RE estimato
esttab *, b(a5) se(a5) mtitle 

นี่คือผลลัพธ์ของบรรทัดสุดท้าย:

. esttab *, b(a5) se(a5) mtitle 

------------------------------------------------------------
                      (1)             (2)             (3)   
                    mixed             MLE             GLS   
------------------------------------------------------------
main                                                        
grade            0.070790***     0.070790***     0.070760***
              (0.0017957)     (0.0017957)     (0.0018336)   

age              0.031844***     0.031844***     0.031906***
              (0.0027201)     (0.0027202)     (0.0027146)   

c.age#c.age   -0.00065130***  -0.00065130***  -0.00065295***
             (0.000044965)    (0.000044971)    (0.000044880)   

ttl_exp          0.035228***     0.035228***     0.035334***
              (0.0011382)     (0.0011392)     (0.0011446)   

tenure           0.037134***     0.037134***     0.037019***
              (0.0015715)     (0.0015723)     (0.0015681)   

c.tenure#c~e   -0.0018382***   -0.0018382***   -0.0018387***
             (0.00010128)    (0.00010128)    (0.00010108)   

_cons             0.14721***      0.14721***      0.14691** 
               (0.044725)      (0.044725)      (0.044928)   
------------------------------------------------------------
lns1_1_1                                                    
_cons            -1.31847***                                
               (0.013546)                                   
------------------------------------------------------------
lnsig_e                                                     
_cons            -1.23024***                                
              (0.0046256)                                   
------------------------------------------------------------
sigma_u                                                     
_cons                             0.26754***                
                              (0.0036240)                   
------------------------------------------------------------
sigma_e                                                     
_cons                             0.29222***                
                              (0.0013517)                   
------------------------------------------------------------
N                   28099           28099           28099   
------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

ในข้อมูลของคุณสมมติฐานสำหรับการใช้ตัวประมาณ RE ไม่เป็นที่พอใจเนื่องจากผลกระทบของกลุ่มมีความสัมพันธ์อย่างชัดเจนกับ x ดังนั้นคุณจะได้รับการประมาณการที่แตกต่างกันมาก ตัวประมาณ GLS RE เป็นวิธีการประมาณช่วงเวลาทั่วไป (GMM) ซึ่งเป็นค่าเฉลี่ยถ่วงน้ำหนักเมทริกซ์ระหว่างและภายในตัวประมาณ ตัวประมาณภายในจะโอเคที่นี่ แต่ตัวคั่นระหว่างนั้นจะถูกขันอย่างสุดซึ้งแสดงให้เห็นถึงผลกระทบเชิงบวกอย่างมากของ X ดังนั้น GLS จะส่วนใหญ่เป็นตัวประมาณระหว่าง MLE RE เป็น MLE ที่เพิ่มความน่าจะเป็นของโมเดลเอฟเฟกต์แบบสุ่ม พวกเขาไม่คาดหวังที่จะให้คำตอบเดียวกันอีกต่อไป ที่นี่ตัวประมาณแบบผสมกำลังให้อะไรบางอย่างใกล้เคียงกับ FE "ภายใน" ตัวประมาณ:

. esttab *, b(a5) se(a5) mtitle 

----------------------------------------------------------------------------
                      (1)             (2)             (3)             (4)   
                    mixed             GLS             MLE          Within   
----------------------------------------------------------------------------
main                                                                        
x                -1.02502***      0.77031**       3.37983***     -1.04507***
               (0.092425)       (0.26346)       (0.20635)      (0.093136)   

_cons             30.2166***      18.3459***      0.49507         30.3492***
                (5.12978)       (2.31566)             (.)       (0.62124)   
----------------------------------------------------------------------------
lns1_1_1                                                                    
_cons             2.87024***                                                
                (0.20498)                                                   
----------------------------------------------------------------------------
lnsig_e                                                                     
_cons            -0.22598**                                                 
               (0.077195)                                                   
----------------------------------------------------------------------------
sigma_u                                                                     
_cons                                             2.40363                   
                                                (1.28929)                   
----------------------------------------------------------------------------
sigma_e                                                                     
_cons                                             4.23472***                
                                                (0.37819)                   
----------------------------------------------------------------------------
N                      96              96              96              96   
----------------------------------------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

นี่คือรหัส Stata สำหรับตารางด้านบน:

clear
set more off
estimates clear

input int(obs id t) double(y x)
1      1           1  2.669271  0.5866982
2      1           2  1.475540  1.3500454
3      1           3  4.430008  0.6830919
4      1           4  2.162789  0.5845966
5      1           5  2.678108  1.0038879
6      1           6  3.456636  0.5863289
7      1           7  1.769204  2.3375403
8      1           8  3.413790  0.9640034
9      2           1  4.017493  1.5084121
10     2           2  4.218733  2.8982499
11     2           3  4.509530  3.2141335
12     2           4  6.106228  2.0317799
13     2           5  5.161379  2.1231733
14     2           6  2.724643  4.3369017
15     2           7  4.500306  1.9141065
16     2           8  4.119322  2.8667938
17     3           1  9.987779  2.3961969
18     3           2  7.768579  3.5509275
19     3           3  9.379788  3.3284869
20     3           4 10.035937  2.2997389
21     3           5 11.752360  2.8143474
22     3           6  9.500264  2.1825704
23     3           7  8.921687  5.0126462
24     3           8  8.269932  3.4046339
25     4           1 12.101253  3.2928033
26     4           2 11.482337  3.1645218
27     4           3 10.648010  4.8073987
28     4           4  9.687320  5.3394193
29     4           5 12.796925  3.1197431
30     4           6  9.971434  4.6512983
31     4           7 10.239717  4.7709378
32     4           8 12.245207  2.7952426
33     5           1 18.473320  5.8421967
34     5           2 19.097212  4.9425391
35     5           3 19.460495  4.9166172
36     5           4 18.642305  4.9856035
37     5           5 17.723912  5.0594425
38     5           6 16.783248  4.8615618
39     5           7 16.100984  6.2069167
40     5           8 18.851351  3.8856152
41     6           1 19.683171  7.5568816
42     6           2 21.104231  6.7441900
43     6           3 22.115529  6.4486514
44     6           4 22.061362  5.3727434
45     6           5 22.457905  5.8665798
46     6           6 21.424413  6.0578997
47     6           7 23.475946  4.4024323
48     6           8 24.884950  4.1596914
49     7           1 25.809011  7.6756255
50     7           2 25.432828  7.7910756
51     7           3 26.790387  7.3858301
52     7           4 24.640850  8.2090606
53     7           5 26.050086  7.3779219
54     7           6 25.297148  6.8098617
55     7           7 26.551229  7.6694272
56     7           8 26.669760  6.4425772
57     8           1 26.409669  8.3040894
58     8           2 26.570003  8.4686087
59     8           3 29.018818  7.2476785
60     8           4 30.342613  4.5207729
61     8           5 26.819959  8.7935557
62     8           6 27.147711  8.3141224
63     8           7 26.168568  9.0148308
64     8           8 27.653552  8.2081808
65     9           1 34.120485  7.8415520
66     9           2 31.286463  9.7234259
67     9           3 35.763403  6.9202442
68     9           4 31.974599  9.0078286
69     9           5 32.273719  9.4954288
70     9           6 29.666208 10.2525763
71     9           7 30.949857  9.4751679
72     9           8 33.485967  8.1824810
73    10           1 36.183128 10.7891587
74    10           2 37.706116  9.7119548
75    10           3 38.582725  8.6388290
76    10           4 35.876781 10.8259279
77    10           5 37.111179  9.9805046
78    10           6 40.313149  7.7487456
79    10           7 38.606329 10.2891107
80    10           8 37.041938 10.3568765
81    11           1 42.617586 12.1619185
82    11           2 41.787495 11.1420338
83    11           3 43.944968 11.1898730
84    11           4 43.446467 10.8099599
85    11           5 43.420819 11.2696770
86    11           6 42.367318 11.6183869
87    11           7 43.543785 11.1336555
88    11           8 43.750271 12.0311065
89    12           1 46.122429 12.3528733
90    12           2 47.604306 11.4522787
91    12           3 45.568748 13.6906476
92    12           4 48.331177 12.3561907
93    12           5 47.143246 11.7339915
94    12           6 44.461190 13.3898768
95    12           7 46.879044 11.4054972
96    12           8 46.314055 12.3143487
end

eststo, title(mixed): mixed y x || id:, mle // Mixed estimator
eststo, title(GLS): xtreg y x, i(id) re     // GLS RE estimato
eststo, title(MLE): xtreg y x, i(id) mle    // MLE RE estimator 
eststo, title(Within): xtreg y x, i(id) fe  // FE Within estimator 
eststo, title(Between): xtreg y x, i(id) be // Between estimator 

esttab *, b(a5) se(a5) mtitle 

+1 ขอบคุณ Dimitriy เป็นประโยชน์อย่างยิ่งหากเห็นผลลัพธ์ของ Stata ในชุดของเล่นเดียวกัน ฉันมีคำถามเกี่ยวกับตัวประมาณ MLE ฉันคิดว่ารูปแบบผสม ( mixedใน Stata และlmerใน R) เป็นโอกาสสูงสุดหรือบางครั้ง "จำกัด โอกาสสูงสุด" (ฉันสามารถใช้ทั้งในการlmerโทรของฉันโดยการตั้งค่าREML=TหรือREML=Fและพวกเขาให้ผลลัพธ์ที่เหมือนกันเกือบ) อย่างไรก็ตามวิธีการแบบผสมให้ผลลัพธ์ที่สมเหตุสมผลและถูกต้องมากในขณะที่ Stat เรียกว่า "MLE" ให้ผลลัพธ์ที่ไร้สาระในกรณีนี้ อะไรคือความแตกต่าง? "MLE" ของ Stat หมายถึงอะไร?
อะมีบาพูดว่า Reinstate Monica

2
@ amoeba ทั้งสองmixed, mleและxtreg, mleเป็นตัวประมาณ MLE แต่ฟังก์ชั่นโอกาสจะแตกต่างกันบ้าง ดูที่นี่สำหรับอดีตและที่นี่เพื่อหลัง ฉันไม่ค่อยเข้าใจว่าทำไมmixedรูปแบบถึงแข็งแกร่ง
Dimitriy V. Masterov

xtmixed คือสิ่งที่ถูกผสมในรุ่นเก่าของ Stata สำหรับข้อมูลของคุณความเท่ากันนั้นไม่ได้เก็บไว้อย่างชัดเจนในขณะที่มันเก็บไว้สำหรับข้อมูลของฉันตามคู่มือแนะนำ
Dimitriy V. Masterov

ssc install estoutแม้ว่าความทรงจำของฉันคือมันมีฟังก์ชั่นที่แตกต่างกันในรุ่นที่แตกต่างกันและล้มเหลวในการเข้ากันได้ย้อนหลัง
StasK

1
@StasK วางฉันในการติดต่อกับการสนับสนุนเทคโนโลยี Stata และพวกเขากล่าวว่ามันน่าจะเป็นข้อผิดพลาดใน xtreg, mle"โดยทั่วไปแล้วผลลัพธ์ควรเหมือนกัน [... ] ความแตกต่างแบบนี้เกิดขึ้นเมื่อมีปัญหาการระบุในการประมาณค่าพารามิเตอร์ของแบบจำลอง [... ] ฉันตรวจสอบหมายเลขเงื่อนไขสำหรับความแปรปรวน เมทริกซ์ความแปรปรวนร่วมที่เกิดจากการคำนวณและจำนวนนั้นโดยทั่วไปจะไม่มีที่สิ้นสุดสำหรับ -xtreg, mle- และมากกว่า 4,000 สำหรับ -mixed, mle-. [... ] นักพัฒนา [... ] จะประเมินปัญหาเพื่อตรวจสอบว่า จำเป็นต้องใช้รหัสคงที่ "
อะมีบาพูดว่า Reinstate Monica

9

ให้ฉันสับสนมากขึ้น:


αi

αi

การสนทนา (คัดลอกมาบางส่วนจากบันทึกย่อของชั้นเรียน)

"ข้อได้เปรียบหลักของวิธีแก้ไขเอฟเฟกต์ถาวรคือเราไม่จำเป็นต้องตั้งสมมติฐานใด ๆ เกี่ยวกับธรรมชาติของเอฟเฟ็กต์แต่ละอย่างเราควรใช้มันทุกครั้งที่เราสงสัยว่าหลังมีความสัมพันธ์กับรีจีสเตอร์ตั้งแต่หนึ่งกรณีขึ้นไป การเพิกเฉยต่อความสัมพันธ์ดังกล่าวและการใช้ OLS แบบไร้เดียงสาในโมเดล pooled สร้างตัวประมาณที่ไม่สอดคล้องกันแม้จะมีการอุทธรณ์โดยอาศัยสมมติฐานที่น้อยที่สุดที่เราต้องทำเกี่ยวกับผลกระทบของแต่ละบุคคล แต่วิธีผลกระทบคงที่นั้นมีข้อ จำกัด อันดับแรก ไม่สามารถประมาณค่า regressors ที่เปลี่ยนแปลงได้เนื่องจากตัวแปรเหล่านี้แตกต่างออกไปพร้อมกับเอฟเฟกต์ส่วนบุคคลที่ไม่สามารถสังเกตเห็นได้ประการที่สองผลกระทบของแต่ละบุคคล (ในกรณีที่เราใช้ตัวประมาณค่า LSDV) ไม่สามารถประมาณได้อย่างสม่ำเสมอ (ยกเว้นถ้าเราปล่อยให้มิติเวลาไม่มีที่สิ้นสุด) "


αi

ในส่วนขยายที่น่าสนใจการสุ่มเพิ่มเติมเกิดขึ้นจากการมีเอฟเฟกต์ของเวลาแบบสุ่มทั่วไปในทุกส่วนข้าม แต่เวลาเปลี่ยนแปลงไปพร้อมกับเอฟเฟกต์แต่ละค่าคงที่ ตัวอย่างเช่น "เอฟเฟ็กต์เวลา" นี้อาจแสดงให้เห็นถึงความตื่นตระหนกโดยรวมในระดับเศรษฐกิจที่มีผลกระทบต่อทุกครัวเรือนอย่างเท่าเทียมกัน การรบกวนโดยรวมดังกล่าวมีการสังเกตอย่างแน่นอนและดังนั้นจึงเป็นตัวเลือกการสร้างแบบจำลองที่สมจริง

เครื่องมือประมาณการ "เอฟเฟ็กต์แบบสุ่ม" เป็นตัวประมาณกำลังสองน้อยที่สุด (GLS) เพื่อประสิทธิภาพที่เพิ่มขึ้น

ตอนนี้เครื่องมือประมาณค่าที่เข้าใจได้อีกตัวหนึ่งคือ "ระหว่าง" เครื่องมือประมาณการใช้งาน OLS ในการสังเกตการณ์โดยเฉลี่ย จากพีชคณิตมันแสดงให้เห็นว่าตัวประมาณ GLS สามารถรับได้เป็นค่าเฉลี่ยถ่วงน้ำหนักของตัวประมาณและภายในระหว่างซึ่งตุ้มน้ำหนักไม่ได้มีกฎเกณฑ์ แต่เกี่ยวข้องกับเมทริกซ์ VCV ของทั้งสอง

... และนอกจากนี้ยังมีรูปแบบของ "เอฟเฟ็กต์แบบสุ่มที่ไม่เกี่ยวข้อง" และ "เอฟเฟ็กต์แบบสุ่มที่สัมพันธ์กัน"

ฉันหวังว่าสิ่งที่กล่าวมาข้างต้นช่วยสร้างความแตกต่างด้วยโมเดล "เอฟเฟ็กต์แบบผสม"


+1 ขอบคุณ Alecos สิ่งนี้มีประโยชน์ แต่ความสัมพันธ์ของทั้งหมดกับวิธีแบบผสมยังไม่ชัดเจนสำหรับฉัน ฉันเริ่มสงสัยว่าอาจไม่มีความสัมพันธ์ใด ๆ ตัวประมาณและภายใน (และภายในนั้นเทียบเท่ากับหุ่นจำลอง) มีวิธีที่ชัดเจน ความสับสนของฉันเป็นเพียงเกี่ยวกับวิธีการสุ่มผล
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.