ความแตกต่างระหว่างข้อมูลพาเนลและโมเดลผสม


14

ฉันต้องการทราบความแตกต่างระหว่างการวิเคราะห์ข้อมูลแบบพาเนลและการวิเคราะห์แบบผสม ตามความรู้ของฉันทั้งข้อมูลพาเนลและโมเดลผสมใช้เอฟเฟกต์แบบคงที่และสุ่ม ถ้าเป็นเช่นนั้นทำไมพวกเขาถึงมีชื่อต่างกัน? หรือพวกเขามีความหมายเหมือนกัน?

ฉันได้อ่านโพสต์ต่อไปนี้ซึ่งอธิบายคำจำกัดความของเอฟเฟกต์คงที่สุ่มและผสม แต่ไม่ตอบคำถามของฉันอย่างแน่นอน: อะไรคือความแตกต่างระหว่างเอฟเฟกต์คงที่เอฟเฟกต์แบบสุ่มและเอฟเฟกต์ผสม

ฉันจะขอบคุณถ้าใครบางคนสามารถอ้างอิงฉันเพื่ออ้างอิงสั้น ๆ (ประมาณ 200 หน้า) ในการวิเคราะห์แบบผสม เพียงเพิ่มฉันต้องการอ้างอิงการสร้างแบบจำลองผสมโดยไม่คำนึงถึงการรักษาซอฟต์แวร์ คำอธิบายเชิงทฤษฎีส่วนใหญ่เกี่ยวกับการสร้างแบบจำลองผสม


ที่เกี่ยวข้อง: stats.stackexchange.com/questions/171313/…
rightskewed

คำตอบ:


22

ทั้งแผงข้อมูลและการจัดการข้อมูลที่มีผลบังคับใช้รูปแบบผสมกับคู่ตัวแปรสุ่มการจัดทำดัชนีเจ ดัชนีแรกสำหรับกลุ่มที่สองคือสำหรับบุคคลภายในกลุ่ม สำหรับข้อมูลพาเนลดัชนีที่สองมักจะเป็นเวลาและจะถือว่าเราสังเกตเห็นบุคคลเมื่อเวลาผ่านไป เมื่อเวลาเป็นดัชนีที่สองสำหรับโมเดลเอฟเฟ็กต์แบบผสมโมเดลจะถูกเรียกว่าโมเดลแบบยาว ตัวแบบเอฟเฟ็กต์ผสมเข้าใจได้ดีที่สุดในแง่ของการถดถอย 2 ระดับ (เพื่อความสะดวกในการอธิบายถือว่าเพียงหนึ่งตัวแปรอธิบาย)yij

การถดถอยระดับแรกมีดังนี้

yij=αi+xijβi+εij.

นี่เป็นเพียงการอธิบายการถดถอยรายบุคคลสำหรับแต่ละกลุ่ม การถดถอยระดับที่สองพยายามอธิบายการเปลี่ยนแปลงในสัมประสิทธิ์การถดถอย:

β ฉัน = δ 0 + z ฉัน2 δ 1 + v ฉัน

αi=γ0+zi1γ1+ui
βi=δ0+zi2δ1+vi

เมื่อคุณแทนที่สมการที่สองเป็นอันแรกที่คุณได้รับ

yij=γ0+zi1γ1+xijδ0+xijzi2δ1+ui+xijvi+εij

ผลกระทบคงเป็นสิ่งที่ได้รับการแก้ไขที่นี้หมายถึง 1 ผลกระทบสุ่มU ฉันและวีฉันγ0,γ1,δ0,δ1uivi

ตอนนี้สำหรับข้อมูลพาเนลการเปลี่ยนแปลงคำศัพท์ แต่คุณยังสามารถค้นหาจุดร่วมได้ โมเดลเอฟเฟ็กต์ข้อมูลแบบสุ่มของพาเนลจะเหมือนกับโมเดลเอฟเฟกต์ผสม

αi=γ0+ui
βi=δ0

ด้วยแบบจำลอง

yit=γ0+xitδ0+ui+εit,

ui

xij

uiviεijxijzixijzixijxitui

yit=γ0+xitδ0+ui+εit,

xituiδ0

yity¯i.=(xitx¯i.)δ0+εitε¯i.,

ui

มีประวัติจำนวนมากที่อยู่เบื้องหลังผลกระทบคงที่และคำศัพท์ผลกระทบแบบสุ่มในเศรษฐมิติข้อมูลแผงซึ่งฉันละเว้น ในความเห็นส่วนตัวของฉันโมเดลเหล่านี้อธิบายได้ดีที่สุดใน " การวิเคราะห์เศรษฐมิติของข้อมูลส่วนและแผงข้อมูลของ Wooldridge " เท่าที่ฉันรู้ว่าไม่มีประวัติดังกล่าวในโมเดลเอฟเฟกต์ผสม แต่ในทางกลับกันฉันมาจากภูมิหลังทางเศรษฐมิติดังนั้นฉันจึงอาจเข้าใจผิด


...+xijvi+ui+εij

คำอธิบายนี้ยอดเยี่ยมมาก! ขอบคุณมากที่ใช้ความพยายามอย่างเต็มที่เพื่อให้การอธิบายที่ยอดเยี่ยมแก่ฉันเพียงแค่ต้องการถามสิ่งหนึ่ง คุณหมายถึงอะไรโดยการถดถอยสองระดับ?
เบต้า

2
@Ari การถดถอยระดับที่สองคือการถดถอยสำหรับสัมประสิทธิ์การถดถอยของการถดถอยระดับแรก การถดถอยระดับแรกพยายามอธิบายความแปรปรวนภายในกลุ่มในขณะที่การถดถอยระดับที่สองพยายามอธิบายความแปรปรวนข้ามกลุ่ม หมวดนี้เป็นของเทียม แต่ฉันชอบเพราะมันให้ความรู้สึกเป็นธรรมชาติสำหรับฉันอย่างน้อย การแบ่งประเภทนี้ยังใช้ในโมเดล Bayes แบบลำดับชั้นด้วย
mpiktas

δ0

3

ฉันเข้าใจว่าคุณกำลังมองหาข้อความที่อธิบายถึงทฤษฎีการสร้างแบบจำลองแบบผสมโดยไม่ต้องอ้างอิงกับชุดซอฟต์แวร์

ฉันจะแนะนำการวิเคราะห์หลายระดับเป็นการแนะนำการสร้างแบบจำลองหลายระดับขั้นพื้นฐานและขั้นสูงโดย Tom Snijders และ Roel Bosker ประมาณ 250pp มันมีบทเกี่ยวกับซอฟต์แวร์ในตอนท้าย (ซึ่งค่อนข้างล้าสมัยแล้ว) แต่ส่วนที่เหลือเป็นทฤษฎีที่เข้าถึงได้ง่ายมาก

ฉันต้องบอกว่าฉันเห็นด้วยกับคำแนะนำข้างต้นสำหรับโมเดลหลายระดับและระยะยาวโดยใช้ Stata โดย Sophia Rabe-Hesketh และ Anders Skrondal หนังสือเล่มนี้เป็นทฤษฎีและส่วนประกอบของซอฟต์แวร์เป็นเพียงส่วนเสริมที่ดีของข้อความ ปกติฉันไม่ได้ใช้ Stata และมีข้อความนั่งอยู่บนโต๊ะและพบว่ามันเขียนได้ดีมาก อย่างไรก็ตามมันยาวกว่า 200pp

ข้อความต่อไปนี้ทั้งหมดเขียนโดยผู้เชี่ยวชาญปัจจุบันในสาขาและจะเป็นประโยชน์สำหรับทุกคนที่ต้องการข้อมูลเพิ่มเติมเกี่ยวกับเทคนิคเหล่านี้ (แม้ว่าพวกเขาจะไม่ตรงกับคำขอของคุณโดยเฉพาะ): [ฉันไม่สามารถลิงก์เหล่านี้ได้เพราะฉันใหม่ ผู้ใช้ขอโทษ]

Hoox, Joop (2010) การวิเคราะห์หลายระดับเทคนิคและการประยุกต์

Gelman, A. และ Hill, J. (2006) การวิเคราะห์ข้อมูลโดยใช้แบบจำลองการถดถอยและแบบหลายระดับ / ลำดับชั้น

Singer, J. (2003) การวิเคราะห์ข้อมูลระยะยาวประยุกต์: การเปลี่ยนแปลงแบบจำลองและการเกิดเหตุการณ์

Raudenbush, SW และ Bryk, A. , S. (2002) โมเดลเชิงเส้นลำดับชั้น: การใช้งานและวิธีการวิเคราะห์ข้อมูล

ลุคดักลาส (2004) แบบจำลองหลายระดับ

ฉันยังต้องการข้อความที่สองของ Wooldridge ที่กล่าวถึงข้างต้นรวมถึงข้อความ R และศูนย์การเรียนรู้การสร้างแบบจำลองหลายระดับของมหาวิทยาลัย B ristol B มีบทเรียนและข้อมูลมากมาย


ขอบคุณ Playitagain! อันนี้เป็นข้อมูลที่มีประโยชน์มาก แม้แต่ชื่อของคุณก็น่าสนใจ :)
เบต้า

2

ฉันก็สงสัยเกี่ยวกับความแตกต่างระหว่างทั้งสองเช่นกันและเมื่อเร็ว ๆ นี้พบการอ้างอิงในหัวข้อนี้ฉันเข้าใจว่า"ข้อมูลแผง"เป็นชื่อดั้งเดิมของชุดข้อมูลที่แสดงถึง "cross-section หรือกลุ่มของผู้ที่สำรวจเป็นระยะ ๆ ช่วงเวลาที่กำหนด " ดังนั้น "แผงควบคุม" คือโครงสร้างกลุ่มภายในชุดข้อมูลและการมีกลุ่มดังกล่าวเป็นวิธีที่เป็นธรรมชาติที่สุดในการวิเคราะห์ข้อมูลประเภทนี้คือผ่านวิธีการผสมแบบจำลอง

การอ้างอิงที่ดี (ไม่ว่าคุณจะ "พูด" R หรือไม่ก็ตาม) ในการสร้างแบบจำลองเอฟเฟ็กต์ผสมคือร่างของหนังสือเตรียมพร้อม (?) โดยดักลาสเบตส์ ( lme4: การสร้างโมเดลผสมเอฟเฟกต์พร้อม R )


1
ขอบคุณ ils สำหรับการอ้างอิง! แต่ปัญหายังคงอยู่
เบต้า

2

@mpiktas ให้คำตอบอย่างละเอียด ฉันจะยังขอแนะนำให้อ่านบทที่ 7 ของเอกสารสำหรับแพคเกจ PLM ใน R การอภิปรายของผู้เขียนเกี่ยวกับความแตกต่างระหว่างโมเดลผสมและข้อมูลพาเนลมีค่าต่อการอ่าน


1

หากคุณใช้โมเดล Stata, Multilevel และ Longitudinal โดยใช้ Stataโดย Sophia Rabe-Hesketh และ Anders Skrondal จะเป็นตัวเลือกที่ดี ขึ้นอยู่กับสิ่งที่คุณสนใจ 200 หน้าอาจจะถูกต้อง


ขอบคุณ Dimitriy สำหรับการอ้างอิง แต่น่าเสียดายที่ฉันไม่ได้ใช้ STATA ฉันใช้ SAS เป็นหลักและบางครั้งอาร์ แต่ก็ขอบคุณอยู่ดี
เบต้า

2
ฉันเคยได้ยินสิ่งดีๆเกี่ยวกับwiley.com/WileyCDA/WileyTitle/productCd-0470073713.htmlแต่ฉันยังไม่ได้อ่านเอง
Dimitriy V. Masterov

ขอบคุณ Dimitriy! มันดูมีแนวโน้มมาก ข้อได้เปรียบของการถามคำถามมากกว่าการกระวนกระวายใจก็คือคุณจะได้รับผลลัพธ์ที่ดีจริงๆ :)
Beta

1

จากประสบการณ์ของฉันเหตุผลในการใช้ 'แผงเศรษฐมิติ' คือตัวประมาณ 'ผลกระทบคงที่' ของแผงควบคุมสามารถใช้ในการควบคุมรูปแบบต่าง ๆ ของอคติตัวแปรที่ถูกตัดออก

อย่างไรก็ตามมีความเป็นไปได้ที่จะทำการประมาณค่าประเภทนี้ภายในโมเดลหลายระดับโดยใช้วิธีการพิมพ์Mundlakเช่นการรวมกลุ่มหมายถึงการถดถอยพิเศษ วิธีการนี้จะลบความสัมพันธ์ระหว่างคำผิดพลาดและระดับกลุ่มที่เป็นไปได้โดยละเว้นปัจจัยซึ่งเผยให้เห็นค่าสัมประสิทธิ์ 'ภายใน' อย่างไรก็ตามด้วยเหตุผลที่ไม่เป็นที่รู้จักสำหรับฉันสิ่งนี้มักไม่ได้ทำในการวิจัยประยุกต์ สไลด์เหล่านี้และเอกสารนี้ให้รายละเอียดเพิ่มเติม


(+1) นักสังคมวิทยามักแปลความหมายของกลุ่มว่าเป็นผลกระทบตามบริบท (แม้ว่านี่จะเป็นข้อมูลที่ซ้อนกันข้ามส่วนมากกว่าสำหรับข้อมูลแผงข้อมูลอนุกรมเวลา) ฉันจะต้องอ่านจากบันทึกที่เกี่ยวข้องManski (1993) ( PDF ที่นี่ ) มีบทความที่แสดงว่าผลกระทบตามบริบทดังกล่าวมักไม่ได้รับการระบุ สำหรับ "เหตุผลนี้ไม่ได้ทำ" ฉันสงสัยว่ามันแตกต่างกันมากระหว่างการปฏิบัติทางสังคมศาสตร์เป็นอะไรมันอาจเป็นคำถามที่ดีที่จะถาม
Andy W
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.