ภายใต้เงื่อนไขใดที่เราควรใช้การวิเคราะห์หลายระดับ / ลำดับชั้น?


36

ภายใต้เงื่อนไขใดที่บางคนควรพิจารณาใช้การวิเคราะห์หลายระดับ / ลำดับชั้นเมื่อเทียบกับการวิเคราะห์ขั้นพื้นฐาน / แบบดั้งเดิม (เช่น ANOVA, OLS regression, ฯลฯ ) มีสถานการณ์ใดบ้างที่สิ่งนี้อาจถูกพิจารณาว่าเป็นข้อบังคับ? มีสถานการณ์ที่ใช้การวิเคราะห์หลายระดับ / ลำดับชั้นไม่เหมาะสมหรือไม่? สุดท้ายอะไรคือแหล่งข้อมูลที่ดีสำหรับผู้เริ่มต้นในการเรียนรู้การวิเคราะห์หลายระดับ / ลำดับชั้น?


3
ดูเพิ่มเติมที่: stats.stackexchange.com/a/38430/5739
StasK

คำตอบ:


22

เมื่อโครงสร้างของข้อมูลของคุณเป็นแบบลำดับชั้นหรือซ้อนกันแบบจำลองหลายระดับเป็นตัวเลือกที่ดี โดยทั่วไปเป็นวิธีหนึ่งในการสร้างแบบจำลองการโต้ตอบ

ตัวอย่างที่เป็นธรรมชาติคือเมื่อข้อมูลของคุณมาจากโครงสร้างที่จัดระเบียบเช่นประเทศรัฐเขตที่คุณต้องการตรวจสอบผลกระทบในระดับเหล่านั้น อีกตัวอย่างหนึ่งที่คุณสามารถปรับโครงสร้างให้เหมาะสมก็คือการวิเคราะห์ตามยาวซึ่งคุณได้ทำการวัดซ้ำจากหลาย ๆ วิชาตลอดเวลา แบบจำลองของคุณระดับหนึ่งถือว่ากลุ่มมีการตอบสนองต่อค่าเฉลี่ยสำหรับทุกวิชาเมื่อเวลาผ่านไป อีกระดับของแบบจำลองของคุณจะช่วยให้เกิดความยุ่งเหยิง (เอฟเฟกต์แบบสุ่ม) จากค่าเฉลี่ยของกลุ่มเพื่อจำลองความแตกต่างของแต่ละบุคคล

หนังสือยอดนิยมและดีที่จะเริ่มต้นด้วยคือการวิเคราะห์ข้อมูลของเจลแมนโดยใช้แบบจำลองการถดถอยและหลายระดับ / ลำดับชั้น


3
ฉันสองคำตอบนี้และต้องการเพิ่มการอ้างอิงที่ดีอื่นในหัวข้อนี้: ข้อความการวิเคราะห์ข้อมูลระยะยาวประยุกต์ของนักร้อง < gseacademic.harvard.edu/alda > แม้ว่าจะเป็นลักษณะเฉพาะของการวิเคราะห์ตามยาว แต่ก็ให้ภาพรวมที่ดีของ MLM โดยทั่วไป ฉันยังพบการวิเคราะห์หลายระดับของ Snidjers และ Bosker < stat.gamma.rug.nl/multilevel.htm > และอ่านได้ John Fox ยังให้คำแนะนำที่ดีเกี่ยวกับแบบจำลองเหล่านี้ใน R ที่นี่ < cran.r-project.org/doc/contrib/Fox-Companion/… >
เบร็ท

ขอบคุณสำหรับคำตอบของคุณ :) ในฐานะที่เป็นคำถามติดตามข้อมูลส่วนใหญ่ไม่สามารถถูกคิดว่าเป็นลำดับชั้น / ซ้อนกันตามธรรมชาติได้หรือไม่? ยกตัวอย่างเช่นในการศึกษาทางจิตวิทยาส่วนใหญ่มีตัวแปรตามจำนวน (แบบสอบถามการตอบสนองต่อสิ่งเร้า ฯลฯ ... ) ที่ซ้อนกันภายในบุคคลซึ่งซ้อนกันเพิ่มเติมภายในสองกลุ่มขึ้นไป (สุ่มหรือไม่ได้รับมอบหมายแบบสุ่ม) คุณเห็นด้วยไหมว่าสิ่งนี้แสดงถึงโครงสร้างข้อมูลแบบลำดับชั้นและ / หรือซ้อนกันตามธรรมชาติ
แพทริค

หากปรมาจารย์หลายระดับ / ลำดับชั้นของคุณสามารถสำรองสักครู่ฉันจะขอบคุณมากถ้าคุณสามารถชั่งน้ำหนักคำถามการวิเคราะห์ที่โพสต์ในโพสต์ที่แตกต่างกัน ( stats.stackexchange.com/questions/1799/ เป็นต้น ) คุณคิดว่าข้อมูลการรับรู้ความเจ็บปวดที่ระบุไว้ในโพสต์นั้นจะวิเคราะห์ได้ดีกว่าโดยการวิเคราะห์แบบลำดับชั้นมากกว่าการวิเคราะห์ที่ไม่เป็นลำดับชั้น? หรือจะไม่สร้างความแตกต่างหรือไม่เหมาะสม? ขอบคุณ: D
Patrick

18

ศูนย์การสร้างแบบจำลองหลายระดับมีแบบฝึกหัดออนไลน์ฟรีที่ดีสำหรับการสร้างแบบจำลองหลายระดับและพวกเขามีแบบฝึกหัดซอฟต์แวร์สำหรับแบบจำลองที่เหมาะสมทั้งในซอฟต์แวร์ MLwiN และ STATA

ใช้สิ่งนี้เป็นบาปเพราะฉันยังไม่ได้อ่านมากกว่าหนึ่งบทในหนังสือ แต่เป็นโมเดลเชิงเส้นลำดับชั้น: แอปพลิเคชันและวิธีการวิเคราะห์ข้อมูลโดย Stephen W. Raudenbush, Anthony S. Bryk แนะนำเป็นอย่างยิ่ง ฉันยังสาบานว่าจะมีหนังสือเกี่ยวกับการสร้างแบบจำลองหลายระดับโดยใช้ซอฟต์แวร์ R ใน Springer Use R! ซีรีส์ แต่ฉันดูเหมือนจะไม่สามารถหาได้ในขณะนี้ (ฉันคิดว่ามันเขียนโดยคนเดียวกันที่เขียนหนังสือ A Beginner's Guide to R)

แก้ไข: หนังสือเกี่ยวกับการใช้ R สำหรับโมเดลหลายระดับคือโมเดลเอฟเฟกต์ผสมและส่วนขยายในระบบนิเวศน์พร้อม R โดย Zuur, AF, Ieno, EN, Walker, N. , Saveliev, AA, Smith, GM

โชคดี


9

นี่เป็นอีกมุมมองหนึ่งเกี่ยวกับการใช้แบบจำลองหลายระดับกับการถดถอย: ในบทความที่น่าสนใจโดย Afshartous และ de Leeuw พวกเขาแสดงให้เห็นว่าถ้าจุดประสงค์ของการสร้างแบบจำลองนั้นเป็นการทำนาย (นั่นคือเพื่อทำนายการสังเกตการณ์ใหม่) เป้าหมายคือการอนุมาน (ที่คุณพยายามจับคู่โมเดลกับโครงสร้างข้อมูล) กระดาษที่ฉันอ้างถึงคือ

Afshartous, D. , de Leeuw, J. (2005) การทำนายในแบบจำลองหลายระดับ J. Educat Behav statist 30 (2): 109-139

ฉันเพิ่งพบกระดาษอื่นที่เกี่ยวข้องโดยผู้เขียนเหล่านี้ที่นี่: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf


6

นี่คือตัวอย่างที่โมเดลหลายระดับอาจ "สำคัญ" สมมติว่าคุณต้องการให้คะแนน "คุณภาพ" ของการศึกษาที่จัดทำโดยชุดของโรงเรียนโดยใช้คะแนนการทดสอบของนักเรียน วิธีหนึ่งในการกำหนดคุณภาพของโรงเรียนคือในแง่ของประสิทธิภาพการทดสอบโดยเฉลี่ยหลังจากพิจารณาคุณสมบัติของนักเรียนแล้ว คุณสามารถกำหนดแนวคิดนี้เป็น ที่เป็นคะแนนการทดสอบอย่างต่อเนื่องสำหรับนักเรียนในโรงเรียน ,คือ คุณลักษณะของนักเรียนที่มีศูนย์กลางที่โรงเรียนหมายความว่าเป็นค่าสัมประสิทธิ์เฉพาะของโรงเรียนสำหรับคุณลักษณะเหล่านี้เป็น "ผลกระทบโรงเรียน" ที่วัดคุณภาพของโรงเรียนและy ฉันsฉันs X ฉันs β s α s ϵ ฉันs α s

yis=αs+Xisβs+ϵis,
yisisXisβsαsϵisเป็นสำนวนระดับนักเรียนในการทำแบบทดสอบ ความสนใจที่นี่มุ่งเน้นไปที่การประเมิน 's ซึ่งวัด "มูลค่าเพิ่ม" ที่โรงเรียนมอบให้กับนักเรียนเมื่อคุณสมบัติของพวกเขาถูกนำมาใช้ คุณต้องการคำนึงถึงคุณลักษณะของนักเรียนเพราะคุณไม่ต้องการลงโทษโรงเรียนที่ดีที่ต้องจัดการกับนักเรียนด้วยข้อเสียบางประการดังนั้นการกดคะแนนการทดสอบโดยเฉลี่ยจึงดูถูก "มูลค่าเพิ่ม" ที่โรงเรียนให้กับนักเรียน αs

ด้วยโมเดลในมือปัญหานี้จะกลายเป็นหนึ่งในการประเมิน หากคุณมีโรงเรียนจำนวนมากและมีข้อมูลจำนวนมากสำหรับแต่ละโรงเรียนคุณสมบัติที่ดีของ OLS (ดู Angrist และ Pischke อันตรายที่สุด ...สำหรับการตรวจสอบในปัจจุบัน) แนะนำว่าคุณต้องการใช้สิ่งนั้นด้วยการปรับข้อผิดพลาดมาตรฐานที่เหมาะสมเพื่ออธิบายการอ้างอิงและการใช้ตัวแปรจำลองและการโต้ตอบเพื่อให้ได้ผลในระดับโรงเรียนและการสกัดกั้นเฉพาะของโรงเรียน OLS อาจไม่มีประสิทธิภาพ แต่ก็โปร่งใสว่ามันอาจจะง่ายต่อการโน้มน้าวใจผู้ฟังที่สงสัยถ้าคุณใช้สิ่งนั้น แต่ถ้าข้อมูลของคุณกระจัดกระจายในบางวิธีโดยเฉพาะอย่างยิ่งถ้าคุณมีข้อสังเกตเล็กน้อยสำหรับบางโรงเรียน --- คุณอาจต้องการกำหนด "โครงสร้าง" เพิ่มเติมเกี่ยวกับปัญหา คุณอาจต้องการ "ยืมกำลัง" จากโรงเรียนตัวอย่างขนาดใหญ่เพื่อปรับปรุงการประมาณการที่มีเสียงดังซึ่งคุณจะได้รับในโรงเรียนตัวอย่างขนาดเล็กหากการประเมินเสร็จสิ้นโดยไม่มีโครงสร้าง จากนั้นคุณอาจเปลี่ยนเป็นแบบจำลองเอฟเฟกต์แบบสุ่มที่ประเมินผ่านทาง FGLS

ในตัวอย่างนี้การใช้โมเดลหลายระดับ (อย่างไรก็ตามเราตัดสินใจที่จะปรับให้เหมาะกับมันในที่สุด) ได้รับแรงบันดาลใจจากความสนใจโดยตรงในการสกัดกั้นระดับโรงเรียน แน่นอนในสถานการณ์อื่น ๆ พารามิเตอร์ระดับกลุ่มเหล่านี้อาจไม่มีอะไรน่ารำคาญไปกว่านี้อีกแล้ว ไม่ว่าคุณจะต้องปรับให้เข้ากับพวกเขาหรือไม่ (และยังคงใช้งานได้กับโมเดลหลายระดับบางประเภท) หรือไม่นั้นขึ้นอยู่กับว่าข้อสมมติฐานที่มีเงื่อนไขบางอย่างมีอยู่หรือไม่ ในที่นี้ฉันจะแนะนำให้คำปรึกษาวรรณคดีเศรษฐมิติในวิธีการข้อมูลแผง; ข้อมูลเชิงลึกส่วนใหญ่จากที่นั่นนำไปสู่บริบทข้อมูลทั่วไปที่จัดกลุ่ม


1
นี่เป็นเธรดเก่า แต่ในกรณีที่คุณอ่านสิ่งนี้: OLS ที่มีตัวแปรจำลองและการโต้ตอบไม่ได้ยืมความแข็งแรงเหมือนกับเทคนิคอื่น ๆ ที่คุณพูดถึงใช่ไหม ฉันมีข้อมูลบางส่วนที่ทำให้การวิเคราะห์ของฉันแตกออกเป็นสองส่วนและใช้สองคำสั่ง lm (R linear model) เพื่อทำโมเดลทั้งสองส่วน ฉันแนะนำตัวแปรดัมมี่เพื่อระบุสองส่วนจากนั้นใช้ lm อีกครั้งในโมเดล "รวม" และคำตอบนั้นใกล้กัน แต่ไม่เหมือนกัน คำถามของฉันคือ: เป็นคำตอบที่ "ดีกว่า" หรือแตกต่างกันเพียงเพราะอัลกอริทึม?
Wayne

@Wayne: หากคุณใช้หุ่นและชุดเต็มของการโต้ตอบในครั้งที่สองการประเมินจุดควรเหมือนกัน ข้อผิดพลาดมาตรฐานอาจแตกต่างกันเนื่องจากวิธีที่สองอาจสันนิษฐานว่ามีระดับความเป็นอิสระสูงกว่า แต่คุณต้องการตรวจสอบว่าเป็นข้อสมมติฐานการสร้างแบบจำลองที่ถูกต้องหรือไม่
Cyrus S

6

การสร้างแบบจำลองหลายระดับมีความเหมาะสมตามชื่อที่แนะนำเมื่อข้อมูลของคุณมีอิทธิพลที่เกิดขึ้นในระดับที่แตกต่างกัน (บุคคล, เมื่อเวลาผ่านไป, ผ่านโดเมน ฯลฯ ) การสร้างแบบจำลองระดับเดียวถือว่าทุกอย่างเกิดขึ้นที่ระดับต่ำสุด สิ่งที่โมเดลหลายระดับทำก็คือการแนะนำสหสัมพันธ์ระหว่างหน่วยที่ซ้อนกัน ดังนั้นหน่วยระดับ 1 ภายในหน่วยระดับ 2 เดียวกันจะมีความสัมพันธ์กัน

ในบางแง่มุมคุณสามารถนึกถึงการสร้างแบบจำลองหลายระดับเป็นการค้นหาจุดกึ่งกลางระหว่าง "การเข้าใจผิดแบบปัจเจกชน" และ "ความผิดพลาดทางระบบนิเวศ" การเข้าใจผิดของปัจเจกชนคือเมื่อไม่สนใจ "ผลกระทบของชุมชน" เช่นความเข้ากันได้ของสไตล์ครูกับรูปแบบการเรียนรู้ของนักเรียนเช่น (คาดว่าผลมาจากบุคคลเพียงอย่างเดียวดังนั้นให้ถดถอยระดับ 1) ในขณะที่ "การเข้าใจผิดทางนิเวศวิทยา" เป็นสิ่งที่ตรงกันข้ามและจะเป็นเช่นนั้นหากว่าครูที่ดีที่สุดมีนักเรียนที่มีผลการเรียนดีที่สุด (และไม่จำเป็นต้องมีระดับ 1 เพียงแค่ทำการถดถอยทั้งหมดในระดับ 2) ในการตั้งค่าส่วนใหญ่ไม่เหมาะสม (นักเรียน - ครูเป็นตัวอย่าง "คลาสสิค")

โปรดสังเกตว่าในตัวอย่างโรงเรียนมีการจัดกลุ่มหรือโครงสร้าง "ธรรมชาติ" ในข้อมูล แต่นี่ไม่ใช่คุณสมบัติที่สำคัญของการสร้างแบบจำลองหลายระดับ / ลำดับชั้น อย่างไรก็ตามการจัดกลุ่มตามธรรมชาติทำให้คณิตศาสตร์และการคำนวณง่ายขึ้น ส่วนประกอบที่สำคัญคือข้อมูลก่อนหน้าซึ่งบอกว่ามีกระบวนการที่เกิดขึ้นในระดับที่แตกต่างกัน ในความเป็นจริงคุณสามารถกำหนดอัลกอริทึมการจัดกลุ่มโดยกำหนดโครงสร้างหลายระดับในข้อมูลของคุณด้วยความไม่แน่นอนเกี่ยวกับหน่วยที่อยู่ในระดับที่สูงขึ้น ดังนั้นคุณมีเมื่อไม่ทราบตัวห้อย jyijj


4

โดยทั่วไปการพูดการวิเคราะห์แบบเบส์ลำดับชั้น (HB) จะนำไปสู่การประมาณการระดับบุคคลที่มีประสิทธิภาพและมีความเสถียรเว้นแต่ว่าข้อมูลของคุณเป็นเช่นนั้นว่าระดับผลกระทบส่วนบุคคลนั้นเป็นเนื้อเดียวกันทั้งหมด ประสิทธิภาพและการประมาณค่าพารามิเตอร์ที่เสถียรของตัวแบบ HB กลายเป็นเรื่องสำคัญอย่างยิ่งเมื่อคุณมีข้อมูลที่กระจัดกระจาย (เช่นไม่น้อยกว่าจำนวนพารามิเตอร์ในระดับบุคคล) และเมื่อคุณต้องการที่จะประมาณค่าระดับบุคคล

อย่างไรก็ตามโมเดล HB นั้นไม่ง่ายที่จะประมาณ ดังนั้นในขณะที่การวิเคราะห์ HB มักจะสำคัญกว่าการวิเคราะห์ที่ไม่ใช่ HB คุณจะต้องชั่งน้ำหนักต้นทุนเทียบกับผลประโยชน์จากประสบการณ์ที่ผ่านมาและลำดับความสำคัญปัจจุบันของคุณในแง่ของเวลาและค่าใช้จ่าย

ต้องบอกว่าถ้าคุณไม่สนใจในการประมาณการระดับบุคคลคุณก็สามารถประมาณแบบจำลองระดับรวมได้ แต่ในบริบทการประมาณแบบจำลองการรวมผ่าน HB โดยใช้การประมาณการในระดับบุคคลอาจสมเหตุสมผลมาก

โดยสรุปแล้ว HB model ที่เหมาะสมเป็นวิธีการที่แนะนำตราบใดที่คุณมีเวลาและความอดทนที่จะพอดี จากนั้นคุณสามารถใช้โมเดลรวมเป็นเกณฑ์มาตรฐานเพื่อประเมินประสิทธิภาพของโมเดล HB ของคุณ


ขอขอบคุณสำหรับคำตอบอย่างละเอียด Srikant :) ฉันยังไม่คุ้นเคยกับการวิเคราะห์แบบเบย์ แต่ฉันเป็นหนึ่งในหัวข้อที่ฉันมีความหมายในการตรวจสอบ การวิเคราะห์แบบลำดับชั้น Bayesian แตกต่างจากการวิเคราะห์หลายระดับ / ลำดับชั้นอื่น ๆ ที่กล่าวถึงในหน้านี้หรือไม่? ถ้าเป็นเช่นนั้นคุณมีทรัพยากรที่แนะนำสำหรับผู้สนใจเพื่อเรียนรู้เพิ่มเติม?
แพทริค

จากการวิเคราะห์มุมมองการวิเคราะห์ HB = แบบจำลองหลายระดับ อย่างไรก็ตามมีการใช้คำว่าแบบจำลองหลายระดับเมื่อคุณมีระดับที่แตกต่างกันซึ่งเกิดขึ้นตามธรรมชาติ (ดูตัวอย่างของ @ars) แบบจำลองคำว่า HB ถูกนำมาใช้เมื่อคุณไม่จำเป็นต้องมีระดับที่แตกต่างกันในสถานการณ์ ตัวอย่างเช่นหากคุณกำลังจำลองการตอบสนองของผู้บริโภคต่อตัวแปรทางการตลาดต่างๆ (เช่นราคาการใช้จ่าย ฯลฯ ) คุณอาจมีโครงสร้างต่อไปนี้ในระดับผู้บริโภค:และที่ระดับประชากร สำหรับการอ้างอิง: ดูคำตอบอื่น ๆ βiN(β¯,Σ)β¯N(.,.)

4

ฉันเรียนรู้จาก Snijders และ Bosker การวิเคราะห์หลายระดับ: บทนำสู่การสร้างแบบจำลองหลายระดับขั้นพื้นฐานและขั้นสูง มันเป็นเสียงแหลมที่ดีสำหรับผู้เริ่มต้นที่ฉันคิดว่ามันต้องเป็นเพราะฉันเป็นนักดนตรีแนวหนาที่ซึ่งสิ่งต่าง ๆ เหล่านี้มีความกังวลและมันสมเหตุสมผลสำหรับฉัน

ฉันสอง Gelman และ Hill เช่นกันเป็นหนังสือที่ยอดเยี่ยมอย่างแท้จริง


1

ควรใช้แบบจำลองหลายระดับเมื่อข้อมูลถูกซ้อนในโครงสร้างแบบลำดับชั้นโดยเฉพาะอย่างยิ่งเมื่อมีความแตกต่างอย่างมีนัยสำคัญระหว่างหน่วยระดับสูงในตัวแปรตาม (เช่นการปฐมนิเทศผลสัมฤทธิ์ของนักเรียนแตกต่างกันระหว่างนักเรียนและระหว่างชั้นเรียนที่นักเรียน ซ้อนกันอยู่) ในสถานการณ์เหล่านี้การสังเกตจะถูกรวมเป็นกลุ่มมากกว่าความเป็นอิสระ การไม่รวมกลุ่มลงในบัญชีจะนำไปสู่การประเมินข้อผิดพลาดของการประมาณค่าพารามิเตอร์ต่ำกว่าการทดสอบนัยสำคัญแบบเอนเอียงและแนวโน้มที่จะปฏิเสธค่า Null เมื่อควรรักษาไว้ เหตุผลสำหรับการใช้แบบจำลองหลายระดับเช่นเดียวกับคำอธิบายอย่างละเอียดเกี่ยวกับวิธีการดำเนินการวิเคราะห์มีให้โดย

Raudenbush, SW Bryk, AS (2002) โมเดลเชิงเส้นลำดับชั้น: การใช้งานและวิธีการวิเคราะห์ข้อมูล ฉบับที่ 2 Newbury Park, CA: Sage

หนังสือ R & B นั้นยังรวมเข้ากับแพ็คเกจซอฟต์แวร์ HLM ของผู้แต่งซึ่งช่วยได้อย่างมากในการเรียนรู้แพ็คเกจ คำอธิบายว่าทำไมตัวแบบหลายเลเยอร์จึงมีความจำเป็นและเป็นทางเลือกที่ดีกว่าสำหรับบางอย่าง (เช่นการจำลองแบบหุ่นจำลองหน่วยระดับสูงกว่า) ไว้ในกระดาษคลาสสิก

Hoffman, DA (1997) ภาพรวมของตรรกะและเหตุผลของตัวแบบเชิงเส้น Hierachical วารสารการจัดการ, 23, 723-744

สามารถดาวน์โหลดกระดาษ Hoffman ได้ฟรีหากคุณเป็น Google "Hoffman 1997 HLM" และเข้าถึงไฟล์ PDF ออนไลน์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.