ฉันเกรงว่าฉันอาจมีคำตอบที่เหมาะสมและอาจไม่เป็นที่พอใจว่ามันเป็นทางเลือกส่วนตัวโดยนักวิจัยหรือนักวิเคราะห์ข้อมูล ดังที่กล่าวไว้ที่อื่นในหัวข้อนี้มันไม่เพียงพอที่จะพูดง่ายๆว่าข้อมูลมี "โครงสร้างซ้อนกัน" ถึงจะยุติธรรม แต่นี่เป็นวิธีที่หนังสือหลายเล่มอธิบายว่าควรใช้โมเดลหลายระดับเมื่อใด ตัวอย่างเช่นฉันเพิ่งดึงหนังสือMultilevel AnalysisของJoop Hox ออกจากชั้นหนังสือซึ่งให้คำจำกัดความนี้:
ปัญหาหลายระดับเกี่ยวข้องกับประชากรที่มีโครงสร้างแบบลำดับชั้น
แม้ในตำราเรียนที่ดีงามคำนิยามเริ่มต้นดูเหมือนจะเป็นวงกลม ฉันคิดว่านี่เป็นบางส่วนเนื่องจากผู้กระทำในการตัดสินใจว่าจะใช้โมเดลแบบไหน (รวมถึงโมเดลหลายระดับ)
หนังสืออีกเล่มหนึ่งเวสต์เวลช์และโมเดลผสม Linearของ Galecki กล่าวว่าโมเดลเหล่านี้มีไว้สำหรับ:
ตัวแปรผลลัพธ์ซึ่งโดยทั่วไปจะมีการกระจายส่วนที่เหลือ แต่อาจไม่อิสระหรือมีความแปรปรวนคงที่ การออกแบบการศึกษาที่นำไปสู่ชุดข้อมูลที่อาจวิเคราะห์อย่างเหมาะสมโดยใช้ LMM ได้แก่ (1) การศึกษากับข้อมูลกลุ่มเช่นนักเรียนในห้องเรียนหรือการออกแบบการทดลองด้วยบล็อกแบบสุ่มเช่นชุดของวัตถุดิบสำหรับกระบวนการอุตสาหกรรมและ (2) การศึกษาระยะยาวหรือการวัดซ้ำซึ่งเป็นเรื่องที่วัดซ้ำแล้วซ้ำอีกในช่วงเวลาหรือภายใต้เงื่อนไขที่แตกต่างกัน
Finch, Bolin, & Kelley's Multilevel Modeling ใน Rยังพูดถึงการละเมิดข้อสันนิษฐานของ iid และค่าตกค้างที่สัมพันธ์กัน:
สิ่งที่มีความสำคัญเป็นพิเศษในบริบทของการสร้างแบบจำลองหลายระดับคือสมมติฐาน [ในการถดถอยมาตรฐาน] ของเงื่อนไขข้อผิดพลาดแบบกระจายอย่างอิสระสำหรับการสังเกตการณ์แต่ละครั้งภายในตัวอย่าง สมมติฐานนี้เป็นหลักหมายความว่าไม่มีความสัมพันธ์ระหว่างบุคคลในกลุ่มตัวอย่างสำหรับตัวแปรตามเมื่อตัวแปรอิสระในการวิเคราะห์ถูกนำมาใช้
ฉันเชื่อว่าแบบจำลองหลายระดับเหมาะสมเมื่อมีเหตุผลที่เชื่อได้ว่าการสังเกตไม่จำเป็นต้องเป็นอิสระจากกัน ไม่ว่าจะเป็น "คลัสเตอร์" บัญชีใดสำหรับการไม่ขึ้นกับความเป็นอิสระสามารถทำแบบจำลองได้
ตัวอย่างที่ชัดเจนคือเด็ก ๆ ในห้องเรียน - พวกเขาทุกคนมีปฏิสัมพันธ์ซึ่งกันและกันซึ่งอาจทำให้คะแนนการทดสอบของพวกเขาไม่เป็นอิสระ ถ้าห้องเรียนหนึ่งมีใครบางคนที่ถามคำถามที่นำไปสู่การครอบคลุมเนื้อหาในชั้นเรียนนั้นซึ่งไม่ครอบคลุมในชั้นเรียนอื่น ถ้าครูตื่นตัวในชั้นเรียนมากกว่าชั้นอื่น ๆ ในกรณีนี้จะมีข้อมูลบางอย่างที่ไม่เป็นอิสระ ในคำหลายระดับเราสามารถคาดหวังความแปรปรวนบางอย่างในตัวแปรตามที่จะเป็นเพราะกลุ่ม (เช่นชั้น)
ตัวอย่างสุนัขของคุณกับช้างนั้นขึ้นอยู่กับตัวแปรอิสระและตัวแปรตามความสนใจฉันคิดว่า ตัวอย่างเช่นสมมติว่าเราถามว่าคาเฟอีนมีผลต่อระดับกิจกรรมหรือไม่ สัตว์จากทั่วสวนสัตว์ได้รับการสุ่มให้รับเครื่องดื่มที่มีคาเฟอีนหรือเครื่องดื่มควบคุม
หากเราเป็นนักวิจัยที่สนใจคาเฟอีนเราอาจระบุรูปแบบหลายระดับเพราะเราสนใจผลของคาเฟอีนจริงๆ โมเดลนี้จะถูกระบุเป็น:
activity ~ condition + (1+condition|species)
สิ่งนี้มีประโยชน์อย่างยิ่งหากมีสายพันธุ์จำนวนมากที่เราทำการทดสอบสมมติฐานนี้ อย่างไรก็ตามนักวิจัยอาจสนใจผลของคาเฟอีนเฉพาะชนิด ในกรณีนั้นพวกเขาสามารถระบุสปีชีส์เป็นเอฟเฟกต์คงที่:
activity ~ condition + species + condition*species
เห็นได้ชัดว่านี่เป็นปัญหาถ้ามีพูด 30 สปีชีส์สร้างแบบ 2 x 30 เทอะทะ อย่างไรก็ตามคุณสามารถสร้างความคิดสร้างสรรค์ได้ด้วยวิธีการสร้างแบบจำลองความสัมพันธ์เหล่านี้
ตัวอย่างเช่นนักวิจัยบางคนโต้เถียงกับการใช้แบบจำลองหลายระดับที่กว้างขึ้น Gelman, Hill, & Yajima (2012)ให้เหตุผลว่าการสร้างแบบจำลองหลายระดับสามารถใช้ในการแก้ไขสำหรับการเปรียบเทียบหลาย ๆ อย่าง - แม้ในการวิจัยเชิงทดลองที่โครงสร้างของข้อมูลนั้นไม่ชัดเจนตามลำดับชั้นในธรรมชาติ:
ปัญหาที่ยากขึ้นเกิดขึ้นเมื่อสร้างแบบจำลองการเปรียบเทียบหลายรายการที่มีโครงสร้างมากขึ้น ตัวอย่างเช่นสมมติว่าเรามีห้ามาตรการผลลัพธ์สามประเภทของการรักษาและกลุ่มย่อยจำแนกตามสองเพศและสี่กลุ่มเชื้อชาติ เราไม่ต้องการจำลองโครงสร้าง 2 × 3 × 4 × 5 นี้เป็น 120 กลุ่มที่แลกเปลี่ยนได้ แม้ในสถานการณ์ที่ซับซ้อนกว่านี้เราคิดว่าการสร้างแบบจำลองหลายระดับควรและในที่สุดจะเข้าแทนที่ขั้นตอนการเปรียบเทียบหลายแบบแบบดั้งเดิม
สามารถจำลองปัญหาได้หลายวิธีและในกรณีที่คลุมเครืออาจมีหลายวิธีที่น่าสนใจ ฉันคิดว่างานของเราคือการเลือกวิธีการที่สมเหตุสมผลและมีข้อมูลและทำอย่างโปร่งใส