โมเดลชายขอบกับโมเดลสุ่มเอฟเฟกต์ - วิธีการเลือกระหว่างพวกเขา? คำแนะนำสำหรับคนธรรมดา


11

ในการค้นหาข้อมูลเกี่ยวกับตัวแบบขอบและตัวแบบสุ่มเอฟเฟกต์และวิธีการเลือกระหว่างพวกเขาฉันได้พบข้อมูลบางอย่าง แต่มันเป็นคำอธิบายเชิงนามธรรมทางคณิตศาสตร์มากขึ้นหรือน้อยลง (เช่นตัวอย่างที่นี่: https: //stats.stackexchange .com / a / 68753/38080 ) ที่ไหนสักแห่งที่ฉันพบว่ามีการสังเกตความแตกต่างอย่างมากระหว่างการประมาณค่าพารามิเตอร์ระหว่างสองวิธี / โมเดล ( http://www.biomedcentral.com/1471-2288/2/15/ ) อย่างไรก็ตามสิ่งที่ตรงกันข้ามถูกเขียนโดย Zuur et al . (2009, p. 116; http://link.springer.com/book/10.1007%2F978-0-387-87458-6) รุ่น Marginal (generalized การประเมินวิธีการสม) นำพารามิเตอร์ของประชากรเฉลี่ยในขณะที่ผลจากการสุ่มผลรุ่น (ทั่วไปเชิงเส้นรูปแบบผสม) นำเข้าผลสุ่มบัญชี - เรื่อง (Verbeke et al, 2010, หน้า 49-52.. http: / /link.springer.com/chapter/10.1007/0-387-28980-1_16 )

ฉันต้องการที่จะเห็นคำอธิบายเหมือนคนธรรมดาของแบบจำลองเหล่านี้ที่แสดงในตัวอย่างบางส่วน (ในชีวิตจริง) ในภาษาที่คุ้นเคยกับนักสถิติและนักคณิตศาสตร์ที่ไม่ใช่นักคณิตศาสตร์

ในรายละเอียดฉันต้องการทราบ:

ควรใช้โมเดลร่อแร่และควรใช้โมเดลสุ่มเอฟเฟกต์เมื่อใด แบบจำลองเหล่านี้เหมาะสำหรับคำถามทางวิทยาศาสตร์หรือไม่

ควรจะตีความผลลัพธ์จากแบบจำลองเหล่านี้อย่างไร

คำตอบ:


14

ขอบคุณที่เชื่อมคำตอบของฉัน! ฉันจะพยายามอธิบายอย่างชัดเจน คำถามนี้มีการพูดคุยกันหลายครั้งที่เว็บไซต์นี้ (ดูคำถามที่เกี่ยวข้องทางด้านขวา) แต่มันสับสนและสำคัญจริงๆสำหรับ "คนธรรมดา"

ประการแรกสำหรับแบบจำลองเชิงเส้น (การตอบสนองต่อเนื่อง) การประมาณของแบบจำลองที่มีขอบและแบบมีเงื่อนไข ดังนั้นฉันจะเน้นที่แบบไม่เชิงเส้นโดยเฉพาะการถดถอยโลจิสติกส์สำหรับข้อมูลไบนารี

คำถามทางวิทยาศาสตร์

ตัวอย่างที่ใช้ส่วนใหญ่เพื่อแยกความแตกต่างของแบบจำลองส่วนขอบและแบบมีเงื่อนไขคือ:

หากคุณเป็นแพทย์และคุณต้องการประเมินว่ายาสแตตินจะช่วยลดโอกาสที่ผู้ป่วยจะเป็นโรคหัวใจวายได้มากแค่ไหน ค่าสัมประสิทธิ์เฉพาะเรื่องเป็นทางเลือกที่ชัดเจน ในทางตรงกันข้ามถ้าคุณเป็นเจ้าหน้าที่สาธารณสุขของรัฐและคุณต้องการที่จะรู้ว่าจำนวนคนที่ตายด้วยโรคหัวใจจะเปลี่ยนไปอย่างไรถ้าทุกคนในประชากรที่มีความเสี่ยงได้รับยาย้อมคุณอาจต้องการใช้ประชากร -สัมประสิทธิ์อายุการใช้งาน (Allison, 2009)

คำถามวิทยาศาสตร์สองแบบนั้นสอดคล้องกับแบบจำลองทั้งสองนี้

ภาพประกอบ

ภาพประกอบที่ดีที่สุดที่ฉันเคยเห็นคือรูปต่อไปนี้ในการวิเคราะห์ตามยาวประยุกต์ ( Fitzmaurice, Laird and Ware, 2011 , หน้า 479) ถ้าเราเปลี่ยนโควาเรียจาก "ยาสเตติน" เป็น "เวลา" เป็นที่ชัดเจนว่าทั้งสองรุ่นมีความแตกต่างกันในระดับของสัมประสิทธิ์ซึ่งสามารถอธิบายได้โดยข้อเท็จจริงที่ว่าความหมายของฟังก์ชันไม่เชิงเส้นของตัวแปรสุ่มไม่เท่ากับฟังก์ชันที่ไม่เชิงเส้นของค่าเฉลี่ย

ป้อนคำอธิบายรูปภาพที่นี่

การตีความ

ในรูปด้านบนเส้นประมาจากแบบจำลองการสกัดกั้นแบบสุ่ม มันแสดงให้เห็นว่าเราจำเป็นต้องควบคุมเอฟเฟกต์แบบสุ่มอย่างต่อเนื่องเมื่อทำการตีความเอฟเฟกต์คงที่เช่นไปตามเส้นเมื่อตีความความชัน นี่คือเหตุผลที่เราเรียกการประมาณการจากโมเดลเอฟเฟกต์แบบสุ่ม "เฉพาะเรื่อง" โดยเฉพาะอย่างยิ่ง

  • สำหรับโมเดลที่มีเงื่อนไขการตีความคือว่าอัตราต่อรองของล็อกจะเปลี่ยนแปลงอย่างไรเมื่อมีการเปลี่ยนแปลงเวลาหนึ่งหน่วยสำหรับหัวเรื่องที่กำหนด (ดูหน้า 403 ของ Fitzmaurice, Laird and Ware (2011) เกี่ยวกับการอภิปรายเกี่ยวกับสาเหตุที่การแปลความหมายของตัวแปรแปรปรวนเวลาคงที่ในรูปแบบตามเงื่อนไขนั้นอาจทำให้เข้าใจผิด)
  • สำหรับโมเดลร่อแร่การตีความจะเหมือนกับการตีความของการถดถอยเชิงเส้นนั่นคืออัตราเดิมพันล็อกจะเปลี่ยนแปลงอย่างไรเมื่อมีการเปลี่ยนแปลงเวลาหนึ่งหน่วยหรืออัตราส่วนล็อกอัตราของยาเทียบกับยาหลอก

มีอีกตัวอย่างหนึ่งในเว็บไซต์นี้


ขอบคุณมากสำหรับคำตอบที่ดี! ฉันยังมีคำถามหนึ่งข้อ: คุณได้เขียนว่าการประมาณของแบบจำลองส่วนต่างและผลแบบสุ่มตรงกับตัวแบบเชิงเส้น - สิ่งนี้มีไว้สำหรับแบบจำลองผลกระทบแบบสุ่มด้วยการสกัดกั้นแบบสุ่มและความลาดชันหรือไม่
benjamin jarcuska

2
ใช่การประมาณการสำหรับผลกระทบคงที่ในตัวแบบสุ่มผลกระทบและการประมาณค่าสำหรับตัวแบบเฉลี่ยในตัวแบบขอบตรงกันโดยไม่คำนึงถึงโครงสร้างผลกระทบแบบสุ่ม
Randel

เพียงแค่สงสัยว่าถ้าใครจะมีตัวอย่างของวิธีการทำแบบจำลองทั้งสองใน R อาจเป็นเพราะตัวอย่างนี้โดยเฉพาะเนื่องจากดูเหมือนว่าเป็นการลงโทษ
Tom Wenseleers
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.