สำหรับแบบจำลองเฉลี่ย GLM เราจะเฉลี่ยการคาดการณ์ในลิงค์หรือระดับการตอบสนองหรือไม่?


12

เพื่อคำนวณการทำนายแบบจำลองโดยเฉลี่ยในระดับการตอบสนองของ GLM ซึ่ง "ถูกต้อง" และเพราะเหตุใด

  1. คำนวณตัวแบบโดยเฉลี่ยการทำนายบนสเกลลิงก์แล้วเปลี่ยนกลับเป็นสเกลการตอบสนองหรือ
  2. ย้อนกลับเปลี่ยนการทำนายเป็นระดับการตอบกลับแล้วคำนวณค่าเฉลี่ยของแบบจำลอง

การคาดคะเนใกล้เคียงกัน แต่ไม่เท่ากันถ้าแบบจำลองเป็น GLM แพ็กเกจ R ที่แตกต่างกันมีตัวเลือกสำหรับทั้งคู่ (ที่มีค่าเริ่มต้นแตกต่างกัน) เพื่อนร่วมงานหลายคนแย้งว่า # 1 ผิดเพราะ "ทุกคนทำอันดับ 2" สัญชาตญาณของฉันบอกว่า # 1 นั้น "ถูกต้อง" เพราะมันเก็บเส้นตรงคณิตศาสตร์เชิงเส้นทั้งหมด (# 2 เฉลี่ยสิ่งที่ไม่ได้อยู่ในระดับเชิงเส้น) การจำลองอย่างง่ายพบว่า # 2 มี MSE น้อยมาก (มาก!) เล็กน้อยกว่า # 1 หาก # 2 ถูกต้องเหตุผลคืออะไร และถ้า # 2 ถูกต้องเหตุใดฉันถึงให้เหตุผลเชิงเส้นตรงเชิงคณิตศาสตร์เหตุผลที่ไม่ดี?

แก้ไข 1: การคำนวณส่วนต่างหมายถึงระดับของปัจจัยอื่นใน GLM เป็นปัญหาที่คล้ายกันกับคำถามที่ฉันถามข้างต้น Russell Lenth คำนวณวิธีการเล็กน้อยของแบบจำลอง GLM โดยใช้ "เวลา" (คำพูดของเขา) อันดับ # 1 (ในแพ็คเกจ emmeans) และการโต้แย้งของเขาคล้ายกับสัญชาตญาณของฉัน

แก้ไข 2: ฉันกำลังใช้ model-averaging เพื่ออ้างถึงทางเลือกในการเลือก model โดยที่การทำนาย (หรือสัมประสิทธิ์) ถูกประเมินว่าเป็นค่าเฉลี่ยถ่วงน้ำหนักของโมเดลที่ซ้อนกันทั้งหมดหรือชุดย่อยของโมเดลที่ดีที่สุด (ดูอ้างอิงและแพ็คเกจ R ด้านล่าง) .

ให้แบบจำลองที่ซ้อนกันโดยที่คือการทำนายเชิงเส้น (ในพื้นที่ลิงก์) สำหรับแต่ละสำหรับ modelและคือน้ำหนักสำหรับ modelการทำนายแบบจำลองโดยใช้ # 1 ข้างต้น (ค่าเฉลี่ยบนลิงก์ สเกลและจากนั้นเปลี่ยนรูปไปเป็นสเกลการตอบกลับ) คือ:Mηimimwmm

Y^i=g1(m=1Mwmηim)

และแบบจำลองการหาค่าเฉลี่ยโดยใช้ # 2 ด้านบน (แปลงกลับการคาดการณ์ทั้งหมดแล้วค่าเฉลี่ยในระดับการตอบกลับ) คือ:M

Y^i=m=1Mwmg1(ηim)

วิธีเบย์และวิธีการเฉลี่ยแบบจำลองบางแบบคือ:

  • Hoeting, JA, Madigan, D. , Raftery, AE และ Volinsky, CT, 1999 ค่าเฉลี่ยของแบบจำลองแบบเบย์: การสอน วิทยาศาสตร์สถิติ, pp.382-401

  • อัม, เคพีและแอนเดอร์สัน, ดร., 2546 การเลือกแบบจำลองและการอนุมานแบบหลายโมเดล: วิธีการเชิงทฤษฎีและสารสนเทศ Springer Science & Business Media

  • Hansen, BE, 2007. แบบจำลองกำลังสองเฉลี่ยน้อยที่สุด Econometrica, 75 (4), pp.1175-1189

  • Claeskens, G. และ Hjort, NL, 2008 การเลือกรูปแบบและค่าเฉลี่ยของแบบจำลอง หนังสือเคมบริดจ์

แพคเกจ R ได้แก่กรุงเทพมหานคร , Mumin , BASและAICcmodavg (หมายเหตุ: นี่ไม่ใช่คำถามเกี่ยวกับภูมิปัญญาของแบบจำลองการหาค่าเฉลี่ยโดยทั่วไป)


1
ฉันสงสัยว่าเหตุผลที่คำถามของคุณไม่ได้รับคำตอบก็คือผู้อ่านคนอื่น ๆ เช่นฉันไม่เข้าใจคำถามของคุณ คุณหมายความว่าอย่างไรโดย "model averaging"? โปรดอธิบายบริบทโดยละเอียดเพื่อให้เราเข้าใจว่าปัญหาใดที่คุณพยายามแก้ไข เท่าที่ฉันเห็นแพ็คเกจ emmeans ไม่ได้คาดการณ์เฉลี่ยจากแบบจำลองที่แตกต่างกัน
Gordon Smyth

1
ขอบคุณที่ถามคำถามนี้และฉันสามารถเห็นได้ว่าการเพิ่มบันทึกรัสเซลที่สิบสับสนคำถามของฉัน ฉันพยายามชี้แจงเรื่องนี้ด้านบน แพคเกจ emmeans จะคำนวณค่าเฉลี่ยและ SE ในระดับของปัจจัยอื่นและสถิติเหล่านี้จะถูกคำนวณในระดับสเกลแล้วเปลี่ยนกลับ โปรดดูที่ส่วน"รุ่นที่เป็นคู่มือที่ดีที่สุดของเรา"
JWalker

ฉันสนใจคำตอบของคำถามนี้จริงๆ ในขณะเดียวกันความคิดเห็น ผลลัพธ์ MSE นั้นถูกคำนวณบนสเกลแปลงกลับ ฉันจะเดิมพันด้วยผลการจำลองแบบเดียวกัน MSE เมื่อคำนวณในระดับลิงก์จะเล็กลงด้วย # 1 มากกว่ากับ # 2 เหตุผลก็คือค่าเฉลี่ยตัวอย่างคือตัวประมาณค่ากำลังสองน้อยที่สุดของค่าเฉลี่ยประชากรแม้ในระดับที่ไม่ถูกต้อง
Russ Lenth

คำตอบ:


6

วิธีที่ดีที่สุดในการรวมตัวประมาณค่าหรือตัวทำนายขึ้นอยู่กับฟังก์ชันการสูญเสียที่คุณพยายามลดให้น้อยที่สุด (หรือฟังก์ชันอรรถประโยชน์ที่คุณพยายามเพิ่มให้ใหญ่สุด)

โดยทั่วไปหากฟังก์ชั่นการสูญเสียวัดข้อผิดพลาดการทำนายในระดับการตอบกลับดังนั้นค่าเฉลี่ยการทำนายในระดับการตอบสนองที่ถูกต้อง ตัวอย่างเช่นหากคุณกำลังค้นหาเพื่อลดข้อผิดพลาดกำลังสองที่คาดหวังของการคาดการณ์ในระดับการตอบสนองจากนั้นตัวทำนายค่าเฉลี่ยหลังจะเหมาะสมที่สุดและขึ้นอยู่กับสมมติฐานของแบบจำลองของคุณซึ่งอาจเทียบเท่ากับการคาดคะเนค่าเฉลี่ย

โปรดทราบว่าการหาค่าเฉลี่ยของสเกลทำนายผลเชิงเส้นสามารถทำได้ไม่ดีนักสำหรับแบบจำลองที่ไม่ต่อเนื่อง สมมติว่าคุณกำลังใช้การถดถอยโลจิสติกเพื่อทำนายความน่าจะเป็นของตัวแปรตอบกลับแบบไบนารี หากตัวแบบใดให้ความน่าจะเป็นศูนย์โดยประมาณแล้วตัวทำนายเชิงเส้นสำหรับโมเดลนั้นจะเป็นลบอนันต์ การหาค่าเฉลี่ยของอนันต์ด้วยจำนวน จำกัด ค่าใด ๆ จะยังคงไม่สิ้นสุด

คุณเคยดูเอกสารอ้างอิงที่คุณระบุไว้หรือไม่? ฉันแน่ใจว่า Hoeting et al (1999) ยกตัวอย่างเช่นพูดคุยเกี่ยวกับฟังก์ชั่นการสูญเสียแม้ว่าอาจจะไม่ได้รายละเอียดมากนัก


1
ยอดเยี่ยม ขอบคุณสำหรับการตอบกลับนี้ (ฉันยินดีต้อนรับผู้อื่น!) ฉันคิดว่า "จากนั้นค่าเฉลี่ยตัวทำนายก็น่าจะเหมาะสมที่สุดหรือใกล้เคียงกับมัน" คือค่าเฉลี่ยตัวทำนายในระดับตอบสนอง บันทึกการขนส่งมีประโยชน์อย่างยิ่ง
JWalker

1
@ rvl เกี่ยวกับความเป็นเส้นตรงของฟังก์ชั่นการสูญเสียฉันคิดในแง่ของฟังก์ชั่นการสูญเสียที่มีอิทธิพล ฉันเห็นด้วยว่ามันเป็นความลับเล็กน้อยดังนั้นฉันจึงแก้ไขความคิดเห็นของฉัน ฉันไม่เห็นด้วยกับข้อสังเกตอื่น ๆ ของคุณ GLM ประเมินโดย ML ไม่ใช่จากการสูญเสียข้อผิดพลาดกำลังสอง แม้จะมีชื่ออัลกอริทึม IRLS ที่เป็นที่นิยมสำหรับ GLM ไม่ได้ลดผลรวมของกำลังสองและตัวแปรการทำงานของ IRLS เกี่ยวข้องกับค่ามาตรฐานที่เหลืออยู่ในสเกลการตอบสนองไม่ใช่สเกลของลิงก์ ไม่ว่าในกรณีใดการประมาณการและการทำนายไม่เหมือนกันและไม่จำเป็นต้องมีฟังก์ชันการสูญเสียที่เหมือนกัน
Gordon Smyth

@rvl ค่าติดตั้งศูนย์ที่แน่นอนเกิดขึ้นบ่อยครั้งในการถดถอยโลจิสติกและมีการพูดคุยกันในฟอรัมนี้หลายครั้ง
Gordon Smyth

@rvl การสูญเสียไม่ได้รับการประเมินในระดับลิงก์ การสนทนานี้ไม่เหมาะสำหรับฉันที่จะเสนอการสอนเกี่ยวกับ GLM ให้ฉัน - ฉันแนะนำคุณให้กับหนังสือของฉันใน GLMs ซึ่ง Springer จะเผยแพร่ในอีกประมาณหนึ่งเดือน และการอภิปรายนี้ไม่เหมาะสำหรับคุณที่จะเสนอคำตอบอื่นให้กับคำถามดั้งเดิม เขียนคำตอบที่ถูกต้องหากคุณต้องการทำเช่นนั้น
Gordon Smyth

นี่คือลิงค์ไปยังหนังสือของเราใน GLMs: doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.