Gamma GLM เทียบกับ Log-linked Gaussian GLM เทียบกับ LM-log-แปรรูป LM


13

จากผลลัพธ์ของฉันปรากฏว่า GLM Gamma เป็นไปตามสมมติฐานส่วนใหญ่ แต่เป็นการปรับปรุงที่คุ้มค่าสำหรับ LM ที่แปลงเป็นไฟล์บันทึกหรือไม่ วรรณกรรมส่วนใหญ่ฉันพบข้อตกลงกับ Poisson หรือ Binomial GLMs ฉันพบว่าบทความการประเมินผลของรูปแบบเชิงเส้นของสมมติฐานทั่วไปโดยใช้การสุ่มคืนค่ามีประโยชน์มาก แต่มันไม่มีแผนการจริงที่ใช้ในการตัดสินใจ หวังว่าคนที่มีประสบการณ์สามารถชี้ฉันในทิศทางที่ถูกต้อง

ฉันต้องการสร้างแบบจำลองการกระจายตัวของตัวแปรตอบสนองของฉัน T ซึ่งมีพล็อตแบบกระจาย
XHTML ที่ถูกต้องที่คุณสามารถดูมันเป็นเบ้บวก:

ฉันมีปัจจัยสองอย่างที่ต้องพิจารณา: METH และ CASEPART
โปรดทราบว่าการศึกษาครั้งนี้ส่วนใหญ่เป็นการสำรวจโดยมีวัตถุประสงค์หลักเพื่อการศึกษานำร่องก่อนทำการสร้างแบบจำลองเชิงทฤษฎีและทำการแสดง DoE รอบ ๆ

ฉันมีโมเดลต่อไปนี้ใน R พร้อมโครงการวินิจฉัย:

LM.LOG<-lm(log10(T)~factor(METH)+factor(CASEPART),data=tdat)

XHTML ที่ถูกต้อง
XHTML ที่ถูกต้อง

GLM.GAMMA<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="Gamma"(link='log'))

XHTML ที่ถูกต้อง
XHTML ที่ถูกต้อง

GLM.GAUS<-glm(T~factor(METH)*factor(CASEPART),data=tdat,family="gaussian"(link='log'))

XHTML ที่ถูกต้อง
XHTML ที่ถูกต้อง

ฉันยังได้รับค่า P ต่อไปนี้ผ่านการทดสอบ Shapiro-Wilks ในส่วนที่เหลือ:

LM.LOG: 2.347e-11  
GLM.GAMMA: 0.6288  
GLM.GAUS:  0.6288  

ฉันคำนวณค่า AIC และ BIC แต่ถ้าฉันถูกต้องพวกเขาจะไม่บอกฉันมากนักเนื่องจากตระกูลต่าง ๆ ใน GLMs / LM

นอกจากนี้ฉันยังสังเกตเห็นค่าที่สูงที่สุด แต่ฉันไม่สามารถจำแนกได้ว่าเป็นค่าผิดปกติเนื่องจากไม่มี "สาเหตุพิเศษ" ที่ชัดเจน



1
เป็นที่น่าสังเกตว่าทั้งสามรุ่นมีความหลากหลายในแง่ที่การเพิ่มขึ้นของ regressor นั้นสัมพันธ์กับการเปลี่ยนแปลงสัมพัทธ์ในการตอบสนองทั่วไป สำหรับ GLM เชิงเส้นล็อกสองค่า "ทั่วไป" หมายถึงค่าเฉลี่ยเลขคณิตขณะที่ LM แปลงค่าล็อกไฟล์เรากำลังพูดถึงค่าเฉลี่ยเรขาคณิต ดังนั้นวิธีที่คุณต้องการตีความเอฟเฟกต์และการคาดการณ์ก็เป็นปัจจัยผลักดันสำหรับตัวเลือกรูปแบบไม่เพียง แต่จะมีพล็อตที่เหลืออยู่อย่างสมบูรณ์แบบ
Michael M

@MichaelMayer - ขอบคุณสำหรับการตอบกลับที่เป็นประโยชน์มาก คุณช่วยขยายความคิดเล็ก ๆ น้อย ๆ ได้อย่างไรว่าตัวเลือกมีผลต่อการตีความอย่างไร? หรือชี้ให้ฉันไปในทิศทางของการอ้างอิง?
TLJ

@ Marcinthebox- ฉันอ่านคำถามนั้นก่อนโพสต์ ไม่ตอบคำถามของฉันอย่างรัดกุม
TLJ

คำตอบ:


19

ค่อนข้างชัดเจนว่าแบบบันทึกการเชิงเส้นของ Gaussian นั้นไม่เหมาะสม มีความแตกต่างที่แข็งแกร่งในส่วนที่เหลือ งั้นลองพิจารณาดูสิ

สิ่งที่เหลือคือ lognormal vs gamma

โปรดทราบว่าฮิสโตแกรมของไม่ได้ใช้งานโดยตรงเนื่องจากการกระจายขอบจะเป็นส่วนผสมของความแปรปรวน (แต่ละเงื่อนไขในชุดของค่าที่แตกต่างกันสำหรับตัวทำนาย); แม้ว่าหนึ่งในสองโมเดลนั้นถูกต้องพล็อตนั้นอาจไม่เหมือนกับการแจกแจงแบบมีเงื่อนไขT

ทั้งสองรุ่นมีความเหมาะสมพอ ๆ กันในกรณีนี้ พวกเขาทั้งสองมีความแปรปรวนเป็นสัดส่วนกับกำลังสองของค่าเฉลี่ยดังนั้นรูปแบบการแพร่กระจายในส่วนที่เหลือเทียบกับความพอดีจึงคล้ายกัน

ค่าที่ต่ำกว่าจะพอดีกับแกมม่าดีกว่า lognormal (ในทางกลับกันสำหรับค่าที่สูง) ที่ค่าเฉลี่ยและความแปรปรวนที่กำหนด lognormal จะเอียงมากกว่าและมีค่าสัมประสิทธิ์การเปลี่ยนแปลงสูงกว่า

สิ่งหนึ่งที่ต้องจำคือความคาดหวังของ lognormal ไม่ใช่ ; หากคุณสนใจในค่าเฉลี่ยคุณไม่สามารถยกกำลังพอดีกับขนาดบันทึกได้ แน่นอนถ้าคุณสนใจในค่าเฉลี่ยแกมม่าจะหลีกเลี่ยงปัญหาต่าง ๆ กับ lognormal (เช่นเมื่อคุณรวมพารามิเตอร์ที่ไม่แน่นอนในใน lognormal คุณมีการคาดการณ์จากการแจกแจงล็อก -t ซึ่งไม่ได้ ' ไม่มีค่าเฉลี่ยช่วงเวลาการทำนายยังใช้ได้ดี แต่อาจเป็นปัญหาในการทำนายค่าเฉลี่ยexp(μ)σ2

ดูที่นี่และที่นี่สำหรับการสนทนาที่เกี่ยวข้อง


1
@Gleb_b คำตอบนี้มีประโยชน์มากสำหรับการวิเคราะห์ของฉัน ฉันมีคำถามสองสามข้อ (1) ก่อนอื่นนี่คือ 'พวกเขาทั้งคู่มีความแปรปรวนตามสัดส่วนของกำลังสอง ... ' ตามส่วนที่เหลือเทียบกับพล็อตเรื่อง (2) และนี่คือ 'ค่าผิดปกติต่ำจะพอดีกับแกมม่าเล็กน้อย ... ที่ค่าเฉลี่ยและความแปรปรวนที่กำหนด, ... ' อ้างอิงจากพล็อต qq หรือไม่ (3) จากสิ่งที่ฉันเข้าใจ glm (เช่นแกมมาปัวซองและลบทวินาม) ไม่ได้มีข้อสันนิษฐานของความเป็นปกติของค่าคงที่และความสม่ำเสมอของความแปรปรวน ถ้าเป็นเช่นนั้นเหตุใดการพล็อตส่วนที่เหลือเทียบกับการติดตั้งและพล็อตคิวคิวปกติจะเกี่ยวข้องกับการวินิจฉัย?
เสื่อทาทามิ

2
นี่กว้างขวางเพียงพอที่จะเป็นคำถามใหม่ทั้งหมดหรือหลาย ๆ คำถาม (ซึ่งส่วนใหญ่ได้รับคำตอบแล้วบนเว็บไซต์ของเรา!) - 1. ส่วนหนึ่งของแบบจำลอง 2. ไม่สิ่งเหล่านี้เป็นข้อเท็จจริงทั่วไปเกี่ยวกับการแจกแจง 3. ถูกต้องพวกเขาไม่ปกติ แต่ส่วนที่เหลือที่ใช้ในพล็อต QQ เป็นค่าเบี่ยงเบนส่วนเบี่ยงเบนภายในซึ่งโดยเฉพาะในกรณีแกมม่าโดยทั่วไปมักจะใกล้เคียงกับการแจกแจงแบบปกติมาก (ฉันเขียนคำตอบว่าทำไม บางจุด) และควรมีความแปรปรวนคงที่เป็นหลัก ความเบี่ยงเบนจากภาวะปกติบางอย่างไม่คาดคิด แต่มีความคลาดเคลื่อนมาก ... ctd
Glen_b

2
ctd ... จากภาวะปกติ (สมมติว่าแปลงอื่นดี) อาจบ่งบอกถึงปัญหากับข้อสันนิษฐานการกระจาย
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.