เมื่อใดจึงควรใช้แกมม่า GLM


88

การกระจายของแกมม่านั้นมีรูปร่างที่ค่อนข้างกว้างและด้วยการเชื่อมโยงระหว่างค่าเฉลี่ยและความแปรปรวนผ่านพารามิเตอร์ทั้งสองดูเหมือนว่าเหมาะสมที่จะจัดการกับ heteroskedasticity ในข้อมูลที่ไม่เป็นลบในวิธีที่ OLS ที่บันทึกการเปลี่ยนแปลงสามารถ ไม่ต้องดำเนินการโดยไม่ใช้ WLS หรือตัวประมาณ VCV ที่สอดคล้องกันของ heteroskedasticity

ฉันจะใช้มันมากขึ้นสำหรับการสร้างแบบจำลองข้อมูลที่ไม่ใช่ลบเป็นประจำ แต่ฉันไม่รู้จักใครที่ใช้มันฉันไม่ได้เรียนรู้ในห้องเรียนที่เป็นทางการและวรรณกรรมที่ฉันอ่านไม่เคยใช้เลย เมื่อใดก็ตามที่ฉัน Google บางอย่างเช่น "การใช้แกมม่า GLM ในทางปฏิบัติ" ฉันจะได้รับคำแนะนำในการใช้เวลารอระหว่างเหตุการณ์ปัวซอง ตกลง. แต่ดูเหมือนว่าจะเข้มงวดและไม่สามารถใช้งานได้เท่านั้น

อย่างไร้เดียงสาดูเหมือนว่าแกมม่า GLM เป็นวิธีที่ค่อนข้างเบาในการสร้างแบบจำลองข้อมูลที่ไม่ใช่เชิงลบเนื่องจากความยืดหยุ่นของแกมม่า แน่นอนคุณต้องตรวจสอบ QQ แปลงและแปลงที่เหลือเช่นรุ่นใด ๆ แต่มีข้อบกพร่องร้ายแรงที่ฉันหายไปหรือไม่ นอกเหนือจากการสื่อสารกับคนที่ "เพิ่งเรียกใช้ OLS" หรือไม่

คำตอบ:


57

แกมม่ามีคุณสมบัติที่ใช้ร่วมกันโดย lognormal กล่าวคือเมื่อพารามิเตอร์รูปร่างมีค่าคงที่ในขณะที่พารามิเตอร์มาตราส่วนจะแปรผัน (ตามปกติเมื่อใช้กับทั้งสองแบบ) ความแปรปรวนเป็นสัดส่วนกับค่าเฉลี่ยกำลังสอง (สัมประสิทธิ์คงที่ของการเปลี่ยนแปลง)

บางสิ่งบางอย่างโดยประมาณนี้เกิดขึ้นค่อนข้างบ่อยกับข้อมูลทางการเงินหรือกับข้อมูลชนิดอื่น ๆ

เป็นผลให้มักจะเหมาะสำหรับข้อมูลที่ต่อเนื่องบวกขวาเอียงและความแปรปรวนใกล้คงที่ในระดับบันทึกแม้ว่าจะมีตัวเลือกอื่น ๆ ที่รู้จักกันดี (และมักจะค่อนข้างใช้ได้) กับผู้ที่ คุณสมบัติ.

นอกจากนี้ยังเป็นเรื่องปกติที่จะใส่ลิงค์บันทึกกับแกมมา GLM (มันค่อนข้างหายากกว่าที่จะใช้ลิงก์ธรรมชาติ) สิ่งที่ทำให้แตกต่างจากแบบจำลองเชิงเส้นปกติแบบพอดีกับบันทึกของข้อมูลเล็กน้อยคือว่าในระดับล็อกแกมม่าจะเอียงไปจนถึงองศาที่ต่างกันในขณะที่ปกติ (บันทึกของ lognormal) เป็นสมมาตร สิ่งนี้ทำให้ (แกมม่า) มีประโยชน์ในสถานการณ์ที่หลากหลาย

ฉันได้เห็นการใช้งานจริงสำหรับแกมม่า GLM ที่กล่าวถึง (พร้อมตัวอย่างข้อมูลจริง) ใน (นอกส่วนหัวของฉัน) de Jong & HellerและFreesรวมถึงเอกสารมากมาย ฉันเคยเห็นแอปพลิเคชั่นในพื้นที่อื่น โอ้และถ้าฉันจำได้ถูกต้องVenables และ Ripley ของ MASSใช้มันในการขาดเรียนของโรงเรียน (ข้อมูล quine; Edit: กลายเป็นจริงในสถิติเติมเต็มเพื่อ MASSดู p11 หน้า 14 ของ pdf มันมีลิงค์บันทึก แต่ มีการเปลี่ยนแปลงเล็กน้อยของ DV) Uh และ McCullagh และ Nelder ทำตัวอย่างการแข็งตัวของเลือดแม้ว่าบางทีมันอาจเป็นการเชื่อมโยงตามธรรมชาติ

จากนั้นมีหนังสือของ Farawayที่เขาทำตัวอย่างประกันภัยรถยนต์และเป็นตัวอย่างข้อมูลการผลิตเซมิคอนดักเตอร์

มีข้อดีและข้อเสียบางประการในการเลือกทั้งสองตัวเลือก ตั้งแต่วันนี้ทั้งสองง่ายต่อการพอดี; โดยทั่วไปแล้วเป็นเรื่องของการเลือกสิ่งที่เหมาะสมที่สุด

มันไกลจากตัวเลือกเดียว ตัวอย่างเช่นมี Gaussian GLMs ที่ผกผันซึ่งมีความเอียง / หนักกว่า (และยิ่งกว่า heteroskedastic) มากกว่า tailed gamma หรือ lognormal

สำหรับข้อเสียเปรียบมันยากที่จะทำการทำนายช่วงเวลา จอแสดงผลการวินิจฉัยบางอย่างยากที่จะตีความ การคำนวณความคาดหวังในระดับของเครื่องทำนายผลแบบเส้นตรง (โดยทั่วไปคือระดับบันทึก) นั้นยากกว่าแบบจำลอง lognormal ที่เทียบเท่า การทดสอบสมมติฐานและช่วงเวลาโดยทั่วไปจะไม่แสดงอาการ สิ่งเหล่านี้มักเป็นปัญหาเล็กน้อย

มันมีข้อดีกว่า log-link lognormal regression (การบันทึกและการปรับตัวแบบการถดถอยเชิงเส้นปกติ); สิ่งหนึ่งคือการคาดการณ์หมายถึงง่าย


3
ควรเป็น "Gamma" หรือ "gamma" หรือไม่ เรารู้ว่ามันไม่ใช่ชื่อของบุคคล ฉันเห็นตัวพิมพ์เล็ก "g" บ่อยกว่านี้มาก เห็นได้ชัดว่ามีการกระจายชื่อสำหรับฟังก์ชั่นซึ่งกลับไปศตวรรษที่ 18
Nick Cox

2
สัญกรณ์เป็นเหตุผลเดียวที่ผมเคยเห็นสำหรับการใช้งานที่ เมื่อมีการแจกแจงโดยทั่วไปแล้วตัวพิมพ์ใหญ่มักจะสะท้อนนามสกุลเช่นปัวซองหรือเกาส์เซียนอย่างที่คุณรู้ Γ
Nick Cox

@ NickCox ฉันมีการเปลี่ยนแปลงตามที่คุณแนะนำและฉันได้แก้ไข "Inverse Gaussian" ในขณะที่ฉันอยู่ที่นี่
Glen_b

1
@Gleb_b: คุณยังคงใช้ลิงก์บันทึกกับตระกูลเกาส์ผกผันหรือไม่?
Dimitriy V. Masterov

@ DimitriyV.Masterov ใช้น้อยกว่าดังนั้นจึงยากที่จะพูดคุย จากสิ่งที่ฉันเห็นมันเป็นเรื่องธรรมดาที่จะใช้ log-link กับ Inversion Gaussian แต่การเชื่อมโยงอื่น ๆ อาจจะเหมาะสมในบางสถานการณ์เช่น link inverse
Glen_b

28

นั่นเป็นคำถามที่ดี ในความเป็นจริงทำไมคนไม่ใช้แบบจำลองเชิงเส้นทั่วไป (GLM) มากขึ้นก็เป็นคำถามที่ดีเช่นกัน

คำเตือน: บางคนใช้ GLM สำหรับโมเดลเชิงเส้นทั่วไปไม่ใช่สิ่งที่อยู่ในใจ

  • มันขึ้นอยู่กับที่คุณมอง ตัวอย่างเช่นการแจกแจงแกมมาได้รับความนิยมในหลาย ๆ วิทยาศาสตร์สิ่งแวดล้อมมานานหลายทศวรรษและการสร้างแบบจำลองด้วยตัวแปรทำนายก็เป็นส่วนขยายตามธรรมชาติ มีตัวอย่างมากมายในอุทกวิทยาและธรณีสัณฐานวิทยาเพื่อตั้งชื่อบางฟิลด์ที่ฉันหลงทาง

  • มันยากที่จะปักหมุดลงเมื่อใช้เกินคำตอบที่ว่างเปล่าเมื่อใดก็ตามที่ทำงานได้ดีที่สุด ได้รับข้อมูลเชิงบวกที่เบ้ฉันมักจะพบว่าตัวเองกำลังพยายามใช้แกมม่าและโมเดล lognormal (ในลิงค์บริบทบริบทของ GLM, ครอบครัวปกติหรือตระกูลเกาส์เซียน) และเลือกว่าอะไรดีกว่านี้

  • การสร้างแบบจำลองแกมมายังคงค่อนข้างยากที่จะทำจนกระทั่งค่อนข้างเร็วเมื่อเทียบกับการพูดการบันทึกและการใช้การถดถอยเชิงเส้นโดยไม่ต้องเขียนโค้ดจำนวนมากด้วยตัวเอง แม้ตอนนี้ฉันเดาว่ามันไม่ง่ายเท่ากันในทุกสภาพแวดล้อมของซอฟต์แวร์ทางสถิติที่สำคัญ

  • ในการอธิบายสิ่งที่ถูกนำมาใช้และสิ่งที่ไม่ได้ใช้แม้จะมีข้อดีและข้อเสียฉันคิดว่าคุณมักจะจำแนกปัจจัยที่คุณระบุได้อย่างแม่นยำ: สิ่งที่ได้รับการสอนสิ่งที่อยู่ในวรรณกรรมที่ผู้คนอ่าน ทำงานและประชุม ดังนั้นคุณต้องอธิบายสังคมวิทยาวิทยาศาสตร์แบบสมัครเล่น คนส่วนใหญ่ดูเหมือนจะเดินตามทางเดินที่แคบและแคบภายในทุ่งนา ยิ่งวรรณกรรมภายในมีขนาดใหญ่ขึ้นในสาขาใด ๆ เกี่ยวกับเทคนิคการสร้างแบบจำลองคนที่มีความโน้มเอียงน้อยกว่าในสาขานั้นก็ดูเหมือนจะลองสิ่งที่แตกต่างออกไป


1
คุณจะทราบได้อย่างไรว่าแบบไหนดีกว่ากัน?
Dimitriy V. Masterov

7
ฉันดูความน่าจะเป็น, R-squares (แม้จะมีคนพูด), ช่วงความเชื่อมั่นเกี่ยวกับการประมาณค่าพารามิเตอร์, พล็อตที่สังเกตได้จากการติดตั้ง, การติดตั้งที่เหลือ, การติดตั้ง ฯลฯ เป็นต้นหากมีวิทยาศาสตร์ ประสบการณ์ของฉันวิทยาศาสตร์ไม่ได้เกิดขึ้นอย่างดี จะทำอย่างอื่นได้อย่างไร?
Nick Cox

@NickCox สิ่งที่เราควรระวังเมื่อการวิเคราะห์การสังเกตการติดตั้ง vs, คงเหลือและการติดตั้ง qq ปกติ? ฉันเข้าใจว่าสิ่งนี้อาจแตกต่างกันระหว่างรุ่น คุณยกตัวอย่างของแกมม่าปัวซองและทวินามลบได้ไหม? ขอบคุณ
tatami

@tatami นั่นเป็นคำถามใหม่ทั้งหมดหรือมากกว่านั้นฉันคิดว่า หากคุณถามคุณจะเห็นว่าใครกัด ฉันไม่เคยคิดว่าแบบจำลองแกมม่าและแบบจำลองแบบทวินามลบจะเป็นคู่แข่งในโครงการใด ๆ แต่นั่นอาจเป็นความล้มเหลวของจินตนาการหรือประสบการณ์
Nick Cox

13

การถดถอยของแกมมาอยู่ใน GLM และคุณสามารถได้รับปริมาณที่มีประโยชน์มากมายสำหรับวัตถุประสงค์ในการวินิจฉัยเช่นเศษเบี่ยงเบนค่าเบี่ยงเบนระยะทางของคุกและอื่น ๆ พวกเขาอาจจะไม่ดีเท่าปริมาณที่สอดคล้องกันสำหรับข้อมูลที่ถูกแปลงเป็นบันทึก

สิ่งหนึ่งที่หลีกเลี่ยงการถดถอยของแกมม่าเมื่อเทียบกับ lognormal คือการแปลงอคติ ความไม่เท่าเทียมของเจนเซ่นแสดงให้เห็นว่าการคาดการณ์จากการถดถอยแบบ lognormal จะมีอคติอย่างเป็นระบบเพราะมันเป็นแบบจำลองที่แปลงข้อมูลแทนที่จะเป็นค่าที่คาดหวัง

นอกจากนี้การถดถอยของแกมม่า (หรือโมเดลอื่น ๆ สำหรับข้อมูลที่ไม่ใช่ค่าลบ) สามารถรับมือกับข้อมูลในวงกว้างกว่า lognormal เนื่องจากข้อเท็จจริงที่ว่ามันสามารถมีโหมดที่ 0 เช่นคุณมีการแจกแจงแบบเลขชี้กำลังซึ่งอยู่ในแกมม่า ครอบครัวซึ่งเป็นไปไม่ได้สำหรับ lognormal

ฉันได้อ่านคำแนะนำว่าการใช้ความน่าจะเป็นปัวซองเป็นโอกาสเสมือนมีเสถียรภาพมากขึ้น พวกมันคอนจูเกตซึ่งกันและกัน quasi-Poisson ยังมีประโยชน์อย่างมากในการรับมือกับค่า 0 ที่แน่นอนซึ่งทำให้เกิดปัญหาทั้งแกมม่าและโดยเฉพาะอย่างยิ่ง lognormal


11

ในความคิดของฉันมันสันนิษฐานว่าข้อผิดพลาดอยู่ในตระกูลของการแจกแจงแกมมาที่มีรูปร่างเหมือนกันและมีการเปลี่ยนสเกลตามสูตรที่เกี่ยวข้อง

แต่มันเป็นเรื่องยากที่จะทำการวินิจฉัยแบบจำลอง โปรดทราบว่าพล็อต QQ แบบง่ายไม่เหมาะที่นี่เพราะมันเกี่ยวกับการกระจายตัวเดียวกันในขณะที่เราเป็นตระกูลของการแจกแจงที่มีความแปรปรวนต่างกัน

อย่างไร้เดียงสาพล็อตส่วนที่เหลือสามารถใช้เพื่อดูว่ามีสเกลต่างกัน แต่รูปร่างเดียวกันมักมีหางยาว

จากประสบการณ์ของฉัน Gamma GLM อาจลองใช้กับปัญหาที่มีการกระจายหางยาวและมีการใช้กันอย่างแพร่หลายในภาคประกันภัยและสภาพแวดล้อมเป็นต้น แต่สมมติฐานนั้นยากต่อการทดสอบและโมเดลนั้นทำงานได้ไม่ดีนัก ยืนยันว่าจะใช้การแจกแจงแบบครอบครัวอื่นที่มีปัญหาเดียวกันเช่น Inverse Gaussian เป็นต้นในทางปฏิบัติดูเหมือนว่าทางเลือกนั้นขึ้นอยู่กับการตัดสินของผู้เชี่ยวชาญที่มีประสบการณ์ในอุตสาหกรรม นี่เป็นการ จำกัด การใช้แกมมา GLM

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.