การทดสอบการกระจายตัวใน GLMs * มีประโยชน์ * จริงหรือไม่


15

ปรากฏการณ์ของ 'การกระจายตัวมากเกินไป' ใน GLM เกิดขึ้นเมื่อใดก็ตามที่เราใช้แบบจำลองที่จำกัดความแปรปรวนของตัวแปรการตอบสนองและข้อมูลจะแสดงความแปรปรวนมากกว่าแบบ จำกัด ที่อนุญาต สิ่งนี้มักเกิดขึ้นเมื่อการสร้างแบบจำลองนับข้อมูลโดยใช้ Poisson GLM และสามารถวินิจฉัยได้จากการทดสอบที่รู้จักกันดี หากการทดสอบแสดงให้เห็นว่ามีหลักฐานนัยสำคัญทางสถิติของการกระจายตัวเกินเรามักจะสรุปโมเดลโดยใช้ตระกูลการแจกแจงที่กว้างขึ้นที่ทำให้พารามิเตอร์ความแปรปรวนจากข้อ จำกัด ที่เกิดขึ้นภายใต้โมเดลดั้งเดิม ในกรณีของ Poisson GLM มันเป็นเรื่องธรรมดาที่จะพูดคุยทั่วไปทั้งในเชิงลบ - ทวินามหรือกึ่ง - Poisson GLM

สถานการณ์นี้กำลังตั้งท้องพร้อมกับคัดค้านอย่างชัดเจน ทำไมเริ่มต้นด้วย Poisson GLM เลยเหรอ? หนึ่งสามารถเริ่มต้นโดยตรงกับรูปแบบการกระจายที่กว้างขึ้นซึ่งมีพารามิเตอร์แปรปรวนอิสระ (ค่อนข้าง) และอนุญาตให้พารามิเตอร์แปรปรวนจะพอดีกับข้อมูลละเว้นการทดสอบการกระจายตัวเกินอย่างสมบูรณ์ ในสถานการณ์อื่น ๆ เมื่อเราทำการวิเคราะห์ข้อมูลเรามักจะใช้แบบฟอร์มการกระจายสินค้าที่อนุญาตให้มีอิสระอย่างน้อยสองครั้งแรกดังนั้นทำไมต้องมีข้อยกเว้นที่นี่

คำถามของฉัน:มีเหตุผลที่ดีที่เริ่มต้นด้วยการแจกแจงที่แก้ไขความแปรปรวน (เช่นการแจกแจงปัวซง) แล้วทำการทดสอบการกระจายตัวเกินหรือไม่? ขั้นตอนนี้เปรียบเทียบกับการกระโดดข้ามแบบฝึกหัดนี้ได้อย่างสมบูรณ์และตรงไปยังแบบจำลองทั่วไปที่มากขึ้น (เช่นลบ - ทวินาม, กึ่ง - ปัวซอง ฯลฯ )? กล่าวอีกนัยหนึ่งทำไมไม่ใช้การแจกแจงที่มีพารามิเตอร์ผลต่างอิสระเสมอไป


1
ฉันเดาว่าถ้ารากฐานที่แท้จริงคือปัวซองผลลัพธ์ glm ของคุณจะไม่แสดงคุณสมบัติที่ดีที่รู้จักกันดีเช่นค่าประมาณยังมีประสิทธิภาพในแง่ของความแปรปรวนของค่าประมาณที่มากกว่าที่จำเป็น รูปแบบที่ถูกนำมาใช้ การคาดคะเนอาจไม่เป็นกลางหรือแม้แต่ MLE แต่นั่นเป็นเพียงสัญชาตญาณของฉันและฉันอาจผิด ฉันอยากรู้ว่าคำตอบที่ดีคืออะไร
mlofton

3
จากประสบการณ์ของฉันการทดสอบการกระจายตัวมากเกินไป (ขัดแย้ง) ส่วนใหญ่ใช้เมื่อคุณรู้ (จากความรู้เกี่ยวกับกระบวนการสร้างข้อมูล) ที่การกระจายเกินไม่สามารถนำเสนอ ในบริบทนี้การทดสอบการกระจายตัวมากเกินไปจะบอกคุณว่าแบบจำลองเชิงเส้นกำลังรับสัญญาณทั้งหมดในข้อมูลหรือไม่ หากไม่เป็นเช่นนั้นควรพิจารณา covariates เพิ่มเติมให้กับโมเดล ถ้าเป็นเช่นนั้นเพื่อนร่วมไร่มากกว่าก็ไม่สามารถช่วยได้
Gordon Smyth

@GordonSmyth: ฉันคิดว่านั่นเป็นคำตอบที่ดี หากคุณไม่ต้องการเปลี่ยนให้เป็นคำตอบของตัวเองฉันจะพับมันเป็นของฉัน
หน้าผา AB

1
@GordonSmyth ที่ได้รับสิ่งหนึ่งที่มักจะรบกวนฉันเกี่ยวกับการวิเคราะห์ของความเบี่ยงเบนเป็นความดีของการทดสอบแบบเต็ม: covariates ที่ขาดหายไปจะสับสนกับ overdispersion มันแสดงให้เห็นปัญหาบางอย่างเกี่ยวกับวิธีการสอนเนื้อหา ฉันสอนชั้นเรียนเป็นหมวดหมู่และหนังสือเรียนไม่ได้ทำให้ประเด็นนี้แข็งแกร่งมาก
ผู้ชาย

1
@guy ใช่ถูกต้องและผู้คนมักจะคิดว่าการเบี่ยงเบนที่เหลืออยู่มักจะมีการกระจาย chisquare ซึ่งมักจะไม่ เราพยายามทำงานให้ดีขึ้นในประเด็นเหล่านี้ในหนังสือเรียนล่าสุดของเราdoi.org/10.1007/978-1-4419-0118-7แต่มันยากที่จะครอบคลุมทุกอย่างภายในพื้นที่ จำกัด
Gordon Smyth

คำตอบ:


14

ตามหลักการแล้วฉันยอมรับว่า 99% ของเวลาจริง ๆ แล้วมันจะดีกว่าถ้าคุณใช้โมเดลที่ยืดหยุ่นกว่านี้ ด้วยที่กล่าวว่าที่นี่มีสองและครึ่งโต้แย้งว่าทำไมคุณอาจไม่

(1) ความยืดหยุ่นน้อยลงหมายถึงการประมาณการที่มีประสิทธิภาพยิ่งขึ้น เนื่องจากพารามิเตอร์ความแปรปรวนมีแนวโน้มที่จะมีเสถียรภาพน้อยกว่าพารามิเตอร์ค่าเฉลี่ยการสันนิษฐานของคุณเกี่ยวกับความแปรปรวนค่าเฉลี่ยคงที่อาจทำให้ข้อผิดพลาดมาตรฐานมีเสถียรภาพมากขึ้น

(2) ตรวจสอบรุ่น ฉันทำงานกับนักฟิสิกส์ที่เชื่อว่าการวัดแบบต่างๆสามารถอธิบายได้ด้วยการแจกแจงปัวซงเนื่องจากฟิสิกส์เชิงทฤษฎี หากเราปฏิเสธสมมติฐานที่หมายถึง = ความแปรปรวนเรามีหลักฐานต่อต้านสมมติฐานการแจกแจงปัวซง ตามที่ระบุไว้ในความคิดเห็นโดย @GordonSmyth หากคุณมีเหตุผลที่เชื่อได้ว่าการวัดที่กำหนดควรเป็นไปตามการแจกแจงแบบปัวซองหากคุณมีหลักฐานการกระจายตัวเกินคุณมีหลักฐานว่าคุณขาดปัจจัยสำคัญ

VaR[Y]=αE[Y]α1


ในวันที่ 2.5: แน่นอนว่ามีชื่อทวินามลบและ GLMM พร้อมเอฟเฟกต์แบบสุ่มที่ไม่มีข้อ จำกัด
Björn

@ Björn: นั่นเป็นเหตุผลที่มันเป็นแค่การโต้แย้งเพียงครึ่งเดียว นำไปใช้กับวิธีเสมือนจริงเท่านั้น เท่าที่ผมรู้ว่าไม่มีวิธีการน่าจะใช้สำหรับการภายใต้การกระจายแม้ว่านี้สามารถวิเคราะห์ได้ด้วยรูปแบบกึ่งโอกาส
หน้าผา AB

1
นอกจากนี้ใน 2.5: ความเข้าใจของฉันก็คือไม่มีตระกูลการแจกแจงเอ็กซ์โพเนนเชียลที่ตรงกับความสัมพันธ์ที่ต้องการ ความหมายคะแนนเสมือนไม่สอดคล้องกับคะแนนของแท้ นั่นไม่ได้หมายความว่าไม่มีตระกูลของการแจกแจงสำหรับข้อมูลนับที่ตอบสนองความสัมพันธ์ที่ต้องการ ควรมีหลายครอบครัวเช่นนี้
ผู้ชาย

2
@CliffAB สำหรับข้อมูลการนับที่กระจัดกระจายมีโมเดลของ Conway-Maxwell-Poisson: en.m.wikipedia.org/wiki/…ที่ใช้งานในแพ็คเกจ R สองชุด
Dimitris Rizopoulos

ถ้าแบบจำลองนั้นใช้สำหรับการทำนายแล้วเหตุผลอีกข้อหนึ่งที่ชอบแบบจำลองที่ง่ายกว่าก็คือถ้าทุกอย่างเท่าเทียมกันโมเดลที่เรียบง่ายจะมีคุณสมบัติการทำนายที่ดีกว่า ฉันกำลังคิดถึง AIC, BIC และ PAC โดยทั่วไป
Meh

11

แม้ว่านี่จะเป็นคำถามของฉัน แต่ฉันก็จะโพสต์สองเซ็นต์ของฉันเองเป็นคำตอบดังนั้นเราจึงเพิ่มจำนวนมุมมองของคำถามนี้ ปัญหาที่นี่คือว่าเหมาะสมที่จะพอดีกับการกระจายพารามิเตอร์เดียวกับข้อมูลในตอนแรกหรือไม่ เมื่อคุณใช้การแจกแจงแบบพารามิเตอร์เดียว (เช่น Poisson GLM หรือ binomial GLM พร้อมพารามิเตอร์การทดลองแบบตายตัว) ความแปรปรวนไม่ใช่พารามิเตอร์อิสระและถูก จำกัด ให้เป็นฟังก์ชันบางอย่างของค่าเฉลี่ย ซึ่งหมายความว่าเป็นการไม่สมควรที่จะใส่การแจกแจงแบบพารามิเตอร์เดียวกับข้อมูลในสถานการณ์ใด ๆ ที่คุณไม่แน่ใจว่าความแปรปรวนเป็นไปตามโครงสร้างของการแจกแจงนั้น


การปรับพารามิเตอร์หนึ่งตัวให้เหมาะสมกับข้อมูลนั้นเป็นความคิดที่ไม่ดีนัก:ข้อมูลมักจะยุ่งเหยิงกว่าตัวแบบที่เสนอและแม้ว่าจะมีเหตุผลทางทฤษฎีที่เชื่อได้ว่าแบบจำลองพารามิเตอร์เดียวอาจได้มาซึ่งมักเป็นกรณีที่ข้อมูล อันที่จริงมาจากการผสมผสานของการแจกแจงพารามิเตอร์เดียวที่มีช่วงของค่าพารามิเตอร์ สิ่งนี้มักจะเทียบเท่ากับโมเดลที่กว้างขึ้นเช่นการแจกแจงสองพารามิเตอร์ที่ให้อิสระในการแปรปรวนมากขึ้น ดังที่อธิบายไว้ด้านล่างสิ่งนี้เป็นจริงสำหรับ Poisson GLM ในกรณีของข้อมูลการนับ

ตามที่ระบุไว้ในคำถามในการใช้งานสถิติเป็นส่วนใหญ่มันเป็นวิธีปฏิบัติมาตรฐานในการใช้รูปแบบการกระจายที่อย่างน้อยช่วงเวลาสองช่วงแรกจะแตกต่างกันอย่างอิสระ สิ่งนี้ทำให้มั่นใจได้ว่าโมเดลที่ถูกติดตั้งอนุญาตให้ข้อมูลสามารถกำหนดค่าเฉลี่ยและความแปรปรวนที่อนุมานแทนที่จะมีข้อ จำกัด เหล่านี้โดยแบบจำลอง การมีพารามิเตอร์ที่สองนี้จะสูญเสียอิสระเพียงหนึ่งองศาในโมเดลซึ่งเป็นการสูญเสียเพียงเล็กน้อยเมื่อเทียบกับประโยชน์ของการอนุญาตให้มีการประมาณค่าความแปรปรวนจากข้อมูล แน่นอนหนึ่งสามารถขยายเหตุผลนี้และเพิ่มพารามิเตอร์ที่สามเพื่อให้เหมาะสมของความเบ้, หนึ่งในสี่เพื่อให้เหมาะสมของ kurtosis ฯลฯ


จากข้อยกเว้นเล็ก ๆ น้อย ๆ อย่างมาก Poisson GLM เป็นแบบจำลองที่ไม่ดี: จากประสบการณ์ของฉันการกระจาย Poisson เพื่อนับข้อมูลเป็นความคิดที่ไม่ดี สำหรับข้อมูลนับมันเป็นเรื่องธรรมดามากสำหรับความแปรปรวนในข้อมูลที่จะ 'กระจายตัวมากเกินไป' เมื่อเทียบกับการกระจาย Poisson แม้ในสถานการณ์ที่ทฤษฎีชี้ไปที่การแจกแจงปัวซงบ่อยครั้งโมเดลที่ดีที่สุดคือการผสมผสานของการแจกแจงปัวซงซึ่งความแปรปรวนกลายเป็นพารามิเตอร์อิสระ ในกรณีของข้อมูลการนับการแจกแจงลบ - ทวินามคือการผสมปัวซองกับการแจกแจงแกมม่าสำหรับพารามิเตอร์อัตราดังนั้นแม้ว่าเมื่อมีเหตุผลทางทฤษฎีที่จะคิดว่าจำนวนที่มาถึงตามกระบวนการของการแจกแจงปัวซงมันก็มักจะเป็นกรณีที่มีการกระจายตัวเกินและการกระจายเชิงลบ - ทวินามดีกว่ามาก

การฝึกปรับ Poisson GLM ให้เหมาะสมเพื่อนับจำนวนข้อมูลจากนั้นทำการทดสอบทางสถิติเพื่อตรวจสอบ 'การกระจายตัวเกิน' เป็นเรื่องสมัยและมันแทบจะเป็นวิธีปฏิบัติที่ดี ในการวิเคราะห์ทางสถิติรูปแบบอื่น ๆ เราไม่ได้เริ่มต้นด้วยการแจกแจงสองพารามิเตอร์เลือกข้อ จำกัด ผลต่างโดยพลการและทดสอบข้อ จำกัด นี้เพื่อพยายามกำจัดพารามิเตอร์ออกจากการแจกแจง ด้วยการทำสิ่งต่าง ๆ ด้วยวิธีนี้เราจะสร้างขั้นตอนลูกผสมที่น่าอึดอัดใจซึ่งประกอบด้วยการทดสอบสมมติฐานเบื้องต้นที่ใช้สำหรับการเลือกแบบจำลองและจากนั้นแบบจำลองที่แท้จริง (เช่นปัวซองหรือการกระจายแบบกว้าง) มันแสดงให้เห็นในหลาย ๆ บริบทว่าการฝึกฝนการสร้างแบบจำลองลูกผสมจากการเลือกแบบทดสอบเบื้องต้นจะนำไปสู่แบบจำลองโดยรวมที่ไม่ดี

สถานการณ์แบบอะนาล็อกที่ใช้วิธีไฮบริดที่คล้ายกันในการทดสอบความแตกต่างของค่าเฉลี่ย มันเคยเป็นกรณีที่หลักสูตรสถิติแนะนำให้ใช้การทดสอบของ Levene เป็นครั้งแรก(หรือแม้กระทั่งเพียงแค่กฎของหัวแม่มือ ") เพื่อตรวจสอบความเท่าเทียมกันของความแปรปรวนระหว่างประชากรสองกลุ่มและถ้าข้อมูล" ผ่าน "การทดสอบนี้คุณจะ ใช้การทดสอบนักเรียน T ที่ถือว่าความแปรปรวนเท่ากันและหากข้อมูล "ล้มเหลว" การทดสอบคุณควรใช้การทดสอบ T ของ Welch แทน นี่เป็นขั้นตอนที่ไม่ดีจริงๆ (ดูเช่นที่นี่และที่นี่) มันเป็นการดียิ่งกว่าที่จะใช้การทดสอบหลังซึ่งไม่ทำให้เกิดข้อแปรปรวนแทนที่จะสร้างการทดสอบแบบผสมที่น่าอึดอัดใจที่จะรวมการทดสอบสมมติฐานเบื้องต้นเข้าด้วยกันและจากนั้นใช้สิ่งนี้เพื่อเลือกแบบจำลอง

สำหรับข้อมูลนับคุณโดยทั่วไปจะได้รับผลลัพธ์เริ่มต้นที่ดีโดยการปรับโมเดลสองพารามิเตอร์เช่นตัวแบบลบทวินามหรือ quasi-Poisson (โปรดทราบว่าหลังไม่ใช่การแจกแจงที่แท้จริง แต่ก็ยังให้รูปแบบพารามิเตอร์สองแบบที่สมเหตุสมผล) หากต้องการการวางนัยทั่วไปเพิ่มเติมใด ๆ โดยทั่วไปแล้วจะเป็นการเพิ่มศูนย์เงินเฟ้อที่มีเลขศูนย์มากเกินไป ในข้อมูล การ จำกัด Poisson GLM เป็นตัวเลือกรูปแบบประดิษฐ์และไร้สติและสิ่งนี้ไม่ได้ดีไปกว่าการทดสอบการกระจายตัวมากเกินไป


ตกลงตอนนี้ที่นี่เป็นข้อยกเว้นเล็กน้อย:ข้อยกเว้นจริงเท่านั้นที่กล่าวถึงข้างต้นคือสองสถานการณ์:

(1) คุณมีเหตุผลทางทฤษฎีที่สำคัญอย่างยิ่งสำหรับการเชื่อว่าสมมติฐานสำหรับการแจกแจงพารามิเตอร์เดียวมีความพึงพอใจและส่วนหนึ่งของการวิเคราะห์คือการทดสอบแบบจำลองเชิงทฤษฎีนี้กับข้อมูล หรือ

(2) สำหรับเหตุผล (แปลก) อื่น ๆ วัตถุประสงค์ของการวิเคราะห์ของคุณคือการทดสอบสมมติฐานเกี่ยวกับความแปรปรวนของข้อมูลและคุณต้องการจำกัดความแปรปรวนนี้ตามข้อ จำกัด ของสมมติฐานนี้แล้วทดสอบสมมติฐานนี้

สถานการณ์เหล่านี้หายากมาก พวกเขามีแนวโน้มที่จะเกิดขึ้นก็ต่อเมื่อมีความแข็งแรงเบื้องต้นความรู้ทางทฤษฎีเกี่ยวกับกลไกข้อมูลการสร้างและวัตถุประสงค์ของการวิเคราะห์คือการทดสอบทฤษฎีพื้นฐานนี้ นี่อาจเป็นกรณีในการใช้งานที่ จำกัด อย่างมากซึ่งข้อมูลถูกสร้างขึ้นภายใต้สภาวะที่มีการควบคุมอย่างเข้มงวด (เช่นในฟิสิกส์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.