แม้ว่านี่จะเป็นคำถามของฉัน แต่ฉันก็จะโพสต์สองเซ็นต์ของฉันเองเป็นคำตอบดังนั้นเราจึงเพิ่มจำนวนมุมมองของคำถามนี้ ปัญหาที่นี่คือว่าเหมาะสมที่จะพอดีกับการกระจายพารามิเตอร์เดียวกับข้อมูลในตอนแรกหรือไม่ เมื่อคุณใช้การแจกแจงแบบพารามิเตอร์เดียว (เช่น Poisson GLM หรือ binomial GLM พร้อมพารามิเตอร์การทดลองแบบตายตัว) ความแปรปรวนไม่ใช่พารามิเตอร์อิสระและถูก จำกัด ให้เป็นฟังก์ชันบางอย่างของค่าเฉลี่ย ซึ่งหมายความว่าเป็นการไม่สมควรที่จะใส่การแจกแจงแบบพารามิเตอร์เดียวกับข้อมูลในสถานการณ์ใด ๆ ที่คุณไม่แน่ใจว่าความแปรปรวนเป็นไปตามโครงสร้างของการแจกแจงนั้น
การปรับพารามิเตอร์หนึ่งตัวให้เหมาะสมกับข้อมูลนั้นเป็นความคิดที่ไม่ดีนัก:ข้อมูลมักจะยุ่งเหยิงกว่าตัวแบบที่เสนอและแม้ว่าจะมีเหตุผลทางทฤษฎีที่เชื่อได้ว่าแบบจำลองพารามิเตอร์เดียวอาจได้มาซึ่งมักเป็นกรณีที่ข้อมูล อันที่จริงมาจากการผสมผสานของการแจกแจงพารามิเตอร์เดียวที่มีช่วงของค่าพารามิเตอร์ สิ่งนี้มักจะเทียบเท่ากับโมเดลที่กว้างขึ้นเช่นการแจกแจงสองพารามิเตอร์ที่ให้อิสระในการแปรปรวนมากขึ้น ดังที่อธิบายไว้ด้านล่างสิ่งนี้เป็นจริงสำหรับ Poisson GLM ในกรณีของข้อมูลการนับ
ตามที่ระบุไว้ในคำถามในการใช้งานสถิติเป็นส่วนใหญ่มันเป็นวิธีปฏิบัติมาตรฐานในการใช้รูปแบบการกระจายที่อย่างน้อยช่วงเวลาสองช่วงแรกจะแตกต่างกันอย่างอิสระ สิ่งนี้ทำให้มั่นใจได้ว่าโมเดลที่ถูกติดตั้งอนุญาตให้ข้อมูลสามารถกำหนดค่าเฉลี่ยและความแปรปรวนที่อนุมานแทนที่จะมีข้อ จำกัด เหล่านี้โดยแบบจำลอง การมีพารามิเตอร์ที่สองนี้จะสูญเสียอิสระเพียงหนึ่งองศาในโมเดลซึ่งเป็นการสูญเสียเพียงเล็กน้อยเมื่อเทียบกับประโยชน์ของการอนุญาตให้มีการประมาณค่าความแปรปรวนจากข้อมูล แน่นอนหนึ่งสามารถขยายเหตุผลนี้และเพิ่มพารามิเตอร์ที่สามเพื่อให้เหมาะสมของความเบ้, หนึ่งในสี่เพื่อให้เหมาะสมของ kurtosis ฯลฯ
จากข้อยกเว้นเล็ก ๆ น้อย ๆ อย่างมาก Poisson GLM เป็นแบบจำลองที่ไม่ดี: จากประสบการณ์ของฉันการกระจาย Poisson เพื่อนับข้อมูลเป็นความคิดที่ไม่ดี สำหรับข้อมูลนับมันเป็นเรื่องธรรมดามากสำหรับความแปรปรวนในข้อมูลที่จะ 'กระจายตัวมากเกินไป' เมื่อเทียบกับการกระจาย Poisson แม้ในสถานการณ์ที่ทฤษฎีชี้ไปที่การแจกแจงปัวซงบ่อยครั้งโมเดลที่ดีที่สุดคือการผสมผสานของการแจกแจงปัวซงซึ่งความแปรปรวนกลายเป็นพารามิเตอร์อิสระ ในกรณีของข้อมูลการนับการแจกแจงลบ - ทวินามคือการผสมปัวซองกับการแจกแจงแกมม่าสำหรับพารามิเตอร์อัตราดังนั้นแม้ว่าเมื่อมีเหตุผลทางทฤษฎีที่จะคิดว่าจำนวนที่มาถึงตามกระบวนการของการแจกแจงปัวซงมันก็มักจะเป็นกรณีที่มีการกระจายตัวเกินและการกระจายเชิงลบ - ทวินามดีกว่ามาก
การฝึกปรับ Poisson GLM ให้เหมาะสมเพื่อนับจำนวนข้อมูลจากนั้นทำการทดสอบทางสถิติเพื่อตรวจสอบ 'การกระจายตัวเกิน' เป็นเรื่องสมัยและมันแทบจะเป็นวิธีปฏิบัติที่ดี ในการวิเคราะห์ทางสถิติรูปแบบอื่น ๆ เราไม่ได้เริ่มต้นด้วยการแจกแจงสองพารามิเตอร์เลือกข้อ จำกัด ผลต่างโดยพลการและทดสอบข้อ จำกัด นี้เพื่อพยายามกำจัดพารามิเตอร์ออกจากการแจกแจง ด้วยการทำสิ่งต่าง ๆ ด้วยวิธีนี้เราจะสร้างขั้นตอนลูกผสมที่น่าอึดอัดใจซึ่งประกอบด้วยการทดสอบสมมติฐานเบื้องต้นที่ใช้สำหรับการเลือกแบบจำลองและจากนั้นแบบจำลองที่แท้จริง (เช่นปัวซองหรือการกระจายแบบกว้าง) มันแสดงให้เห็นในหลาย ๆ บริบทว่าการฝึกฝนการสร้างแบบจำลองลูกผสมจากการเลือกแบบทดสอบเบื้องต้นจะนำไปสู่แบบจำลองโดยรวมที่ไม่ดี
สถานการณ์แบบอะนาล็อกที่ใช้วิธีไฮบริดที่คล้ายกันในการทดสอบความแตกต่างของค่าเฉลี่ย มันเคยเป็นกรณีที่หลักสูตรสถิติแนะนำให้ใช้การทดสอบของ Levene เป็นครั้งแรก(หรือแม้กระทั่งเพียงแค่กฎของหัวแม่มือ ") เพื่อตรวจสอบความเท่าเทียมกันของความแปรปรวนระหว่างประชากรสองกลุ่มและถ้าข้อมูล" ผ่าน "การทดสอบนี้คุณจะ ใช้การทดสอบนักเรียน T ที่ถือว่าความแปรปรวนเท่ากันและหากข้อมูล "ล้มเหลว" การทดสอบคุณควรใช้การทดสอบ T ของ Welch แทน นี่เป็นขั้นตอนที่ไม่ดีจริงๆ (ดูเช่นที่นี่และที่นี่) มันเป็นการดียิ่งกว่าที่จะใช้การทดสอบหลังซึ่งไม่ทำให้เกิดข้อแปรปรวนแทนที่จะสร้างการทดสอบแบบผสมที่น่าอึดอัดใจที่จะรวมการทดสอบสมมติฐานเบื้องต้นเข้าด้วยกันและจากนั้นใช้สิ่งนี้เพื่อเลือกแบบจำลอง
สำหรับข้อมูลนับคุณโดยทั่วไปจะได้รับผลลัพธ์เริ่มต้นที่ดีโดยการปรับโมเดลสองพารามิเตอร์เช่นตัวแบบลบทวินามหรือ quasi-Poisson (โปรดทราบว่าหลังไม่ใช่การแจกแจงที่แท้จริง แต่ก็ยังให้รูปแบบพารามิเตอร์สองแบบที่สมเหตุสมผล) หากต้องการการวางนัยทั่วไปเพิ่มเติมใด ๆ โดยทั่วไปแล้วจะเป็นการเพิ่มศูนย์เงินเฟ้อที่มีเลขศูนย์มากเกินไป ในข้อมูล การ จำกัด Poisson GLM เป็นตัวเลือกรูปแบบประดิษฐ์และไร้สติและสิ่งนี้ไม่ได้ดีไปกว่าการทดสอบการกระจายตัวมากเกินไป
ตกลงตอนนี้ที่นี่เป็นข้อยกเว้นเล็กน้อย:ข้อยกเว้นจริงเท่านั้นที่กล่าวถึงข้างต้นคือสองสถานการณ์:
(1) คุณมีเหตุผลทางทฤษฎีที่สำคัญอย่างยิ่งสำหรับการเชื่อว่าสมมติฐานสำหรับการแจกแจงพารามิเตอร์เดียวมีความพึงพอใจและส่วนหนึ่งของการวิเคราะห์คือการทดสอบแบบจำลองเชิงทฤษฎีนี้กับข้อมูล หรือ
(2) สำหรับเหตุผล (แปลก) อื่น ๆ วัตถุประสงค์ของการวิเคราะห์ของคุณคือการทดสอบสมมติฐานเกี่ยวกับความแปรปรวนของข้อมูลและคุณต้องการจำกัดความแปรปรวนนี้ตามข้อ จำกัด ของสมมติฐานนี้แล้วทดสอบสมมติฐานนี้
สถานการณ์เหล่านี้หายากมาก พวกเขามีแนวโน้มที่จะเกิดขึ้นก็ต่อเมื่อมีความแข็งแรงเบื้องต้นความรู้ทางทฤษฎีเกี่ยวกับกลไกข้อมูลการสร้างและวัตถุประสงค์ของการวิเคราะห์คือการทดสอบทฤษฎีพื้นฐานนี้ นี่อาจเป็นกรณีในการใช้งานที่ จำกัด อย่างมากซึ่งข้อมูลถูกสร้างขึ้นภายใต้สภาวะที่มีการควบคุมอย่างเข้มงวด (เช่นในฟิสิกส์)