เมื่อใดจึงจะใช้ปัวซองเทียบกับเรขาคณิตเทียบกับลบทวินาม GLMs สำหรับการนับข้อมูล?

ฉันพยายามจัดโครงร่างสำหรับตัวเองเมื่อเหมาะสมที่จะใช้ประเภทการถดถอย (เรขาคณิต, ปัวซอง, ลบทวินาม) กับข้อมูลการนับภายในกรอบการทำงาน GLM (ใช้การกระจายแบบ GLM เพียง 3 ใน 8 เท่านั้นสำหรับข้อมูลการนับ ฉันอ่านศูนย์รอบทวินามลบและการแจกแจงปัวซง)

จนถึงตอนนี้ฉันมีตรรกะดังต่อไปนี้: มันนับข้อมูลหรือไม่ ถ้าใช่ค่าเฉลี่ยและความแปรปรวนไม่เท่ากันหรือไม่? ถ้าใช่การถดถอยแบบทวินามลบ ถ้าไม่มีปัวซงถดถอย มีอัตราเงินเฟ้อเป็นศูนย์หรือไม่? ถ้าใช่ปัวซองกำลังพองศูนย์หรือทวินามลบพอง

คำถามที่ 1ดูเหมือนจะไม่มีข้อบ่งชี้ที่ชัดเจนว่าจะใช้เมื่อใด มีบางอย่างที่ต้องแจ้งการตัดสินใจนั้นหรือไม่? จากสิ่งที่ฉันเข้าใจเมื่อคุณเปลี่ยนไปใช้ ZIP ความแปรปรวนเฉลี่ยที่เป็นสมมติฐานที่เท่าเทียมกันนั้นค่อนข้างผ่อนคลายดังนั้นมันจึงค่อนข้างคล้ายกับ NB อีกครั้ง

คำถามที่ 2ตระกูลเรขาคณิตสอดคล้องกับเรื่องนี้หรือคำถามประเภทใดที่ฉันควรถามข้อมูลเมื่อตัดสินใจว่าจะใช้ตระกูลเรขาคณิตในการถดถอยของฉันหรือไม่

คำถามที่ 3ฉันเห็นผู้คนแลกเปลี่ยนการแจกแจงทวินามและปัวซงตลอดเวลา แต่ไม่ใช่เชิงเรขาคณิตดังนั้นฉันเดาว่ามีบางอย่างที่แตกต่างกันอย่างชัดเจนว่าจะใช้เมื่อไร ถ้าเป็นเช่นนั้นมันคืออะไร?

ป.ล. ฉันได้ทำแผนภาพ (อาจจะเกินความจริง) จากความคิดเห็น) ( แก้ไขได้ ) ของความเข้าใจปัจจุบันของฉันหากผู้คนต้องการแสดงความคิดเห็น / ปรับแต่งเพื่อการอภิปราย นับข้อมูล: แผนผังการตัดสินใจ GLM

— timothy.s.lau
แหล่งที่มา

ฉันคุ้นเคยกับการเขียนโปรแกรม R เท่านั้น แต่หวังว่าจะช่วยได้ ... stats.stackexchange.com/questions/60643/…

— ENG Lian Hu

@ cryoeng ฉันเห็นว่าและฉันได้วางความแตกต่างที่อธิบายไว้ในคำถามของฉันกับต้นไม้ตรรกะ ฉันสนใจโดยเฉพาะอย่างยิ่งในเรื่องที่กล่าวถึงน้อยกว่านั่นคือความแตกต่างทางเรขาคณิต

— timothy.s.lau

(UPDATE) @Nick Cox ตอบที่นี่: stats.stackexchange.com/questions/67547/when-to-use-gamma-glmsดูเหมือนจะยอมจำนนต่อความเชื่อมั่นที่ฉันเคยเห็นมาแล้ว ใช้มันเกินคำตอบที่ว่างเปล่าของทุกครั้งที่มันทำงานได้ดีที่สุด "

— timothy.s.lau

@Glen_b จับดีฉันปรับปรุงตรรกะ

— timothy.s.lau

คุณอาจลบย่อหน้าเกี่ยวกับการปรับแต่งโดย mod เช่นกัน

— Glen_b -Reinstate Monica

$\mu + 1/\theta \cdot \mu^2$ $\mu$ $\theta$ $\alpha = 1/\theta$ $\theta = \infty$ $\theta = 1$

$\theta$ $\infty$

แน่นอนว่ายังมีการโหลดข้อมูลการแจกแจงการนับจำนวนพารามิเตอร์เดียวหรือหลายพารามิเตอร์อื่น ๆ (รวมถึงสารประกอบปัวซองที่คุณกล่าวถึง) ซึ่งบางครั้งอาจหรืออาจนำไปสู่

สำหรับศูนย์ส่วนเกิน: กลยุทธ์มาตรฐานสองรายการคือการใช้การแจกแจงข้อมูลนับศูนย์ที่สูงเกินจริงหรือโมเดลอุปสรรค์ที่ประกอบด้วยรูปแบบไบนารีสำหรับศูนย์หรือมากกว่ารวมทั้งแบบจำลองข้อมูลนับศูนย์ที่ถูกตัดทอน ในขณะที่คุณพูดถึงค่าศูนย์ส่วนเกินและการกระจายเกินขนาดอาจถูกทำให้สับสน แต่บ่อยครั้งที่การกระจายเกินพิกัดจำนวนมากยังคงอยู่แม้หลังจากการปรับแบบจำลองสำหรับศูนย์ส่วนเกิน อีกครั้งในกรณีที่มีข้อสงสัยฉันอยากจะแนะนำให้ใช้แบบศูนย์เงินเฟ้อตาม NB หรือแบบจำลองอุปสรรค์ด้วยตรรกะเดียวกันข้างต้น

คำเตือน: นี่เป็นภาพรวมโดยย่อและเรียบง่ายมาก เมื่อนำแบบจำลองไปใช้ในทางปฏิบัติฉันจะแนะนำให้อ่านหนังสือเรียนในหัวข้อ โดยส่วนตัวแล้วฉันชอบหนังสือนับข้อมูลจาก Winkelmann และโดย Cameron & Trivedi แต่ก็มีของดี ๆ อีกเช่นกัน สำหรับการสนทนาแบบใช้ R คุณอาจชอบบทความของเราใน JSS ( http://www.jstatsoft.org/v27/i08/ )

— Achim Zeileis
แหล่งที่มา

μ + μ^{2} > μ

$\mu + \mu^2 > \mu$

μ

$\mu$

อย่างที่คุณอาจจะสามารถบอกได้จากความคิดเห็นก่อนหน้าของฉัน: ฉันไม่ได้เป็นแฟนของแผนภูมิขนาดใหญ่เกินไป ในการเลือกแบบจำลองที่ดีจำเป็นต้องเข้าใจการเชื่อมต่อระหว่างแบบจำลองและความสัมพันธ์กับแบบจำลองที่ใช้ได้จริง ไม่ว่าคุณจะสนใจรูปทรงเรขาคณิตหรือไม่นั้นขึ้นอยู่กับกรณีของแอปพลิเคชันที่คุณมี ในทำนองเดียวกันสำหรับอัตราเงินเฟ้อเป็นศูนย์เทียบกับสิ่งกีดขวาง (ซึ่งคุณละเว้นจากแผนภูมิของคุณ) ในที่สุดคำสั่งของคำถามไม่จำเป็นต้องเหมือนกันสำหรับแอปพลิเคชันทั้งหมด ฯลฯ

— Achim Zeileis

ฉันเข้าใจว่าภาพร่างของฉันค่อนข้างแปลกไปหน่อย แต่สำหรับนักเรียนในสาขาวิทยาศาสตร์นั้นไม่ใช่เรื่องแปลกที่จะเริ่มด้วย schema ที่ค่อนข้างง่ายหากคุณเข้าเรียนวิชาฟิสิกส์คุณจะคุ้นเคยกับความถี่ที่พวกเขาเปลี่ยนและทำลาย "กฎ" ที่คุณได้เรียนรู้มาก่อนซึ่งเป็นรากฐานของอีกต่อไป ความเชี่ยวชาญและความเข้าใจที่เหมาะสมยิ่ง ดังนั้นเพื่อการเรียนรู้ฉันเป็นบัณฑิตฉันแค่พยายามทำความเข้าใจ "ถูกต้อง" เพิ่มเติมเกี่ยวกับพื้นฐานที่ฉันสามารถสร้างได้ในภายหลังเช่นอุปสรรค์ ฯลฯ ขอบคุณสำหรับการอ้างอิง BTW ฉันจะตรวจสอบตำราเรียน คุณพูดถึงเช่นเดียวกับกระดาษของคุณ

— timothy.s.lau

\log (μ_{i}) = x_{i}^{⊤} β

$\log(\mu_i) = x_i^\top \beta$