จะตัดสินใจได้อย่างไรว่าตระกูล GLM ใดที่จะใช้?


17

ฉันมีข้อมูลความหนาแน่นของปลาที่ฉันพยายามเปรียบเทียบระหว่างเทคนิคการรวบรวมที่แตกต่างกันหลายอย่างข้อมูลมีค่าเป็นศูนย์จำนวนมากและฮิสโตแกรมมีลักษณะเป็น vaugley ที่เหมาะสมสำหรับการแจกแจงปัวซองยกเว้นว่าเป็นความหนาแน่นไม่ใช่ข้อมูลจำนวนเต็ม ฉันค่อนข้างใหม่สำหรับ GLM และใช้เวลาหลายวันที่ผ่านมาในการค้นหาทางออนไลน์เพื่อบอกวิธีการแจกจ่ายที่ใช้ แต่ล้มเหลวอย่างมากในการค้นหาแหล่งข้อมูลใด ๆ ที่ช่วยในการตัดสินใจ ฮิสโตแกรมตัวอย่างของข้อมูลมีลักษณะดังนี้:ฮิสโทแกรมตัวอย่าง

ฉันไม่รู้ว่าจะเลือกครอบครัวที่เหมาะสมเพื่อใช้กับ GLM อย่างไร หากใครมีคำแนะนำใด ๆ หรือสามารถให้ทรัพยากรฉันฉันควรตรวจสอบที่จะยอดเยี่ยม


1
"ความหนาแน่นของปลา" คืออะไร? มันเป็นจำนวนปลาต่อหน่วยปริมาตรของทะเลสาบหรือไม่?
gung - Reinstate Monica

จำนวนปลาต่อหน่วยพื้นที่ (ในกรณีนี้คือตารางเมตร) เราใช้เครื่องมือสำรวจด้วยสายตาดังนั้นมันจึงคำนวณจากจำนวนปลาที่สังเกตได้หารด้วยพื้นที่สำรวจโดยเครื่องมือ เราต้องใช้ความหนาแน่นเพื่อสร้างมาตรฐานระหว่างเครื่องมือเพราะพวกเขาสำรวจพื้นที่ที่แตกต่างกันอย่างมากมิฉะนั้นฉันก็สามารถใช้ข้อมูลนับและติดกับการกระจายปัวซอง
C. Denney

7
คำแนะนำของฉัน - กลับไปที่ข้อมูลการนับและใช้ "พื้นที่" เป็นออฟเซ็ตในแบบจำลองพร้อมลิงค์บันทึก --- แต่ฉันไม่รู้ว่าปัวซองจะพอดีดีมาก (มันยากที่จะเดาตั้งแต่ ฮิสโตแกรมของคุณแสดงการกระจายแบบขอบมากกว่าการแจกแจงแบบมีเงื่อนไขซึ่ง GLM จะเป็นแบบจำลอง ... และในกรณีใดก็ตามมีถังขยะน้อยเกินไปที่จะใช้งานได้มาก) หากปัวซองไม่หนัก / ขัดขวาง -0-ish เพียงพอทวินามเชิงลบอาจทำงานหรือคุณอาจต้องการรุ่นที่สูงเกินจริงหรืออุปสรรค์
Glen_b -Reinstate Monica

ฉันทำแบบจำลอง Poisson ทุกวันทุกวันและความคิดเห็นของ Glen_b คือคำตอบที่ยอมรับได้
พอล

2
ภาคผนวกหนึ่ง - การสร้างแบบจำลองปัวซองนั้นเป็นเหตุผลที่ดีในทางทฤษฎีเมื่อหน่วยการสังเกตการณ์ (ในกรณีนี้ฉันเดาว่าคุณนับปลาแต่ละตัว?) มีการกระจายอย่างอิสระข้ามเขตการสังเกตเช่นเม็ดทรายที่โรยแบบสุ่ม ภายใต้สมมติฐานนี้อาจมีการเปลี่ยนแปลงของความหนาแน่น แต่ตำแหน่งของปลาหนึ่งไม่ได้บ่งบอกถึงอะไรเกี่ยวกับตำแหน่งของปลาอื่น แต่ควรได้รับการเตือนสมมติฐานนี้อาจถูกละเมิดในทางปฏิบัติเพราะปลาทำกระจุกตัวอย่างเช่นเข้าโรงเรียนและจากนั้นตำแหน่งของพวกเขาจะไม่เป็นอิสระอีกต่อไป
พอล

คำตอบ:


8

ตระกูล GLM ประกอบด้วยฟังก์ชันลิงก์รวมถึงความสัมพันธ์แบบแปรปรวน สำหรับ Poisson GLMs ฟังก์ชันลิงก์คือบันทึกและความสัมพันธ์แปรปรวนหมายถึงตัวตน แม้จะมีคำเตือนว่าซอฟต์แวร์เชิงสถิติส่วนใหญ่จะให้คุณ แต่ก็เหมาะสมอย่างยิ่งที่จะสร้างแบบจำลองความสัมพันธ์ในข้อมูลต่อเนื่องซึ่งความสัมพันธ์ระหว่างตัวแปรสองตัวนั้นเป็นเส้นตรงในสเกลบันทึกและความแปรปรวนเพิ่มขึ้นตามค่าเฉลี่ย

นี่คือเหตุผลสำหรับการเลือกลิงก์และฟังก์ชันความแปรปรวนใน GLM แน่นอนว่ามีหลายสมมติฐานที่อยู่เบื้องหลังกระบวนการนี้ คุณสามารถสร้างแบบจำลองที่มีประสิทธิภาพมากขึ้นโดยใช้ quasilikelihood (ดู?quasipoisson) หรือข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ (ดูแพ็คเกจsandwichหรือgee)

คุณได้บันทึกอย่างถูกต้องแล้วว่ามีความหนาแน่นหลายตัวเป็น 0 ในข้อมูลของคุณ ภายใต้ตัวแบบความน่าจะเป็นปัวซองนั้นมีความเหมาะสมที่จะสุ่มตัวอย่าง 0s ในข้อมูลเป็นครั้งคราวดังนั้นจึงไม่จำเป็นว่าในกรณีที่การสังเกตเหล่านี้นำไปสู่การมีอคติในการประมาณการอัตราของคุณ

เพื่อตรวจสอบสมมติฐานที่อยู่เบื้องหลัง GLMs มักจะเป็นประโยชน์ในการดูเพียร์สันที่เหลือ บัญชีเหล่านี้สำหรับความสัมพันธ์ความแปรปรวนเฉลี่ยและแสดงสถิติว่าการสังเกตเฉพาะเช่น 0s เหล่านี้ส่งผลกระทบอย่างใหญ่หลวงต่อการประเมินและผลลัพธ์


22

แบบจำลองเชิงเส้นทั่วไปถูกกำหนดในรูปของตัวทำนายเชิงเส้น

η=Xβ

ที่ถูกส่งผ่านฟังก์ชันลิงก์ :ก.

ก.(E(Y|X))=η

มันแบบจำลองความสัมพันธ์ระหว่างตัวแปรและตัวแปรอิสระX_1, แม่นยำมากขึ้นก็รุ่นความคาดหวังที่มีเงื่อนไขของให้ ,YX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

ดังนั้นโมเดลสามารถนิยามได้ในเงื่อนไขความน่าจะเป็นดังนี้

Y|Xf(μ,σ2)

โดยที่คือการแจกแจงความน่าจะเป็นของตระกูลเอ็กซ์โพเนนเชียล ดังนั้นสิ่งแรกที่ต้องแจ้งให้ทราบล่วงหน้าคือจะไม่กระจายตัวของแต่ต่อไปนี้มันมีเงื่อนไขใน{X} ทางเลือกของการกระจายนี้ขึ้นอยู่กับความรู้ของคุณ (สิ่งที่คุณสามารถสมมติ) เกี่ยวกับความสัมพันธ์ระหว่างและ{X} ทุกที่ที่คุณอ่านเกี่ยวกับการแจกแจงสิ่งที่มีความหมายก็คือการแจกแจงแบบมีเงื่อนไขffYYXYX

ในทางกลับกันในทางปฏิบัติหากคุณสนใจที่จะสร้างแบบจำลองการทำนายคุณอาจสนใจที่จะทดสอบการแจกแจงที่แตกต่างกันเล็กน้อยและในที่สุดเรียนรู้ว่าหนึ่งในนั้นให้ผลลัพธ์ที่แม่นยำมากขึ้นแม้ว่าคนอื่นจะไม่ใช่ ส่วนใหญ่ "เหมาะสม" ในแง่ของการพิจารณาทางทฤษฎี (เช่นในทางทฤษฎีคุณควรใช้ปัวซอง แต่ในทางปฏิบัติแล้วการถดถอยเชิงเส้นมาตรฐานจะทำงานได้ดีที่สุดสำหรับข้อมูลของคุณ)


2

นี่เป็นคำถามที่ค่อนข้างกว้างคุณกำลังขอวิธีสร้างแบบจำลองและมีหนังสือทั้งเล่มสำหรับเรื่องนั้น ตัวอย่างเช่นเมื่อจัดการกับข้อมูลการนับให้พิจารณาสิ่งต่อไปนี้:

นอกเหนือจากการเลือกการกระจายคุณต้องเลือกฟังก์ชั่นลิงค์ ด้วยข้อมูลนับคุณสามารถลองใช้ปัวซองหรือการแจกแจงแบบทวินามลบและฟังก์ชั่นบันทึกลิงค์ เหตุผลสำหรับการเชื่อมโยงบันทึกมีให้ที่นี่: ความดีของความพอดีและรูปแบบการเลือกการถดถอยเชิงเส้นหรือปัวซอง หากแพทช์ของคุณมีพื้นที่ที่แตกต่างกันมากบางทีคุณควรรวมลอการิทึมของพื้นที่เป็นออฟเซ็ต นับ สำหรับการอธิบายออฟเซ็ตในการถดถอยข้อมูลนับให้ดูที่จะใช้การชดเชยในการถดถอยปัวซองเมื่อใด

EDIT 

คำตอบนี้ถูกโพสต์ไปยังคำถามอื่นซึ่งถูกรวมเข้ากับคำถามนี้ ในขณะที่คำตอบนั้นเป็นเรื่องทั่วไปมันแสดงความคิดเห็นเฉพาะของชุดข้อมูลและปัญหาที่ไม่อยู่ในคำถาม คำถามเดิมสามารถพบได้ในลิงค์ต่อไปนี้: Family in GLM - จะเลือกได้อย่างไร?


เราไม่สามารถยกเลิกการรวมคำถาม @kjetil เฉพาะผู้พัฒนาเท่านั้นที่สามารถทำได้ (& พวกเขาไม่ชอบ) แต่ฉันยังสามารถเข้าถึง Q ต้นฉบับได้ 1 ความเป็นไปได้คือฉันสามารถคัดลอกเนื้อหาลงใน Q ใหม่ (ซึ่งฉันจะเป็นผู้แต่ง) คุณสามารถคัดลอก A นี้ไปยังเธรดใหม่และจากนั้นฉันสามารถปิดเธรดนั้นซ้ำกับสิ่งนี้ มันยากที่จะบอกว่ามันเป็นความคิดที่บ้าหรือถ้ามันคุ้มค่ากับปัญหา แต่มันคือสิ่งที่ฉันสามารถทำได้ คุณมีความชอบหรือไม่?
gung - Reinstate Monica

@gung: คุณสามารถทำเช่นนั้นหรือฉันสามารถคัดลอกข้อมูลจากคำถามนั้นไปยังคำตอบได้ที่นี่ อาจจะเป็นสิ่งที่ดีที่สุด? (ฉันสามารถแก้ไขได้ว่ามันดูเหมือนจากประวัติการแก้ไข)
kjetil b halvorsen

1
@kjetilbhalvorsen ก่อนอื่นขออภัยที่ทำให้สับสนเพราะเป็นความคิดของฉันที่จะรวมเธรดเนื่องจากดูเหมือนว่าพวกเขาจะเกือบเหมือนกันและทั้งคู่มีคำตอบที่ดี ความประทับใจครั้งแรกของฉันคือการผสานเธรดจะไม่เป็นอันตราย บางทีคุณอาจเพิ่ม"ตัวอย่างเช่นเมื่อต้องรับมือกับข้อมูลการนับ ... "ในย่อหน้าที่สองของคุณ คำตอบของคุณตอบคำถามทั่วไปว่า "จะเลือกครอบครัวอย่างไร" คำถามดังนั้นบางทีมันควรจะทิ้งไว้ในเธรดทั่วไปหรือไม่
ทิม

1
@Tim ฉันจะแก้ไขตามที่คุณพูด!
kjetil b halvorsen

มาลองแก้ไขกัน หากคุณต้องการให้ฉันโพสต์คำถามอีกครั้งให้ลองอีกครั้ง ฉันจะยกเลิกการตั้งค่าสถานะตอนนี้
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.