การถดถอยปัวซองด้วยข้อมูลขนาดใหญ่: การเปลี่ยนหน่วยการวัดเป็นความผิดหรือไม่?


17

เนื่องจากแฟกทอเรียลในการแจกแจงปัวส์ซองมันไม่น่าเป็นไปได้ที่จะประเมินโมเดลปัวซอง (ตัวอย่างเช่นการใช้โอกาสสูงสุด) เมื่อการสังเกตมีขนาดใหญ่ ตัวอย่างเช่นถ้าฉันพยายามประเมินแบบจำลองเพื่ออธิบายจำนวนการฆ่าตัวตายในปีที่กำหนด (มีข้อมูลรายปีเท่านั้น) และพูดว่ามีการฆ่าตัวตายหลายพันคนทุกปีมันผิดหรือไม่ที่จะแสดงการฆ่าตัวตายเป็นร้อย ๆ ดังนั้น 2998 จะเป็น 29.98 ~ = 30? กล่าวอีกนัยหนึ่งการเปลี่ยนหน่วยการวัดเพื่อให้สามารถจัดการข้อมูลได้เป็นความผิดหรือไม่?

คำตอบ:


15

เมื่อคุณจัดการกับการแจกแจงปัวซงด้วยค่าขนาดใหญ่ \ lambda (พารามิเตอร์ของมัน) มันเป็นเรื่องธรรมดาที่จะใช้การประมาณปกติเพื่อการแจกแจงปัวซอง

เมื่อไซต์นี้กล่าวถึงคุณสามารถใช้การประมาณปกติเมื่อ \ lambda ได้รับมากกว่า 20 และการปรับปรุงจะดีขึ้นเมื่อ \ lambda สูงขึ้น

การแจกแจงปัวซองนั้นถูกกำหนดไว้เฉพาะในพื้นที่ของรัฐซึ่งประกอบด้วยจำนวนเต็มไม่เป็นลบดังนั้นการลดทอนและปัดเศษจะนำสิ่งแปลกประหลาดเข้าสู่ข้อมูลของคุณ

ใช้ประมาณปกติ สำหรับสถิติปัวซองขนาดใหญ่เป็นเรื่องธรรมดามาก


6

ในกรณีของปัวซองมันไม่ดีเนื่องจากนับเป็นจำนวน - หน่วยของพวกเขาคือความสามัคคี ในทางกลับกันหากคุณใช้ซอฟต์แวร์ขั้นสูงบางอย่างเช่น R ฟังก์ชันการจัดการ Poisson ของมันจะรับรู้จำนวนมากเช่นนั้นและจะใช้เทคนิคตัวเลขเพื่อจัดการกับมัน

เห็นได้ชัดว่าฉันยอมรับว่าการประมาณค่าปกติเป็นอีกวิธีที่ดี


3

แพคเกจสถิติส่วนใหญ่มีฟังก์ชันในการคำนวณลอการิทึมธรรมชาติของแฟคทอเรียลโดยตรง (เช่นฟังก์ชัน lfactorial () ใน R, ฟังก์ชัน lnfactorial () ใน Stata) สิ่งนี้อนุญาตให้คุณรวมคำที่คงที่ในความเป็นไปได้ในการบันทึกหากคุณต้องการ


นอกจากนี้n!= Gamma(n+1)สำหรับ n> = 0 ดังนั้นลองมองหาฟังก์ชั่นที่เรียกว่าGammaหากคุณต้องการคำนวณแฟกทอเรียล (หรือ log Gamma หากคุณคำนวณโอกาสในการบันทึก)
Andre Holzner

3

ฉันเกรงว่าคุณจะทำอย่างนั้นไม่ได้ ในฐานะ @Baltimark สหรัฐฯด้วยแลมบ์ดาขนาดใหญ่การกระจายจะมีรูปร่างปกติมากขึ้น (สมมาตร) และการลดขนาดลงมันจะไม่เป็นการรบกวนแบบปัวซองอีกต่อไป ลองใช้รหัสต่อไปนี้ใน R:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

ผลลัพธ์อยู่ด้านล่าง:

ป้อนคำอธิบายรูปภาพที่นี่

คุณจะเห็นว่าปัวซองที่ลดระดับลง (เส้นสีแดง) นั้นแตกต่างจากการกระจายตัวปัวซองอย่างสิ้นเชิง


1

คุณสามารถละเว้น 'แฟคทอเรียล' เมื่อใช้ความน่าจะเป็นสูงสุด นี่คือเหตุผลสำหรับตัวอย่างการฆ่าตัวตายของคุณ ปล่อย:

λ: เป็นจำนวนที่คาดว่าจะฆ่าตัวตายต่อปี

k i : เป็นจำนวนการฆ่าตัวตายในปีที่ฉัน

จากนั้นคุณจะเพิ่มความน่าจะเป็นบันทึก:

LL = ∑ (k ฉันบันทึก (λ) - λ - k i !)

การเพิ่มดังกล่าวข้างต้นนั้นเทียบเท่ากับการเพิ่มดังต่อไปนี้เป็น k i ! เป็นค่าคงที่:

LL ' = ∑ (k iบันทึก (λ) - λ)

สามารถอธิบายได้ว่าทำไมแฟคทอเรียลจึงมีปัญหา ฉันพลาดอะไรไปรึเปล่า?


คุณจะไม่ขาดอะไรเลยหากสิ่งที่คุณพยายามทำคือประมาณค่าพารามิเตอร์จากชุดการสังเกต นั่นเป็นแนวคิดหลักของคำถามของ OP แน่นอน อย่างไรก็ตามเธอก็ถามโดยทั่วไปด้วย (ถ้าไม่จริงจัง) "วิธีการประมาณแบบปัวซอง" บางทีเธออยากรู้คุณค่าของ pdf ในบางจุด ในกรณีนั้นค่าประมาณปกติ อาจจะดีกว่าการปรับพารามิเตอร์และการสังเกตด้วย 100 หรืออะไรก็ตามถ้าการสังเกตมีขนาดใหญ่พอที่จะคำนวณแฟคทอเรียลแบบไม่จริง
Baltimark

1
@Srikant คุณมีสิทธิ์ประเมินพารามิเตอร์ที่แฟคทอเรียลไม่ใช่ปัญหา แต่โดยทั่วไปคุณจะต้องการค่าของโอกาสในการใช้โมเดลที่กำหนดและคุณจะต้องใช้แฟกทอเรียลสำหรับสิ่งนั้น นอกจากนี้สำหรับการทดสอบสมมติฐาน (เช่นการทดสอบอัตราส่วนความน่าจะเป็น) คุณจะต้องใช้ค่าของความน่าจะเป็น
Vivi

@Baltimark: ใช่ฉันต้องการทราบโดยทั่วไปไม่ว่าจะเป็นการเปลี่ยนหน่วยการวัดของปัวซอง ฉันถูกถามคำถามนี้และฉันไม่รู้ว่าจะพูดอะไรดี
Vivi

@Vivi: ฉันไม่แน่ใจว่าทำไมคุณต้องการคำนวณความน่าจะเป็นที่มี k_i! รวมอยู่ในการใช้งานส่วนใหญ่ (เช่นการทดสอบอัตราส่วนความน่าจะเป็นการประมาณค่าแบบเบย์) ค่าคงที่จะไม่สำคัญ ไม่ว่าในกรณีใดฉันไม่คิดว่าคุณจะสามารถปรับขนาดได้ตามที่คุณแนะนำ ถ้าฉันรู้สึกอย่างอื่นฉันจะอัปเดตคำตอบของฉัน

@Srikant ฉันเห็นจุดของคุณ แต่ซอฟต์แวร์บางอย่าง (ตัวอย่างเช่น) รวมถึงสิ่งนี้โดยค่าเริ่มต้นและจำนวนมากเป็นปัญหาที่คุณชอบหรือไม่ ผมคิดว่าผมเป็นจริงหลังจากที่คำอธิบายว่าทำไมคุณสามารถหรือไม่สามารถทำมันได้มากกว่าทางรอบ แต่การอภิปรายได้รับที่น่าสนใจและให้คำแนะนำกระนั้น :)
Vivi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.