ในตอนหนึ่งของการออกกำลังกายสำหรับหลักสูตรของเรากำลังใช้ชุดข้อมูลทางการแพทย์ Kaggle
แบบฝึกหัดบอกว่า:
เราต้องการสร้างแบบจำลองการกระจายตัวของค่าใช้จ่ายส่วนบุคคลและเรายังต้องการที่จะได้รับความไม่แน่นอนเกี่ยวกับการกระจายนั้นเพื่อให้เราสามารถจับช่วงค่าที่เราอาจเห็นได้ดีขึ้น กำลังโหลดข้อมูลและแสดงมุมมองเริ่มต้น:
เราอาจสงสัยจากข้างต้นว่ามีการแจกแจงแบบ exponential คล้ายกับที่นี่ ... อาจมีค่าใช้จ่ายในการเคลมประกันหลายรูปแบบ การแจกแจงแกมม่านั้นสามารถนำมาใช้ได้และเราสามารถทดสอบเรื่องนี้สำหรับการกระจายของค่าใช้จ่ายที่ไม่ได้เรียกร้องประกันก่อน
ผมเงยหน้าขึ้นมอง "แจกแจงแกมมา" และพบว่า "อย่างต่อเนื่องในเชิงบวกอย่างเดียวกระจายรูปแบบเดียวที่ encodes เวลาที่จำเป็นสำหรับ«อัลฟา»เหตุการณ์จะเกิดขึ้นในกระบวนการ Poisson กับเวลาที่เข้าพักเฉลี่ยของ«เบต้า»"
ไม่มีเวลาเกี่ยวข้องที่นี่เพียงแค่ค่าใช้จ่ายที่ไม่เกี่ยวข้องไม่ว่าจะเป็นการประกันหรือไม่ก็ตาม
ทำไมพวกเขาถึงเลือกการกระจายแกมม่า?