ทำไมพวกเขาถึงเลือกการกระจายแกมม่าที่นี่?


14

ในตอนหนึ่งของการออกกำลังกายสำหรับหลักสูตรของเรากำลังใช้ชุดข้อมูลทางการแพทย์ Kaggle

แบบฝึกหัดบอกว่า:

เราต้องการสร้างแบบจำลองการกระจายตัวของค่าใช้จ่ายส่วนบุคคลและเรายังต้องการที่จะได้รับความไม่แน่นอนเกี่ยวกับการกระจายนั้นเพื่อให้เราสามารถจับช่วงค่าที่เราอาจเห็นได้ดีขึ้น กำลังโหลดข้อมูลและแสดงมุมมองเริ่มต้น:

พล็อต

เราอาจสงสัยจากข้างต้นว่ามีการแจกแจงแบบ exponential คล้ายกับที่นี่ ... อาจมีค่าใช้จ่ายในการเคลมประกันหลายรูปแบบ การแจกแจงแกมม่านั้นสามารถนำมาใช้ได้และเราสามารถทดสอบเรื่องนี้สำหรับการกระจายของค่าใช้จ่ายที่ไม่ได้เรียกร้องประกันก่อน

ผมเงยหน้าขึ้นมอง "แจกแจงแกมมา" และพบว่า "อย่างต่อเนื่องในเชิงบวกอย่างเดียวกระจายรูปแบบเดียวที่ encodes เวลาที่จำเป็นสำหรับ«อัลฟา»เหตุการณ์จะเกิดขึ้นในกระบวนการ Poisson กับเวลาที่เข้าพักเฉลี่ยของ«เบต้า»"

ไม่มีเวลาเกี่ยวข้องที่นี่เพียงแค่ค่าใช้จ่ายที่ไม่เกี่ยวข้องไม่ว่าจะเป็นการประกันหรือไม่ก็ตาม

ทำไมพวกเขาถึงเลือกการกระจายแกมม่า?

คำตอบ:


27

เมื่อคุณกำลังพิจารณาโมเดลพารามิเตอร์แบบง่ายสำหรับการแจกแจงแบบมีเงื่อนไข (เช่นการกระจายของแต่ละกลุ่มหรือการกระจายที่คาดไว้สำหรับการรวมกันของตัวแปรทำนาย) และคุณกำลังเผชิญกับการแจกแจงแบบต่อเนื่องที่เป็นบวกทั้งสองตัวเลือกทั่วไปคือแกมม่าและเข้าสู่ระบบปกติ นอกเหนือจากความพึงพอใจในสเปคของโดเมนของการแจกแจง (จำนวนจริงมากกว่าศูนย์) การแจกแจงเหล่านี้สะดวกและคำนวณได้บ่อยครั้ง

  • การแจกแจงล็อก - ปกตินั้นได้มาจากการแจกแจงการแจกแจงแบบปกติในทางกลับกัน (ตรงกันข้ามการเบี่ยงเบนการบันทึกล็อก - การเบี่ยงเบนการบันทึกปกติจะให้ค่าเบี่ยงเบนปกติ) จากมุมมองทางกลไกล็อก - ปกติเกิดขึ้นผ่านทางทฤษฎีขีด จำกัด กลางเมื่อการสังเกตแต่ละครั้งสะท้อนให้เห็นถึงผลิตภัณฑ์ที่มีตัวแปรสุ่มไอดีจำนวนมาก เมื่อคุณทำการแปลงข้อมูลคุณจะสามารถเข้าถึงเครื่องมือการคำนวณและการวิเคราะห์ที่หลากหลาย (เช่นอะไรก็ตามที่สมมติว่า Normality หรือใช้วิธีกำลังสองน้อยที่สุด)
  • nλสามารถใช้ได้; มันยังมีรูปแบบที่สะดวกเป็นพิเศษสำหรับการวิเคราะห์

มีเหตุผลอื่นที่อาจเลือกอย่างใดอย่างหนึ่ง - เช่น"ความหนักเบา" ของหางของการกระจายซึ่งอาจมีความสำคัญในการทำนายความถี่ของเหตุการณ์ที่รุนแรง มีการแจกแจงเชิงบวกและต่อเนื่องอื่น ๆ อีกมากมาย (เช่นดูรายการนี้ ) แต่มีแนวโน้มที่จะใช้ในแอปพลิเคชันพิเศษ

การแจกแจงเหล่านี้น้อยมากที่จะจับภาพหลายแบบที่คุณเห็นในการกระจายขอบด้านบน แต่หลายรูปแบบอาจอธิบายได้โดยข้อมูลที่ถูกจัดกลุ่มเป็นหมวดหมู่ที่อธิบายโดยตัวทำนายหมวดหมู่แบบสังเกตได้ หากไม่มีตัวทำนายที่สามารถสังเกตเห็นได้ซึ่งอธิบายถึงความหลากหลายของ multimodality เราอาจเลือกให้พอดีกับแบบจำลองที่มีขอบเขต จำกัดบนพื้นฐานของการกระจายอย่างต่อเนื่องเป็นบวก (เล็กแยก) จำนวน


1
เช่นกันที่น่าสังเกตว่าแกมมาและโมเดล lognormal ให้ผลลัพธ์ที่คล้ายกันเกือบทุกครั้ง
carlo

2
ฉันทำงานวิจัยด้านสุขภาพ ฉันสามารถยืนยันได้ว่าโดยทั่วไปการกระจายแกมม่าหรือ lognormal จะเป็นตัวเลือกที่เหมาะสมสำหรับรูปแบบการใช้จ่ายด้านการดูแลสุขภาพหรือจำนวนเงินที่เรียกร้อง การแจกแจงแกมมาสามารถนำไปใช้ในรูปแบบเหตุการณ์ได้ทันเวลา แต่ไม่สามารถใช้ได้ที่นี่
Weiwen Ng

ขอบคุณ !! สิ่งนี้มีประโยชน์มาก
Vicki B
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.