GLM ที่มีข้อมูลต่อเนื่องซ้อนกันเป็นศูนย์


11

ฉันพยายามใช้แบบจำลองเพื่อประเมินว่าโรคภัยพิบัติเช่นวัณโรคเอดส์ ฯลฯ ส่งผลกระทบต่อการใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาล ฉันมี "ต้นทุนต่อการเข้ารักษาตัวในโรงพยาบาล" เป็นตัวแปรตามและเครื่องหมายของแต่ละบุคคลเป็นตัวแปรอิสระซึ่งเกือบทั้งหมดเป็นตัวอย่างเช่นเพศหัวหน้าครัวเรือนสถานะสถานะความยากจนและแน่นอนเป็นตัวแทนว่าคุณมีความเจ็บป่วยหรือไม่ และอายุกำลังสอง) และกลุ่มคำศัพท์โต้ตอบ

ตามที่คาดไว้มีจำนวนมาก - และฉันหมายถึงข้อมูลจำนวนมากซ้อนกันที่ศูนย์ (กล่าวคือไม่มีค่าใช้จ่ายในการเข้ารักษาตัวในโรงพยาบาลในระยะเวลาอ้างอิง 12 เดือน) อะไรจะเป็นวิธีที่ดีที่สุดในการจัดการกับข้อมูลเช่นนี้

ณ ตอนนี้ฉันตัดสินใจที่จะแปลงค่าใช้จ่ายln(1+cost)เพื่อรวมการสังเกตทั้งหมดแล้วเรียกใช้โมเดลเชิงเส้น ฉันกำลังติดตามใช่ไหม?


1
คำตอบของคุณมีค่าจริงหรือไม่ คำที่คุณกำลังมองหาเป็นศูนย์เงินเฟ้อ
gung - Reinstate Monica

2
หนึ่งสามารถมีการแจกแจงแบบต่อเนื่องที่สูงเกินจริงได้เช่นกัน มีรูปแบบแกมมาที่พองศูนย์ไม่ได้เช่นกัน
Glen_b -Reinstate Monica

1
@Glen_b นั่นคือสิ่งที่ฉันมีอยู่ในใจ แต่ฉันไม่เคยทำเลย คำแนะนำของ Frank Harrell เกี่ยวกับ OLR เป็นวิธีที่ชาญฉลาดในการแก้ไขปัญหาเช่นกัน
gung - Reinstate Monica

คำตอบ:


8

ตามที่กล่าวไว้ที่อื่นบนไซต์การถดถอยตามลำดับ (เช่นอัตราต่อรองสัดส่วนอันตรายสัดส่วน) เป็นวิธีที่ยืดหยุ่นและแข็งแกร่ง ความไม่ต่อเนื่องได้รับอนุญาตในการกระจายตัวของรวมถึงการจับกันเป็นก้อนมาก ไม่มีอะไรที่จะสันนิษฐานเกี่ยวกับการกระจายของสำหรับเดียวXแบบจำลองที่พองเกินศูนย์ทำให้สมมติฐานมากขึ้นกว่าตัวแบบกึ่งพารามิเตอร์ สำหรับกรณีศึกษาเต็มรูปแบบแน่นอนดูเอกสารประกอบคำบรรยายของฉันบทที่ 15 ที่http://biostat.mc.vanderbilt.edu/CourseBios330YYX

ข้อดีอย่างหนึ่งของแบบจำลองลำดับสำหรับต่อเนื่องคือคุณไม่จำเป็นต้องรู้วิธีแปลงก่อนการวิเคราะห์YY


8

การรวมตัวที่ 0 เรียกว่า "ศูนย์เงินเฟ้อ" ในกรณีที่พบมากที่สุดคือแบบจำลองจำนวนซึ่งนำไปสู่ปัวซองที่มีค่าเป็นศูนย์สูงเกินและการถดถอยแบบทวินามลบค่าศูนย์ที่สูงเกินจริง อย่างไรก็ตามมีวิธีการสร้างแบบจำลองอัตราเงินเฟ้อเป็นศูนย์ด้วยค่าบวกที่แท้จริง (เช่นตัวแบบแกมม่าที่ไม่พอง)

ดูขั้นต่ำและ Agresti, 2002, การสร้างแบบจำลองข้อมูลที่ไม่ใช่เชิงลบด้วยการจับกลุ่มที่ศูนย์สำหรับการทบทวนวิธีการเหล่านี้


1

ข้อเสนอแนะของการใช้แบบจำลองปัวซองที่ไม่มีการพองตัวเป็นจุดเริ่มต้นที่น่าสนใจ มันมีประโยชน์บางอย่างในการร่วมกันสร้างแบบจำลองความน่าจะเป็นของการมีค่าใช้จ่ายที่เกี่ยวข้องกับความเจ็บป่วยรวมทั้งกระบวนการของค่าใช้จ่ายเหล่านั้นที่ควรจะเป็นหากคุณมีความเจ็บป่วย มันมีข้อ จำกัด ว่ามันจะกำหนดโครงสร้างที่เข้มงวดบางอย่างเกี่ยวกับสิ่งที่รูปร่างของผลลัพธ์คือเงื่อนไขเมื่อมีค่าใช้จ่ายใด ๆ เกิดขึ้น (เช่นความสัมพันธ์ความแปรปรวนเฉลี่ยที่เฉพาะเจาะจงและผลบวกจำนวนเต็มบวก ... หลังซึ่งสามารถผ่อนคลายสำหรับบางคน วัตถุประสงค์ในการสร้างแบบจำลอง)

หากคุณโอเคกับการรักษาเข้ารับการรักษาที่เกี่ยวข้องกับการเจ็บป่วยและค่าใช้จ่ายในการเจ็บป่วยที่เกี่ยวข้องกับเงื่อนไขการรับเข้ากระบวนการอิสระคุณสามารถขยายนี้เป็นครั้งแรกโดยการสร้างแบบจำลองกระบวนการไบนารีของ Y / n คุณไม่ค่าใช้จ่ายใด ๆ ที่เกี่ยวข้องกับการเจ็บป่วย? นี่คือรูปแบบการถดถอยโลจิสติกอย่างง่ายและช่วยให้คุณสามารถประเมินปัจจัยเสี่ยงและความชุก ระบุว่าคุณสามารถ จำกัด การวิเคราะห์ส่วนย่อยของบุคคลที่มีค่าใช้จ่ายใด ๆ และสร้างแบบจำลองกระบวนการต้นทุนจริงโดยใช้โฮสต์ของการสร้างแบบจำลองเทคนิค ปัวซองเป็นสิ่งที่ดีเสมือนปัวซองจะดีกว่า (การบัญชีสำหรับแหล่งกำเนิดความแปรปรวนร่วมขนาดเล็กในข้อมูลและออกจากสมมติฐานของโมเดล) แต่ท้องฟ้ามีขีด จำกัด ด้วยการสร้างแบบจำลองกระบวนการต้นทุนอย่างต่อเนื่อง

หากคุณต้องการจำลองความสัมพันธ์ของพารามิเตอร์ในกระบวนการคุณสามารถใช้การประมาณ bootstrap SE ฉันไม่เห็นเหตุผลว่าทำไมสิ่งนี้ถึงไม่ถูกต้อง แต่จะอยากรู้อยากเห็นได้ยินข้อมูลของผู้อื่นหากนี่อาจผิด โดยทั่วไปฉันคิดว่าเป็นคำถามสองข้อที่แยกกันและควรได้รับการปฏิบัติเช่นนี้เพื่อให้มีการอนุมานที่ถูกต้อง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.