การถดถอยปัวซองเพื่อประเมินความเสี่ยงสัมพัทธ์สำหรับผลลัพธ์ไบนารี


42

สรุปโดยย่อ

เหตุใดจึงเป็นเรื่องธรรมดามากขึ้นที่จะใช้การถดถอยโลจิสติก (ด้วยอัตราต่อรอง) ในการศึกษาหมู่ที่มีผลลัพธ์เป็นเลขฐานสองเมื่อเทียบกับการถดถอยแบบปัวซอง (โดยมีความเสี่ยงสัมพัทธ์)

พื้นหลัง

ในระดับปริญญาตรีและระดับบัณฑิตศึกษาสถิติและหลักสูตรระบาดวิทยาในประสบการณ์ของฉันสอนโดยทั่วไปว่าการถดถอยโลจิสติกควรใช้สำหรับการสร้างแบบจำลองข้อมูลที่มีผลลัพธ์แบบไบนารีโดยมีการประเมินความเสี่ยงที่รายงานว่าเป็นอัตราต่อรอง

อย่างไรก็ตามการถดถอยของปัวซอง (และที่เกี่ยวข้อง: กึ่งปัวซอง, ทวินามลบ ฯลฯ ) ยังสามารถใช้ในการสร้างแบบจำลองข้อมูลด้วยผลลัพธ์ไบนารีและด้วยวิธีการที่เหมาะสม (เช่นตัวประมาณความแปรปรวนแซนวิชที่แข็งแกร่ง) ให้การประเมินความเสี่ยง เช่น,

จากการถดถอยของปัวซองความเสี่ยงสัมพัทธ์สามารถรายงานซึ่งบางคนแย้งง่ายต่อการตีความเมื่อเทียบกับอัตราส่วนอัตราต่อรองโดยเฉพาะอย่างยิ่งสำหรับผลลัพธ์บ่อยครั้งและโดยเฉพาะอย่างยิ่งบุคคลที่ไม่มีพื้นฐานที่แข็งแกร่งในสถิติ ดูจางเจและหยูหู่ KF ความเสี่ยงสัมพัทธ์คืออะไร? วิธีการแก้ไขอัตราต่อรองในการศึกษาหมู่ของผลลัพธ์ทั่วไป JAMA 1998 พ.ย. 18; 280 (19): 1690-1

จากการอ่านวรรณกรรมทางการแพทย์ในหมู่การศึกษาหมู่ที่มีผลลัพธ์เลขฐานสองดูเหมือนว่ามันยังเป็นเรื่องธรรมดามากที่จะรายงานอัตราส่วนอัตราต่อรองจากการถดถอยโลจิสติกมากกว่าความเสี่ยงสัมพัทธ์จากการถดถอยปัวซอง

คำถาม

สำหรับการศึกษาหมู่ที่มีผลลัพธ์ไบนารี:

  1. มีเหตุผลที่ดีที่จะรายงานอัตราต่อรองจากการถดถอยโลจิสติกมากกว่าความเสี่ยงสัมพัทธ์จากการถดถอยปัวซองหรือไม่?
  2. ถ้าไม่บ่อยครั้งการถดถอยของปัวซองที่มีความเสี่ยงสัมพัทธ์ในวรรณคดีการแพทย์ส่วนใหญ่เกิดจากความล่าช้าระหว่างทฤษฎีระเบียบวิธีและการปฏิบัติในหมู่นักวิทยาศาสตร์แพทย์สถิติและนักระบาดวิทยาหรือไม่?
  3. สถิติระดับกลางและหลักสูตรระบาดวิทยาควรรวมการอภิปรายเพิ่มเติมเกี่ยวกับการถดถอยแบบปัวซองสำหรับผลลัพธ์ไบนารีหรือไม่?
  4. ฉันควรสนับสนุนให้นักเรียนและเพื่อนร่วมงานพิจารณาปัวซงการถดถอยสำหรับการถดถอยโลจิสติกเมื่อเหมาะสมหรือไม่

หากคุณต้องการความเสี่ยงแบบสัมพัทธ์ทำไมคุณไม่เพียงใช้ลิงค์แบบทวินามกับลิงค์ (แทนที่จะเป็น logistic)? ความสัมพันธ์ความแปรปรวนเฉลี่ยของตระกูลปัวซองนั้นไม่สมเหตุสมผลถ้าคุณได้กำหนดจำนวนเหตุการณ์ที่เป็นไปได้ต่อการสังเกต
Andrew M

@AndrewM คุณจะใช้การถดถอยแบบทวินามกับลิงค์บันทึกได้อย่างไร ค่าบวกของ regressor จะบอกถึงความน่าจะเป็นค่าที่มากกว่า 1
Rufo

[0,1]

@AndrewM ใช่ฉันพูดถึงการทำนายเชิงเส้นขอบคุณ :) แต่แม้ว่าคุณจะนำโมเดลไปใช้ แต่ฉันก็ไม่แน่ใจว่ามันเพียงพอแล้ว ตามที่ฉันระบุไว้ในความคิดเห็นในคำตอบแรกถ้าคุณสลับ 0s เป็น 1 วินาทีและในทางกลับกันสำหรับตัวแปรตอบกลับเนื่องจากลิงก์บันทึกไม่ได้มีความสมมาตรประมาณ 0.5 การประมาณการความเสี่ยงสัมพัทธ์จะแตกต่างกัน ( exp(beta_M1) =/= 1/exp(beta_M2)) มันรบกวนฉันนิดหน่อย
Rufo

1
P(Y|X)/P(Y|X)P(Y|X)/P(Y|X)P(Y|X)/P(Y|X)

คำตอบ:


28

คำตอบสำหรับคำถามทั้งสี่ของคุณนำหน้าด้วยหมายเหตุ:

ไม่ใช่ทุกอย่างที่ใช้กันทั่วไปสำหรับการศึกษาระบาดวิทยาสมัยใหม่เพื่อรายงานอัตราต่อรองจากการถดถอยโลจิสติกสำหรับการศึกษาตามรุ่น มันยังคงเป็นเทคนิคการถดถอยของทางเลือกสำหรับกรณีศึกษาการควบคุม แต่เทคนิคที่ซับซ้อนกว่าตอนนี้กลายเป็นมาตรฐานสำหรับการวิเคราะห์ในวารสารระบาดวิทยาที่สำคัญเช่นระบาดวิทยา , AJEหรือIJE. จะมีแนวโน้มที่มากขึ้นสำหรับพวกเขาที่จะปรากฏในวารสารทางคลินิกที่รายงานผลการศึกษาเชิงสังเกตการณ์ นอกจากนี้ยังมีปัญหาบางอย่างด้วยเนื่องจากการถดถอยของปัวซองสามารถใช้ในสองบริบท: สิ่งที่คุณอ้างถึงซึ่งเป็นสิ่งที่ใช้แทนรูปแบบการถดถอยแบบทวินามและในบริบทของเหตุการณ์ซึ่งเป็นเรื่องธรรมดามากสำหรับหมู่คน การศึกษา รายละเอียดเพิ่มเติมในคำตอบของคำถามเฉพาะ:

  1. สำหรับการศึกษาหมู่คนไม่ได้จริงๆ มีบางกรณีที่เฉพาะเจาะจงอย่างยิ่งเมื่อพูดว่าอาจใช้โมเดลลอจิสติกแบบชิ้นเดียว แต่เป็นค่าผิดปกติ ประเด็นทั้งหมดของการศึกษาแบบหมู่คณะคือคุณสามารถวัดความเสี่ยงสัมพัทธ์หรือมาตรการที่เกี่ยวข้องได้โดยตรงและไม่จำเป็นต้องพึ่งพาอัตราต่อรอง อย่างไรก็ตามฉันจะทำบันทึกสองรายการ: การถดถอยของปัวซองกำลังประเมินอัตราบ่อยครั้งไม่ใช่ความเสี่ยงและดังนั้นการประเมินผลกระทบจากมันมักจะถูกบันทึกไว้เป็นอัตราส่วนอัตรา (ส่วนใหญ่ในใจของฉันดังนั้นคุณยังสามารถย่อมัน RR) หรืออัตราส่วนความหนาแน่นของเหตุการณ์ (IRR หรือ IDR) เพื่อให้แน่ใจว่าในการค้นหาของคุณคุณกำลังมองหาคำที่เหมาะสมจริง ๆ : มีการศึกษาจำนวนมากโดยใช้วิธีการวิเคราะห์การอยู่รอด สำหรับการศึกษาเหล่านี้การถดถอยของปัวซองทำให้สมมติฐานบางอย่างมีปัญหาโดยเฉพาะอย่างยิ่งว่าอันตรายนั้นคงที่ ดังนั้นจึงเป็นเรื่องธรรมดามากที่จะวิเคราะห์การศึกษาตามรุ่นโดยใช้โมเดลอันตรายตามสัดส่วนของ Cox แทนที่จะเป็นแบบปัวส์ซองและรายงานอัตราส่วนอันตรายต่อมา (HR) หากกดปุ่มเพื่อตั้งชื่อวิธี "เริ่มต้น" ที่ใช้ในการวิเคราะห์กลุ่มฉันจะบอกว่าระบาดวิทยานั้นโดดเด่นด้วยแบบจำลองของ Cox นี่เป็นปัญหาของตัวเองและนักระบาดวิทยาที่ดีบางคนต้องการเปลี่ยน

  2. มีสองสิ่งที่ฉันอาจบอกว่าไม่บ่อยนัก - ความถี่ที่ฉันไม่คิดว่ามีอยู่ตามที่คุณแนะนำ หนึ่งคือใช่ - "ระบาดวิทยา" ในสาขาที่ไม่ได้ปิดอย่างแน่นอนและคุณได้รับเอกสารจำนวนมากจากแพทย์นักวิทยาศาสตร์สังคม ฯลฯ รวมถึงนักระบาดวิทยาที่มีภูมิหลังทางสถิติที่แตกต่างกัน รูปแบบโลจิสติกส์ได้รับการสอนกันโดยทั่วไปและจากประสบการณ์ของฉันนักวิจัยหลายคนจะหันไปใช้เครื่องมือที่คุ้นเคยมากกว่าเครื่องมือที่ดีกว่า

    ข้อที่สองคือคำถามที่คุณหมายถึงโดยการศึกษาแบบ "กลุ่มคน" บางอย่างเช่นโมเดล Cox หรือโมเดลปัวซงนั้นต้องการค่าประมาณเวลาของบุคคล เป็นไปได้ที่จะได้รับการศึกษาตามรุ่นที่ติดตามประชากรค่อนข้างปิดในช่วงเวลาหนึ่งโดยเฉพาะในตัวอย่าง "Intro to Epi" ในช่วงต้นซึ่งวิธีการเอาชีวิตรอดอย่าง Poisson หรือ Cox model ไม่เป็นประโยชน์ รูปแบบโลจิสติกสามารถถูกนำมาใช้เพื่อประเมินอัตราส่วนอัตราต่อรองที่มีความชุกของโรคต่ำเพียงพอประมาณความเสี่ยง เทคนิคการถดถอยอื่น ๆ ที่ประมาณค่าโดยตรงเช่นการถดถอยแบบทวินามมีปัญหาการลู่เข้าที่สามารถทำให้นักเรียนใหม่ตกรางได้ง่าย โปรดจำไว้ว่าเอกสาร Zou ที่คุณอ้างถึงนั้นใช้เทคนิคการถดถอยแบบปัวซงเพื่อแก้ไขปัญหาการลู่เข้าแบบทวินามของการถดถอยแบบทวินาม แต่การศึกษาแบบหมู่หมู่ที่เหมาะสมแบบสองชั้นนั้นเป็นส่วนเล็ก ๆ ของ "การศึกษาแบบหมู่หมู่"

  3. ใช่. วิธีการวิเคราะห์ความอยู่รอดควรเกิดขึ้นเร็วกว่าวิธีที่มักทำ ทฤษฎีสัตว์เลี้ยงของฉันคือว่าเหตุผลที่ไม่เป็นเช่นนั้นก็คือว่าวิธีการเช่นการถดถอยโลจิสติกจะง่ายต่อการรหัส เทคนิคที่ง่ายต่อการเขียนโค้ด แต่มาพร้อมกับคำเตือนที่มีขนาดใหญ่กว่าเกี่ยวกับความถูกต้องของการประมาณผลกระทบของพวกมันได้รับการสอนว่าเป็นมาตรฐาน "พื้นฐาน" ซึ่งเป็นปัญหา

  4. คุณควรสนับสนุนให้นักเรียนและเพื่อนร่วมงานใช้เครื่องมือที่เหมาะสม โดยทั่วไปแล้วสำหรับภาคสนามฉันคิดว่าคุณน่าจะดีกว่าที่จะแนะนำการพิจารณาโมเดล Cox เกี่ยวกับการถดถอยของปัวซองเนื่องจากผู้ตรวจสอบส่วนใหญ่จะ (และควร) แสดงความกังวลเกี่ยวกับการสันนิษฐานของอันตรายอย่างรวดเร็ว แต่ใช่คุณสามารถทำให้พวกเขาออกห่างจาก "ฉันจะใส่คำถามของฉันลงในแบบจำลองการถดถอยโลจิสติกได้อย่างไร" ดีกว่าที่เราทุกคนจะเป็น แต่ใช่ถ้าคุณกำลังศึกษาอยู่โดยไม่มีเวลาคุณควรแนะนำให้นักเรียนรู้จักการถดถอยแบบทวินามและวิธีการทางเลือกเช่นการถดถอยแบบปัวซองซึ่งสามารถนำมาใช้ในกรณีที่เกิดปัญหาคอนเวอร์เจนซ์


เมื่อคุณพูดถึงเทคนิคการถดถอยอื่น ๆ ที่ประเมินโดยตรง [ความเสี่ยงสัมพัทธ์ฉันถือว่า] เช่นการถดถอยแบบทวินามมีปัญหาการลู่เข้า [... ]คุณจะใช้การถดถอยแบบทวินามอย่างไรเพื่อให้คุณมีความเสี่ยงสัมพัทธ์? @AndrewM แนะนำลิงค์บันทึก แต่ฉันไม่สามารถดูได้ว่าคุณจะหลีกเลี่ยงปัญหาการประเมินความน่าจะเป็นของความสำเร็จสูงกว่า 1 ได้อย่างไร
Rufo

@Rufo รูปแบบทวินามที่มีลิงค์เชื่อมโยงเมื่อเรียกใช้บนหมู่ระยะทางจะประเมินความเสี่ยงสัมพัทธ์ แบบจำลองเหล่านี้บางครั้งประมาณความน่าจะเป็นที่มากกว่า 1 เป็นหนึ่งในเหตุผลที่แบบจำลองทวินามใช้ยากกว่าที่คิด แต่ฉันประสบความสำเร็จในการใช้มัน - มันมีประโยชน์ที่ข้อมูลของคุณมักจะมีความน่าจะเป็นต่ำกว่า 1 ดังนั้นโมเดลอาจไม่จบลงด้วยปัญหาที่คุณกังวล
Fomite

พี

9

ฉันก็คาดเดาถึงความชุกของแบบจำลองลอจิสติกในวรรณคดีเมื่อแบบจำลองความเสี่ยงสัมพัทธ์จะเหมาะสมกว่า เราในฐานะนักสถิติทุกคนต่างคุ้นเคยกับการยึดมั่นในการประชุมหรือการยึดติดกับการวิเคราะห์ "เมนูแบบเลื่อนลง" สิ่งเหล่านี้สร้างปัญหามากกว่าที่จะแก้ การถดถอยโลจิสติกส์ได้รับการสอนในฐานะ "มาตรฐานปิดเครื่องมือชั้นวาง" สำหรับการวิเคราะห์ผลลัพธ์แบบไบนารีซึ่งบุคคลมีผลลัพธ์แบบใช่ / ไม่ใช่เช่นความตายหรือความพิการ

Poisson ถดถอยสอนบ่อยเป็นวิธีการในการวิเคราะห์การนับ ภายใต้การเน้นย้ำว่าโมเดลความน่าจะเป็นดังกล่าวทำงานได้ดีเป็นพิเศษสำหรับการสร้างแบบจำลองผลลัพธ์ 0/1 โดยเฉพาะอย่างยิ่งเมื่อเป็นของหายาก อย่างไรก็ตามแบบจำลองลอจิสติกยังนำไปใช้กับผลลัพธ์ที่หายากด้วยเช่นกันอัตราส่วนอัตราต่อรองนั้นอยู่ที่อัตราส่วนความเสี่ยงโดยประมาณ สิ่งเดียวกันไม่สามารถพูดถึงความเสี่ยงหรือโมเดลปัวซองได้

แบบจำลองปัวซองนั้นมีประโยชน์เช่นกันเมื่อบุคคลอาจมี "ผลลัพธ์" มากกว่าหนึ่งครั้งและคุณอาจสนใจที่จะเกิดอุบัติการณ์เช่นการระบาดของโรคเริมการรักษาในโรงพยาบาลหรือมะเร็งเต้านม ด้วยเหตุผลนี้สัมประสิทธิ์ exponentiated สามารถตีความได้ว่าเป็นอัตราที่สัมพันธ์กัน หากต้องการทราบความแตกต่างระหว่างอัตราและความเสี่ยง: หากมี 100 รายต่อ 1,000 คนต่อปี แต่ทั้งหมด 100 รายเกิดขึ้นในบุคคลเดียวอุบัติการณ์ (อัตรา) ยังคงเป็น 1 กรณีต่อ 10 คนต่อปี ในการจัดส่งการดูแลสุขภาพคุณยังคงต้องรักษา 100 รายและการฉีดวัคซีน 80% ของคนมีการลดอัตราการเกิด 80% (เบื้องต้น) อย่างไรก็ตามความเสี่ยงอย่างน้อยหนึ่งผลลัพธ์คือ 1/1000 ลักษณะของผลลัพธ์และคำถามพร้อม ๆ กันกำหนดว่ารูปแบบใดที่เหมาะสม

var(Y)=E(Y)(1-E(Y))

เข้าสู่ระบบ(E[Y|X])=β0+β1Xvar(Y)=E[Y](1-E[Y])

โดยวิธีการที่บทความจางให้ประมาณการอนุมานลำเอียงบนพื้นฐานของการประเมินความเสี่ยงสัมพัทธ์ซึ่งไม่ได้บัญชีสำหรับความแปรปรวนในระยะดัก คุณสามารถแก้ไขตัวประมาณได้โดยการบูตสแตรป

ในการตอบคำถามเฉพาะ:

  1. หากผลลัพธ์นั้นหายากพวกมันจะอยู่ในระดับเดียวกัน หากผลลัพธ์เป็นเรื่องธรรมดาความแปรปรวนของตัวประมาณอัตราสัมพัทธ์จากปัวซองอาจสูงเกินจริงและเราอาจต้องการอัตราต่อรองเป็นอัตราการประเมินความสัมพันธ์แบบอคติ แต่มีประสิทธิภาพ ฉันยังคิดว่าการศึกษาแบบควบคุมกรณีให้เหตุผลการใช้อัตราส่วนอัตราต่อรองเป็นตัวชี้วัดที่ไม่แตกต่างกันไปกับการสุ่มตัวอย่างตามผลลัพธ์ Scott และ Wild 97 อภิปรายวิธีการต่าง ๆ แน่นอนวารสารอื่น ๆ อาจไม่มีผู้ตรวจทานทางสถิติโดยเฉพาะ

2.3 ฉันคิดว่าคุณกำลังตำหนิและคิดมากเกี่ยวกับสิ่งที่เกิดขึ้นในการทบทวนทางการแพทย์และนักวิชาการ

  1. คุณควรกระตุ้นให้นักเรียนใช้โมเดลที่เหมาะสมทุกครั้งที่ทำได้

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat


2
"ความเข้าใจของฉันคือถ้าดอกเบี้ยทางวิทยาศาสตร์อยู่ในการประมาณอัตราสัมพัทธ์มีโมเดลไฮบริด: การถดถอยความเสี่ยงแบบสัมพัทธ์ซึ่งเป็น GLM โดยใช้โครงสร้างความแปรปรวนของโลจิสติกและโครงสร้างค่าเฉลี่ยปัวซอง": รู้จักกันในชื่อ
Andrew M

2
@AndrewM แน่นอน อันที่จริงฉันคิดว่านั่นเป็นภาษาที่ต้องการ ขอบคุณสำหรับการชี้ให้เห็นว่า ฉันได้แก้ไขคำถามเพื่อรวมการอ้างอิงไปยังกระดาษทำงานจาก Thomas Lumley ซึ่งเน้นว่ารูปแบบปัวซองเป็น "รูปแบบการทำงาน" ซึ่งเป็นความสัมพันธ์แปรปรวนเฉลี่ยที่ไม่ถูกต้อง
AdamO

สิ่งที่คุณหมายถึงโดย "หากผลเป็นที่หายากที่พวกเขาจะประมาณเดียวกัน"? เปอร์เซ็นต์สูงสุดของผลลัพธ์ "หายาก" เพื่อใช้หรือแทน RR สำหรับการประเมินความชุกคืออะไร
vasili111

1
@ vasili111 นี่เป็นหัวข้อที่ถกเถียงกันอย่างถึงพริกถึงขิงโดยไม่มีคำตอบที่ชัดเจน ทุกวันนี้คุณเห็นการวิพากษ์วิจารณ์ผู้คนจำนวนมากทำให้สมมติฐาน "หายาก" เมื่อเหตุการณ์ไม่ได้เกิดขึ้นได้ยากเช่นมากกว่า 1/30 และด้วยโมเดลหลายตัวแปรไม่มีอะไรที่จะเป็นไปได้!
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.