วิธีต่างๆในการสร้างช่วงความมั่นใจสำหรับอัตราต่อรองจากการถดถอยโลจิสติก


12

ฉันกำลังศึกษาวิธีสร้างช่วงความมั่นใจ 95% สำหรับอัตราส่วนอัตราต่อรองจากค่าสัมประสิทธิ์ที่ได้จากการถดถอยโลจิสติก ดังนั้นเมื่อพิจารณาถึงรูปแบบการถดถอยโลจิสติก

log(p1p)=α+βx

เช่นนั้นx=0สำหรับกลุ่มควบคุมและx=1สำหรับกลุ่มเคส

ฉันได้อ่านแล้วว่าวิธีที่ง่ายที่สุดคือการสร้าง 95% CI สำหรับβจากนั้นเราก็ใช้ฟังก์ชั่นเลขชี้กำลังนั่นคือ

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

คำถามของฉันคือ:

  1. อะไรคือเหตุผลทางทฤษฎีที่แสดงให้เห็นถึงขั้นตอนนี้? ฉันรู้ว่าodds ratio=exp{β}และตัวประมาณความน่าจะเป็นสูงสุดไม่เปลี่ยนแปลง อย่างไรก็ตามฉันไม่รู้จักการเชื่อมต่อระหว่างองค์ประกอบเหล่านี้

  2. วิธีการเดลต้าควรสร้างช่วงความมั่นใจ 95% เช่นเดียวกับขั้นตอนก่อนหน้านี้หรือไม่ ใช้วิธีการเดลต้า

    exp{β^}˙N(β, exp{β}2Var(β^))

    จากนั้น

    exp{β^}±1.96×exp{β}2Var(β^)

    ถ้าไม่ใช่วิธีไหนดีที่สุด?


1
ฉันชอบ bootstrap สำหรับ CI เช่นกันถ้าฉันมีค่าพารามิเตอร์หรือข้อมูลการฝึกอบรมที่มีขนาดเพียงพอ
EngrStudent

2
มีวิธีที่ดีกว่าในการทำเช่นนี้ดูstats.stackexchange.com/questions/5304/…สำหรับรายละเอียด
mdewey

คำตอบ:


7
  1. เหตุผลสำหรับขั้นตอนนี้คือมาตรฐานเชิงเส้นกำกับของ MLE สำหรับและเป็นผลมาจากข้อโต้แย้งที่เกี่ยวข้องกับทฤษฎีขีด จำกัด กลางβ

  2. วิธีเดลต้ามาจากการขยายตัวแบบเชิงเส้น (เช่นลำดับแรกเทย์เลอร์) ของฟังก์ชันรอบ MLE ต่อจากนั้นเราก็ขอความสนใจไปที่มาตรฐานเชิงเส้นกำกับและความเป็นกลางของ MLE

Asymptotically ทั้งคู่ให้คำตอบเดียวกัน แต่ในทางปฏิบัติคุณจะชอบคนที่ดูปกติมากกว่า ในตัวอย่างนี้ฉันจะชอบคนแรกเพราะหลังมีแนวโน้มที่จะมีความสมมาตรน้อย


3

การเปรียบเทียบวิธีช่วงความเชื่อมั่นในตัวอย่างจาก ISL

หนังสือ"รู้เบื้องต้นเกี่ยวกับการเรียนรู้เชิงสถิติ"โดย Tibshirani, James, Hastie ให้ตัวอย่างในหน้า 267 ของช่วงความเชื่อมั่นสำหรับการถดถอยพหุนามโลจิสติกระดับ 4 กับข้อมูลค่าจ้าง การอ้างอิงหนังสือ:

เราสร้างแบบจำลองเหตุการณ์ไบนารีโดยใช้การถดถอยโลจิสติกกับพหุนามดีกรี 4 ความน่าจะเป็นด้านหลังติดตั้งของค่าจ้างเกิน $ 250,000 จะแสดงเป็นสีฟ้าพร้อมกับช่วงความเชื่อมั่น 95% โดยประมาณwage>250

ด้านล่างเป็นบทสรุปอย่างรวดเร็วของสองวิธีในการสร้างช่วงเวลาเช่นเดียวกับความคิดเห็นเกี่ยวกับวิธีการใช้งานตั้งแต่เริ่มต้น

ช่วงการแปลง Wald / Endpoint

  • คำนวณขอบเขตบนและช่วงล่างของช่วงความเชื่อมั่นสำหรับการผสมเชิงเส้น (โดยใช้ Wald CI)xTβ
  • ใช้การแปลงแบบโมโนโทนิกกับจุดสิ้นสุดเพื่อรับความน่าจะเป็นF(xTβ)

เนื่องจากเป็นการเปลี่ยนแปลงแบบโมโนโทนิคของPr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

นี่แปลว่าการคำนวณจากนั้นใช้การแปลง logit เป็นผลลัพธ์เพื่อให้ได้ขอบเขตที่ต่ำและสูง:βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

การคำนวณข้อผิดพลาดมาตรฐาน

ทฤษฎีความน่าจะเป็นสูงสุดบอกเราว่าความแปรปรวนโดยประมาณของสามารถคำนวณได้โดยใช้เมทริกซ์ความแปรปรวนร่วมของสัมประสิทธิ์การถดถอยโดยใช้ΣxTβΣ

Var(xTβ)=xTΣx

กำหนดเมทริกซ์การออกแบบและเมทริกซ์เป็นXV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

ที่เป็นค่าของ TH ตัวแปรสำหรับสังเกต TH และ หมายถึงความน่าจะเป็นที่คาดการณ์สำหรับการสังเกตฉันxi,jjiπ^ii

เมทริกซ์ความแปรปรวนร่วมนั้นสามารถพบได้เป็น: และข้อผิดพลาดมาตรฐานเป็นΣ=(XTVX)1SE(xTβ)=Var(xTβ)

ช่วงความเชื่อมั่น 95% สำหรับความน่าจะเป็นที่คาดการณ์นั้นจะสามารถจัดทำ

ป้อนคำอธิบายรูปภาพที่นี่


ช่วงความเชื่อมั่นของวิธีเดลต้า

วิธีการคือการคำนวณความแปรปรวนของการประมาณเชิงเส้นของฟังก์ชันและใช้สิ่งนี้เพื่อสร้างช่วงความเชื่อมั่นตัวอย่างขนาดใหญ่F

Var[F(xTβ^)]FT Σ F

โดยที่คือ gradient และเมทริกซ์ความแปรปรวนร่วมประมาณ โปรดทราบว่าในมิติเดียว: Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

ที่ไหนเป็นอนุพันธ์ของFเรื่องนี้สรุปในกรณีหลายตัวแปรfF

Var[F(xTβ^)]fT xT Σ x f

ในกรณีของเรา F คือฟังก์ชันลอจิสติก (ซึ่งเราจะแทน ) ซึ่งอนุพันธ์คือπ(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

ตอนนี้เราสามารถสร้างช่วงความมั่นใจโดยใช้ความแปรปรวนที่คำนวณข้างต้น

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

ในรูปแบบเวกเตอร์สำหรับกรณีหลายตัวแปร

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • โปรดสังเกตว่าแทนจุดข้อมูลเดียวในนั่นคือแถวเดียวของเมทริกซ์การออกแบบR p + 1 XxRp+1X

ป้อนคำอธิบายรูปภาพที่นี่


บทสรุปที่สิ้นสุดลงแล้ว

ดูที่แผนการ QQ ปกติสำหรับทั้งความน่าจะเป็นและอัตราต่อรองบันทึกเชิงลบแสดงว่าไม่มีการกระจายตามปกติ สิ่งนี้สามารถอธิบายความแตกต่างได้หรือไม่?

ป้อนคำอธิบายรูปภาพที่นี่

ที่มา:


1

เพื่อจุดประสงค์ส่วนใหญ่วิธีที่ง่ายที่สุดน่าจะดีที่สุดดังที่กล่าวไว้ในบริบทของการแปลงบันทึกในหน้านี้ คิดเกี่ยวกับตัวแปรตามที่วิเคราะห์ในสเกล logit ด้วยการทดสอบทางสถิติที่ดำเนินการและช่วงความมั่นใจ (CI) ที่กำหนดในสเกล logit นั้น การแปลงกลับไปสู่อัตราต่อรองเป็นเพียงการใส่ผลลัพธ์เหล่านั้นในระดับที่ผู้อ่านอาจเข้าใจได้ง่ายขึ้น ยกตัวอย่างเช่นในการวิเคราะห์การรอดชีวิตของคอคส์ซึ่งค่าสัมประสิทธิ์การถดถอย (และ 95% CI) ได้รับการยกตัวอย่างเพื่อให้ได้อัตราส่วนความเป็นอันตรายและ CI ของพวกเขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.