ทำไมต้องใช้ลิงค์ logit ในการถดถอยเบต้า


14

เมื่อเร็ว ๆ นี้ฉันมีความสนใจในการใช้รูปแบบการถดถอยเบต้าสำหรับผลลัพธ์ที่เป็นสัดส่วน โปรดทราบว่าผลลัพธ์นี้จะไม่สอดคล้องกับบริบททวินามเนื่องจากไม่มีแนวคิดที่มีความหมายของ "ความสำเร็จ" ที่ไม่ต่อเนื่องในบริบทนี้ ในความเป็นจริงผลลัพธ์ที่ได้เป็นสัดส่วนของระยะเวลา ตัวเศษเป็นจำนวนวินาทีในขณะที่เงื่อนไขบางอย่างมีการใช้งานมากกว่าจำนวนวินาทีทั้งหมดซึ่งเงื่อนไขนั้นมีสิทธิ์ที่จะใช้งานได้ ฉันขอโทษสำหรับคนจรจัด แต่ฉันไม่ต้องการที่จะให้ความสำคัญกับบริบทที่แม่นยำนี้เพราะฉันรู้ว่ามีหลายวิธีที่กระบวนการดังกล่าวสามารถสร้างแบบจำลองนอกเหนือจากการถดถอยแบบเบต้าและตอนนี้ฉันสนใจเฉพาะทางทฤษฎีมากขึ้น คำถามที่เกิดขึ้นในความพยายามของฉันที่จะใช้รูปแบบดังกล่าว (แน่นอนว่าฉันเป็น

ไม่ว่าในกรณีใดทรัพยากรทั้งหมดที่ฉันสามารถค้นหาได้ระบุว่าการถดถอยแบบเบต้ามักจะเหมาะสมกับการใช้ลิงค์ logit (หรือ probit / cloglog) และพารามิเตอร์ตีความว่าเป็นการเปลี่ยนแปลงของอัตราต่อรอง อย่างไรก็ตามฉันยังไม่พบการอ้างอิงที่ให้เหตุผลใด ๆ จริง ๆ ว่าเพราะเหตุใดจึงต้องการใช้ลิงก์นี้

กระดาษ Ferrari และ Cribari-Neto (2004) ต้นฉบับไม่ได้ให้เหตุผลอะไรเลย พวกเขาทราบเพียงว่าฟังก์ชั่น logit นั้น "มีประโยชน์อย่างยิ่ง" เนื่องจากการตีความอัตราส่วนอัตราต่อรองของพารามิเตอร์แบบเอ็กซ์โปเนนเชียล แหล่งข้อมูลอื่นอ้างถึงความปรารถนาในการแมปจากช่วงเวลา (0,1) ไปยังเส้นจริง อย่างไรก็ตามเราจำเป็นต้องมีฟังก์ชั่นลิงก์สำหรับการทำแผนที่ดังกล่าวหรือไม่เนื่องจากเราสมมติว่ามีการแจกแจงเบต้าอยู่แล้ว ฟังก์ชั่นการเชื่อมโยงมีประโยชน์อะไรบ้างที่มีให้เหนือกว่าข้อ จำกัด ที่กำหนดโดยสมมติว่าการกระจายเบต้าเริ่มต้นด้วย?ฉันใช้การจำลองอย่างรวดเร็วสองสามครั้งและไม่ได้เห็นการคาดการณ์นอกช่วง (0,1) ด้วยลิงก์ตัวตนแม้ว่าจะจำลองจากการแจกแจงแบบเบต้าซึ่งมวลความน่าจะเป็นกระจุกอยู่ใกล้กับ 0 หรือ 1 แต่บางทีแบบจำลองของฉัน ยังไม่กว้างพอที่จะตรวจพบโรคบางอย่าง

ดูเหมือนว่าฉันจะขึ้นอยู่กับว่าแต่ละบุคคลในทางปฏิบัติตีความพารามิเตอร์ประมาณการจากตัวแบบการถดถอยเบต้า (เช่นอัตราส่วนอัตราต่อรอง) ว่าพวกเขามีการอนุมานโดยนัยเกี่ยวกับโอกาสของ "ความสำเร็จ"; นั่นคือพวกเขากำลังใช้การถดถอยเบต้าแทนโมเดลทวินาม บางทีนี่อาจเป็นสิ่งที่เหมาะสมในบางบริบทที่ได้รับความสัมพันธ์ระหว่างการแจกแจงแบบเบต้าและแบบทวินาม แต่ดูเหมือนว่าสำหรับฉันแล้วนี่น่าจะเป็นกรณีพิเศษมากกว่าแบบทั่วไป ในคำถามนี้มีคำตอบสำหรับการตีความอัตราส่วนอัตราเดิมพันที่เกี่ยวกับสัดส่วนต่อเนื่องมากกว่าผลลัพธ์ แต่ดูเหมือนว่าฉันจะยุ่งยากและไม่จำเป็นที่จะลองและตีความสิ่งต่าง ๆ แบบนี้โดยไม่จำเป็น หรือลิงค์ตัวตนและตีความการเปลี่ยนแปลง% หรือการเปลี่ยนหน่วย

เหตุใดเราจึงใช้ลิงก์ logit สำหรับตัวแบบการถดถอยเบต้า มันเป็นเพียงเรื่องของความสะดวกสบายที่จะเกี่ยวข้องกับรูปแบบทวินาม?

คำตอบ:


8

เหตุผลของฟังก์ชั่นการเชื่อมโยง: ฟังก์ชั่นการเชื่อมโยงรับรองว่าทุกค่าติดตั้งอยู่เสมอใน1) สิ่งนี้อาจไม่สำคัญว่ามากในบางแอปพลิเคชันเช่นเนื่องจากการคาดการณ์หรือประเมินเฉพาะในตัวอย่างหรือไม่ใกล้เคียงกับ 0 หรือ 1 แต่มันอาจสำคัญในบางแอปพลิเคชันและโดยทั่วไปคุณไม่ทราบล่วงหน้าว่ามันสำคัญหรือ ไม่. ปัญหาทั่วไปที่ฉันได้เห็นรวมถึง: การประเมินการทำนายค่าใหม่ที่ (เล็กน้อย) อยู่นอกช่วงของตัวอย่างการเรียนรู้ดั้งเดิมหรือการค้นหาค่าเริ่มต้นที่เหมาะสม สำหรับหลังพิจารณา:μ = กรัม- 1 ( x บีตา ) ( 0 , 1 ) xg(μ):(0,1)Rμ^=g1(xβ^)(0,1)x

library("betareg")
data("GasolineYield", package = "betareg")
betareg(yield ~ batch + temp, data = GasolineYield, link = make.link("identity"))
## Error in optim(par = start, fn = loglikfun, gr = if (temporary_control$use_gradient) gradfun else NULL,  : 
##   initial value in 'vmmin' is not finite

แต่แน่นอนเราสามารถลองใช้ตัวเลือกทั้งสองและดูว่ามีปัญหากับลิงค์ตัวตนเกิดขึ้นหรือไม่และปรับปรุงว่าเหมาะสมกับโมเดลหรือไม่

การตีความพารามิเตอร์:ฉันยอมรับว่าการตีความพารามิเตอร์ในรุ่นที่มีฟังก์ชั่นลิงค์ยากกว่าในรุ่นที่มีลิงค์ตัวตนและผู้ปฏิบัติงานมักจะเข้าใจผิด อย่างไรก็ตามฉันมักจะเห็นการตีความที่ผิดพลาดของพารามิเตอร์ในตัวแบบความน่าจะเป็นแบบเชิงเส้น (การถดถอยแบบไบนารีด้วยการเชื่อมโยงตัวตนโดยทั่วไปแล้วจะน้อยกว่ากำลังสอง) การสันนิษฐานว่าผลกระทบส่วนเพิ่มนั้นไม่สามารถคงที่ได้หากการคาดคะเนใกล้เคียงกับ 0 หรือ 1 และต้องระมัดระวังอย่างยิ่ง เช่นสำหรับการสังเกตด้วยการเพิ่มขึ้นของไม่สามารถนำไปสู่การลดลงของของ, พูด,x μ 0.02μ^=0.01xμ^0.02. แต่นี่ก็มักจะได้รับการปฏิบัติอย่างล้นเหลือในสถานการณ์เหล่านั้น ดังนั้นฉันจะยืนยันว่าสำหรับโมเดลการตอบสนองที่ จำกัด พารามิเตอร์จากฟังก์ชันลิงก์ใด ๆจำเป็นต้องตีความอย่างระมัดระวังและอาจต้องมีการฝึกฝน คำแนะนำปกติของฉันคือ (ดังแสดงในการสนทนาอื่น ๆ ที่คุณเชื่อมโยงในคำถามของคุณ) เพื่อดูผลกระทบสำหรับการกำหนดค่า regressor ที่น่าสนใจ ง่ายต่อการตีความและบ่อยครั้ง (แต่ไม่เสมอไป) ค่อนข้างคล้ายกัน (จากมุมมองที่ใช้งานได้จริง) สำหรับฟังก์ชันลิงก์ที่แตกต่างกัน


10

ไม่ถูกต้องที่การถดถอยโลจิสติกสามารถใช้เพื่อสร้างแบบจำลองข้อมูลผลลัพธ์ไบนารีเท่านั้น แบบจำลองการถดถอยโลจิสติกส์มีความเหมาะสมกับข้อมูลใด ๆ ที่ 1) ค่าคาดหวังผลลัพธ์เป็นเส้นโค้งลอจิสติกในฐานะหน้าที่ของผู้ทำนาย 2) ความแปรปรวนของผลลัพธ์คือผลลัพธ์ที่คาดหวังหนึ่งครั้งลบผลลัพธ์ที่คาดหวัง 3) (ผลที่ตามมาของ 2) ช่วงข้อมูลระหว่าง 0 และ 1 คุณสมบัติเหล่านี้มีไว้สำหรับข้อมูล Bernoulli อย่างแน่นอน แต่เราควรทำสถิติและแผนการสำรวจบางอย่างก่อนที่จะทำให้เสียรูปแบบโลจิสติกส์ทันทีในฐานะที่เป็นไปได้ (และง่ายต่อการใช้ / อธิบาย) หมายถึงการตอบคำถามทางวิทยาศาสตร์

แบบจำลองการถดถอยโลจิสติกเป็นกรณีพิเศษของโมเดลเชิงเส้นทั่วไป (GLM) ซึ่งหมายความว่าการประมาณค่าพารามิเตอร์ที่สอดคล้องกันและการอนุมานจะได้รับจากรูปแบบ แบบจำลองลอจิสติกส์ใช้ในการจำลองสัดส่วนตัวแปรลำดับอัตราคะแนนการสอบอันดับและผลลัพธ์ทั้งหมดที่ไม่ใช่ไบนารีในสถานที่ต่าง ๆ ในวรรณคดี

ขออภัยที่การตอบนี้ไม่ได้นำคำถามของคุณมาลงในภายหลัง แต่การระบุเหตุผลก่อนหน้านี้ทำให้เกิดความเข้าใจผิดที่มีค่าต่อการแก้ไข

ผู้ใช้ R หลายคนแนะนำว่า "คำเตือน" ที่มาจากการตอบสนองอย่างต่อเนื่องกับโมเดลโลจิสติกที่เหมาะสมควรถูกระงับ A "กลางถนน" วิธีการคือการเปลี่ยนไปfamily=binomial family=quasibinomialตัวอย่างของการจำลองข้อมูลเหล่านี้การสร้างแบบจำลองและการรับการอนุมานที่ถูกต้องแสดงไว้ที่นี่:

set.seed(123)
## logistic non-binary response
x <- rep(c(-2, 0, 2), each=50)
n <- length(x)
b0 <- 0
b1 <- 0.3
yhat <- plogis(b0 + b1*x)

do.one <- function(){
  e <- rnorm(n, 0, yhat*(1-yhat))
  y <- yhat + e

  yfixed <- pmin(y, 1)
  yfixed <- pmax(yfixed, 0)

  est <- glm(yfixed ~ x, family=quasibinomial())
  ci <- confint.default(est, level = 0.9)
  cov0 <- b0 > ci[1,1] & b0 < ci[1,2]
  cov1 <- b1 > ci[2,1] & b1 < ci[2,2]
  c(cov0, cov1)
}

reg <- replicate(10000, do.one())
rowMeans(reg)

ให้ความคุ้มครอง 90% ที่แม่นยำของ CIs


1
ฉันขอขอบคุณคำชี้แจงที่ให้ไว้เกี่ยวกับรูปแบบการถดถอยโลจิสติก คุณถูกต้องว่าเป็นโมเดลทั่วไปมากกว่าที่คิดกันบ่อยๆ ผมลังเลที่จะยอมรับเรื่องนี้เป็นคำตอบ แต่เพราะดูเหมือนว่ามันไม่ได้ค่อนข้างพัฒนาสายของเหตุผลเพียงพอ ดูเหมือนว่าคุณกำลังบอกว่าความกังวลของฉันต่อลิงก์ logit ในรุ่นเบต้านั้นไม่มีมูลความจริงเพราะลิงก์ logit นั้นทำงานได้ดีกับข้อมูลที่ไม่ใช่ไบนารี ซึ่งเป็นท่าทางที่สมเหตุสมผล แต่ฉันรู้สึกไม่ค่อยได้รับความสนใจจากคำถามของฉันเกี่ยวกับสาเหตุที่เราใช้ logit ในรุ่นเบต้าและวิธีตีความมัน
Ryan Simmons

1
@ RyanSimmons ขอบคุณสำหรับข้อเสนอแนะ ฉันเห็นด้วยกับเหตุผลของคุณที่นี่ ฉันคิดว่า "โอกาสในการเรียนรู้" รับประกันคำตอบดังนั้นคำถามหนึ่งอาจมีคำตอบที่เป็นไปได้มากมายที่มี "ความถูกต้อง" ที่หลากหลาย ฉันยังไม่ได้แตะคำถามของคุณซึ่งเป็นคำตอบที่ดีดังนั้นคำตอบ "righter" อาจปรากฏขึ้น ฉันอยากรู้เกี่ยวกับเรื่องนี้ด้วยตัวเองดังนั้นฉันจึงพยายามที่จะอ่านเรื่องนี้ให้มากขึ้น
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.