แบบจำลอง logit แบบเบส์ - คำอธิบายที่เข้าใจง่าย?


11

ฉันต้องยอมรับว่าก่อนหน้านี้ฉันไม่เคยได้ยินคำศัพท์นั้นในชั้นเรียนระดับปริญญาตรีหรือปริญญาโทเลย

การถดถอยโลจิสติกหมายถึง Bayesian หมายความว่าอย่างไร ฉันกำลังมองหาคำอธิบายเกี่ยวกับการเปลี่ยนจากโลจิสติกส์ธรรมดาเป็นโลจิสติกส์แบบเบย์ดังต่อไปนี้:

นี่คือสมการในรูปแบบการถดถอยเชิงเส้น:\E(y)=β0+β1x1+...+βnxn

นี่คือสมการในรูปแบบการถดถอยโลจิสติก:\ สิ่งนี้จะกระทำเมื่อ y เป็นหมวดหมู่ln(E(y)1E(y))=β0+β1x1+...+βnxn

สิ่งที่เราทำคือการเปลี่ยนแปลงเพื่อ\ LN (\ frac {E (y)} {1-E (y)})ln ( E ( y )E(y)ln(E(y)1E(y))

แล้วแบบจำลองการถดถอยแบบโลจิสติกส์ในการถดถอยแบบโลจิสติกส์แบบเบย์คืออะไร ฉันเดาว่ามันไม่ใช่เรื่องเกี่ยวกับสมการ

ตัวอย่างหนังสือเล่มนี้ดูเหมือนจะกำหนด แต่ฉันไม่เข้าใจจริงๆ สิ่งที่เป็นไปได้ก่อนหน้านี้ทั้งหมดคืออะไร? คืออะไรα ? ขอให้ใครสักคนช่วยอธิบายส่วนหนึ่งของหนังสือเล่มนี้หรือโมเดล Logit ของ Bayesian ด้วยวิธีอื่นได้ไหม

หมายเหตุ: มีการถามก่อนหน้านี้แต่ไม่ได้รับคำตอบที่ดีมากฉันคิดว่า


1
ฉันไม่ต้องการที่จะตอบคำถามนี้เพราะฉันคิดว่า @Tim ได้ครอบคลุมเกือบทั้งหมด สิ่งเดียวที่ขาดหายไปจากคำตอบที่ยิ่งใหญ่นั้นคือในการถดถอยแบบโลจิสติกแบบเบย์และแบบจำลองเชิงเส้นแบบเบส์ (GLMs) แบบทั่วไปโดยทั่วไปการแจกแจงก่อนหน้านี้ไม่เพียงวางเหนือค่าสัมประสิทธิ์เท่านั้น นี่เป็นเรื่องสำคัญอย่างไม่น่าเชื่อที่จะกล่าวถึงเพราะหนึ่งในข้อดีที่สำคัญของวิธีการแบบเบย์ในการ GLMs คือความสามารถในการระบุได้ง่ายขึ้นและในหลาย ๆ กรณียังมีรูปแบบที่ซับซ้อนสำหรับความแปรปรวนร่วมของค่าสัมประสิทธิ์
Brash Equilibrium

2
@BrashEquilibrium: คุณกำลังพูดถึงส่วนขยายแบบลำดับชั้นที่เป็นไปได้ของแบบจำลอง Bayesian มาตรฐานสำหรับแบบจำลอง logit ในหนังสือของเราเราใช้เช่น G-ก่อนใน 's ก่อนซึ่งคงแปรปรวนเมทริกซ์มาจากตัวแปรXXβX
ซีอาน

1
ยุติธรรมเพียงพอกับ g ก่อน
Brash Equilibrium

1
ที่กล่าวว่ายังคงมีก่อนหน้านี้ใน covariances !!!!!! หากคุณไม่ได้พูดถึงคุณไม่ได้อธิบายว่าการถดถอยโลจิสติกทำงานอย่างไร
Brash Equilibrium

คำตอบ:


19

การถดถอยโลจิสติกสามารถอธิบายเป็นชุดเชิงเส้น

η=β0+β1X1+...+βkXk

ที่ถูกส่งผ่านฟังก์ชันลิงก์ :g

g(E(Y))=η

โดยที่ฟังก์ชันลิงก์เป็นฟังก์ชันlogit

E(Y|X,β)=p=logit1(η)

โดยที่รับเฉพาะค่าในและฟังก์ชัน logit ผกผันจะแปลงชุดค่าผสมเชิงเส้นเป็นช่วงนี้ นี่คือที่การถดถอยโลจิสติกแบบดั้งเดิมสิ้นสุดลง{ 0 , 1 } ηY{0,1}η

อย่างไรก็ตามหากคุณจำได้ว่าสำหรับตัวแปรที่รับเฉพาะค่าใน , มากกว่าถือได้ว่าเป็นเบต้า) ในกรณีนี้การส่งออกฟังก์ชั่น logit อาจจะคิดว่าเป็นน่าจะเป็นเงื่อนไขของ "ความสำเร็จ" คือเบต้า) การแจกแจงเบอร์นูลลีเป็นการแจกแจงที่อธิบายความน่าจะเป็นในการสังเกตผลลัพธ์ไบนารีด้วยพารามิเตอร์ดังนั้นเราจึงสามารถอธิบายเป็น{ 0 , 1 } E ( Y | X , β ) P ( Y = 1 | X , β ) P ( Y = 1 | X , β ) p YE(Y)=P(Y=1){0,1}E(Y|X,β)P(Y=1|X,β)P(Y=1|X,β)pY

yiBernoulli(p)

ดังนั้นด้วยการถดถอยโลจิสติกที่เรามองหาพารามิเตอร์บางที่ togeder กับตัวแปรอิสระรูปแบบการรวมกันเชิงเส้น\ในการถดถอยแบบคลาสสิก (เราถือว่าฟังก์ชันลิงก์เป็นฟังก์ชันตัวตน) อย่างไรก็ตามสำหรับโมเดลที่รับค่าในเราจำเป็นต้องแปลงเพื่อให้พอดี ในช่วงX η E ( Y | X , β ) = η Y { 0 , 1 } η [ 0 , 1 ]βXηE(Y|X,β)=ηY{0,1}η[0,1]

ทีนี้เพื่อประเมินการถดถอยโลจิสติกส์ในแบบเบย์คุณจะได้รับค่าพารามิเตอร์สำหรับเช่นเดียวกับการถดถอยเชิงเส้น (ดูKruschke et al, 2012 ) จากนั้นใช้ฟังก์ชัน logit เพื่อแปลงชุดเชิงเส้นเพื่อใช้ผลลัพธ์เป็นพารามิเตอร์ของการแจกแจงแบบ Bernoulli ที่อธิบายตัวแปรของคุณ ดังนั้นใช่คุณใช้สมการและฟังก์ชันการเชื่อมโยง logit แบบเดียวกับในกรณี frequentionist และส่วนที่เหลือทำงาน (เช่นการเลือกนักบวช) เช่นการประเมินการถดถอยเชิงเส้นแบบเบย์ η P YβiηพีY

วิธีง่าย ๆ ในการเลือกไพรเออร์คือการเลือกการแจกแจงปกติ ( แต่คุณยังสามารถใช้การแจกแจงอื่น ๆ เช่น - หรือการกระจาย Laplace สำหรับรูปแบบที่มีประสิทธิภาพมากขึ้น) สำหรับ 's กับพารามิเตอร์และที่ตั้งไว้หรือนำ จากไพรเออร์ลำดับชั้น ตอนนี้มีคำจำกัดความของแบบจำลองคุณสามารถใช้ซอฟต์แวร์เช่นJAGSเพื่อทำการจำลองแบบมาร์คอฟเชนมอนติคาร์โลเพื่อให้คุณสามารถประเมินแบบจำลองได้ ด้านล่างฉันโพสต์รหัส JAGS สำหรับรูปแบบโลจิสติกง่าย (ตรวจสอบที่นี่สำหรับตัวอย่างเพิ่มเติม)β i μ i σ 2 iเสื้อβผมμผมσผม2

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

อย่างที่คุณเห็นรหัสนี้แปลเป็นคำจำกัดความของโมเดลโดยตรง สิ่งที่ซอฟต์แวร์ไม่สามารถจะดึงค่าจากไพรเออร์ปกติaและbจากนั้นจะใช้ค่าเหล่านั้นในการประมาณการpและในที่สุดก็ใช้ฟังก์ชั่นความน่าจะเป็นที่จะประเมินว่าน่าจะเป็นข้อมูลของคุณได้รับพารามิเตอร์เหล่านั้น (นี้คือเมื่อคุณใช้ Bayes ทฤษฎีบทดูที่นี่สำหรับ คำอธิบายรายละเอียดเพิ่มเติม)

แบบจำลองการถดถอยโลจิสติกขั้นพื้นฐานสามารถขยายไปยังแบบจำลองการพึ่งพาระหว่างตัวทำนายโดยใช้แบบจำลองลำดับชั้น (รวมถึงhyperpriors ) ในกรณีนี้คุณสามารถดึงจากการกระจายแบบหลายตัวแปรปกติที่ทำให้เราสามารถรวมข้อมูลเกี่ยวกับความแปรปรวนร่วมระหว่างตัวแปรอิสระ ΣβผมΣ

(β0β1βk)~MVยังไม่มีข้อความ([μ0μ1μk],[σ02σ0,1...σ0,kσ1,0σ12...σ1,kσk,0σk,1...σk2])

... แต่นี่จะเป็นรายละเอียดดังนั้นเรามาหยุดตรงนี้

ส่วน "Bayesian" ในที่นี้คือการเลือกนักบวชโดยใช้ทฤษฎีบทของ Bayes และกำหนดรูปแบบในเงื่อนไขที่น่าจะเป็น ดูที่นี่สำหรับความหมายของ "รูปแบบเบส์"และนี่คือบางสัญชาตญาณทั่วไปเกี่ยวกับวิธีการแบบเบย์ สิ่งที่คุณสามารถสังเกตเห็นได้คือการกำหนดแบบจำลองนั้นค่อนข้างตรงไปตรงมาและมีความยืดหยุ่นด้วยวิธีการนี้


Kruschke, JK, Aguinis, H. , & Joo, H. (2012) ถึงเวลาแล้ว: วิธีการแบบเบย์สำหรับการวิเคราะห์ข้อมูลในวิทยาศาสตร์ขององค์กร ระเบียบวิธีวิจัยองค์กร, 15 (4), 722-752

Gelman, A. , Jakulin, A. , Pittau, GM, และ Su, Y.-S. (2008) การแจกแจงเริ่มต้นก่อนหน้านี้ที่ให้ข้อมูลอ่อนสำหรับโลจิสติกและโมเดลการถดถอยอื่น ๆ พงศาวดารของสถิติประยุกต์ 2 (4), 1360–1383


1
คุณต้องการการพิสูจน์ความแปรปรวนไม่ใช่แค่ค่าสัมประสิทธิ์
Brash Equilibrium

3
@BCLC ไม่ใช่สำหรับ logit regression logit ใช้เป็นลิงค์ฟังก์ชันในขณะที่เป็นการรวมกันเชิงเส้นเช่นสำหรับการถดถอยเชิงเส้นเป็นฟังก์ชันเฉพาะตัวดังนั้นนี่ เป็นเพียงข้อกำหนดมาตรฐานของGLM ก.ηη=β0+β1X1ก.E(Y)=η
ทิม

1
@BCLC ตรวจสอบลิงก์ในคำตอบของฉันพวกเขาให้ข้อมูลเบื้องต้นเกี่ยวกับสถิติแบบเบย์โดยทั่วไป นี่เป็นหัวข้อที่กว้างขึ้นมากซึ่งคนที่กล่าวถึงในคำถามเริ่มต้นของคุณ แต่คุณสามารถหาคำแนะนำที่ดีในการอ้างอิงที่ฉันให้ไว้ในคำตอบของฉัน
ทิม

1
@ เวลาฉันพิมพ์ผิดที่นั่น พิสูจน์ควรอ่าน priors โดยทั่วไปค่าสัมประสิทธิ์ไม่ใช่พารามิเตอร์ที่ไม่รู้จักเท่านั้น การกระจายพหุนามยังมีเมทริกซ์ความแปรปรวนร่วมแปรปรวนและโดยทั่วไปเราไม่คิดว่ามันเป็นที่รู้จัก
Brash Equilibrium

3
ส่วน "Bayesian" ในที่นี่คือการเลือกนักบวชโดยใช้ทฤษฎีบทของ Bayes และกำหนดรูปแบบในเงื่อนไขที่น่าจะเป็น " การอ้างอิงที่ดีที่นี่คือ Gelman และคณะ การแจกแจงข้อมูลเบื้องต้นที่ไม่ได้มาตรฐานสำหรับรุ่นลอจิสติกและการลงทะเบียนอื่น ๆstat.columbia.edu/~gelman/research/published/priors11.pdf
Dalton Hance

6

สิ่งที่เป็นไปได้ก่อนหน้านี้ทั้งหมดคืออะไร?

นั่นคือสิ่งที่ทำให้มันเป็นแบบเบย์ ตัวแบบกำเนิดสำหรับข้อมูลนั้นเหมือนกัน ความแตกต่างก็คือการวิเคราะห์แบบเบย์เลือกการแจกแจงก่อนหน้าบางส่วนสำหรับพารามิเตอร์ที่น่าสนใจและคำนวณหรือประมาณการกระจายหลังซึ่งการอนุมานทั้งหมดจะขึ้นอยู่ กฎของเบย์เกี่ยวข้องกับทั้งสอง: คนหลังเป็นสัดส่วนกับโอกาสที่จะเกิดขึ้นก่อน

ก่อนหน้านี้อนุญาตให้นักวิเคราะห์ทางคณิตศาสตร์แสดงความเชี่ยวชาญในสาระการเรียนรู้หรือการค้นพบที่มีมาก่อน ตัวอย่างเช่นข้อความที่คุณอ้างอิงบันทึกว่าก่อนหน้านี้สำหรับเป็นตัวแปรหลายตัวแปร บางทีการศึกษาก่อนหน้านี้แนะนำพารามิเตอร์บางช่วงที่สามารถแสดงด้วยพารามิเตอร์ปกติบางอย่าง (ด้วยความยืดหยุ่นมาพร้อมความรับผิดชอบ: เราควรจะสามารถพิสูจน์ความถูกต้องของพวกเขาก่อนที่จะมีผู้ชมที่สงสัย) ในรูปแบบที่ซับซ้อนมากขึ้นเราสามารถใช้ความเชี่ยวชาญด้านโดเมนเพื่อปรับแต่งพารามิเตอร์แฝงบางอย่าง ตัวอย่างเช่นดูตัวอย่างตับที่อ้างอิงในคำตอบนี้β

แบบจำลองผู้ใช้งานประจำบางคนอาจเกี่ยวข้องกับคู่แบบเบย์ที่มีรูปแบบเฉพาะก่อนหน้านี้ แต่ฉันไม่แน่ใจซึ่งสอดคล้องกันในกรณีนี้


βββ1,β2,...,βnX1X2Xnβ

1
@BCLC ตอบที่ผมจะเริ่มต้นด้วยกระบวนการเปลือยของคชกรรมอนุมานและกำหนดเงื่อนไขที่ผมไป: Bayesians รักษาทุกพารามิเตอร์ที่น่าสนใจเป็นตัวแปรสุ่มและการปรับปรุงความเชื่อของพวกเขาเกี่ยวกับพารามิเตอร์เหล่านี้ในแง่ของข้อมูล การแจกแจงก่อนหน้าเป็นการแสดงออกถึงความเชื่อเกี่ยวกับพารามิเตอร์ก่อนการวิเคราะห์ข้อมูล the * posterior distribution * - โดย Bayes rule, ผลิตภัณฑ์ปกติของก่อนและโอกาส - สรุปความเชื่อที่ไม่แน่นอนเกี่ยวกับพารามิเตอร์ในแง่ของแสงก่อนหน้าและข้อมูล การคำนวณหลังเป็นที่ที่เหมาะสม
ฌอนอีสเตอร์

1
βพีพี

เอาล่ะผมคิดว่าผมเข้าใจคุณดีขึ้นหลังจากที่ได้อ่านเรียงความที่มีต่อการแก้ปัญหาในหลักคำสอนของโอกาส ขอบคุณ SeanEster
BCLC

1
P(B)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.