ความแตกต่างระหว่างรุ่น logit และ probit


299

LogitและProbit modelแตกต่างกันอย่างไร?

ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit

หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน


5
แทบไม่มีความแตกต่างระหว่างผลลัพธ์ของทั้งสอง (ดู Paap & Franses 2000)

1
ฉันเคยมีชุดข้อมูล (bioassay) ที่กว้างขวางซึ่งเราสามารถเห็น probit ติดตั้งได้ดีกว่าเล็กน้อย แต่มันไม่ได้สร้างความแตกต่างสำหรับข้อสรุป
kjetil b halvorsen

1
@Alyas Shah: และนั่นคือคำอธิบายว่าทำไมโปรแกรม probit ของฉันจึงเหมาะกับข้อมูล (เล็กน้อย) ดีกว่า --- เนื่องจากปริมาณที่กำหนดอัตราการตายคือ 100% และต่ำกว่า treshold บางส่วนอัตราการเสียชีวิตคือ 0% ดังนั้นเราจึงไม่เห็นวิธีช้า ของ logit!
kjetil b halvorsen

3
สำหรับข้อมูลจริงโดยการคัดค้านกับข้อมูลที่สร้างจาก logit หรือ probit แนวทางที่รอบคอบในการแก้ไขปัญหาคือการเปรียบเทียบแบบจำลอง จากประสบการณ์ของฉันข้อมูลไม่ค่อยเอนไปหาหนึ่งในสองโมเดล
ซีอาน

2
ฉันได้ยินมาว่าการใช้งานจริงของการกระจายแบบลอจิสติกนั้นมาจากความคล้ายคลึงกับ CDF ปกติและฟังก์ชั่นการกระจายแบบสะสมที่ง่ายกว่ามาก อันที่จริง CDF ปกติมีส่วนประกอบสำคัญที่ต้องประเมิน - ซึ่งฉันคิดว่ามันคำนวณค่าใช้จ่ายได้สูงในสมัยนั้น
dv_bn

คำตอบ:


144

พวกเขาส่วนใหญ่แตกต่างกันในฟังก์ชั่นลิงค์

ใน Logit: Pr(Y=1X)=[1+eXβ]1

ใน Probit: (PDF ปกติสะสม)Pr(Y=1X)=Φ(Xβ)

ในทางอื่นโลจิสติกมีหางที่แบนราบกว่าเล็กน้อย นั่นคือ probit curve ใกล้แกนเร็วกว่า logit curve

Logit ตีความได้ง่ายกว่า probit การถดถอยแบบลอจิสติกสามารถตีความได้ว่าเป็นการสร้างแบบจำลองอัตราต่อรอง (เช่นผู้ที่สูบบุหรี่> 25 มวนต่อวันมีแนวโน้มที่จะเสียชีวิต 6 ครั้งก่อนอายุ 65 ปี) โดยปกติคนเริ่มสร้างแบบจำลองด้วย logit คุณสามารถใช้ค่าความน่าจะเป็นของแต่ละรุ่นเพื่อตัดสินใจสำหรับ logit vs probit


6
ขอบคุณสำหรับคำตอบของคุณ Vinux แต่ฉันต้องการทราบว่าเมื่อใดที่จะใช้ logit และใช้ probit ฉันรู้ว่า logit เป็นที่นิยมมากกว่า probit และส่วนใหญ่ของกรณีที่เราใช้การถดถอย logit แต่มีบางกรณีที่รุ่น Probit มีประโยชน์มากกว่า คุณช่วยเล่าเรื่องเหล่านี้ให้ฉันฟังได้ไหม และวิธีแยกแยะกรณีเหล่านั้นออกจากคดีปกติ
เบต้า

5
เมื่อคุณเกี่ยวข้องกับส่วนหางของโค้งบางครั้งการเลือก logit หรือ probit สำคัญ ไม่มีกฎที่แน่นอนในการเลือก probit หรือ logit คุณสามารถเลือกแบบจำลองได้โดยดูที่ความน่าจะเป็น (หรือความน่าจะเป็นในการบันทึก) หรือ AIC
vinux

12
ขอบคุณสำหรับคำแนะนำ! คุณสามารถอธิบายวิธีการเลือกระหว่าง logit กับ probit ได้อย่างละเอียดหรือไม่? โดยเฉพาะอย่างยิ่ง: (1) ฉันจะบอกได้อย่างไรว่าคุณกังวลกับส่วนหางของส่วนโค้ง (2) ฉันจะเลือกแบบจำลองได้อย่างไรโดยดูที่ความน่าจะเป็น, โอกาสในการบันทึกหรือ AIC ฉันควรดูสิ่งใดเป็นพิเศษและสิ่งนี้มีอิทธิพลต่อการตัดสินใจของฉันเกี่ยวกับรูปแบบการใช้งานอย่างไร
DW

คุณช่วยยกตัวอย่าง logit ที่ล้มเหลวเมื่อเปรียบเทียบกับ probit ได้ไหม? ฉันไม่สามารถค้นหาสิ่งที่คุณมีในใจ
กระทะ

1
@flies นี่หมายถึง transpose ของเมทริกซ์X XXX
Mathemanic

445

แบบจำลองเชิงเส้นมาตรฐาน (เช่นแบบจำลองการถดถอยอย่างง่าย) สามารถคิดได้ว่ามี 'ส่วน' สองส่วน เหล่านี้จะถูกเรียกว่าองค์ประกอบโครงสร้างและองค์ประกอบแบบสุ่ม ตัวอย่างเช่น: สองคำแรก (นั่นคือ ) องค์ประกอบโครงสร้างและ (ซึ่งบ่งบอกถึงข้อผิดพลาดที่กระจายตามปกติ) เป็นองค์ประกอบแบบสุ่ม เมื่อปกติแล้วตัวแปรตอบกลับจะไม่กระจาย (ตัวอย่างเช่นหากตัวแปรตอบกลับของคุณเป็นแบบไบนารี) วิธีการนี้อาจไม่ถูกต้องอีกต่อไป จำลองเชิงเส้นทั่วไป
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ

Y=β0+β1X+εwhere εN(0,σ2)
β0+β1Xε(GLiM) ได้รับการพัฒนาเพื่อจัดการกับกรณีดังกล่าวและโมเดล logit และ probit เป็นกรณีพิเศษของ GLiMs ที่เหมาะสมสำหรับตัวแปรไบนารี (หรือตัวแปรตอบสนองหลายหมวดหมู่ที่มีการปรับตัวเข้ากับกระบวนการบางอย่าง) GLiM มีสามส่วนเป็นส่วนประกอบโครงสร้างเป็นฟังก์ชั่นการเชื่อมโยงและกระจายการตอบสนอง ตัวอย่างเช่น: นี่เป็นองค์ประกอบโครงสร้างอีกครั้งคือฟังก์ชันลิงก์และ
g(μ)=β0+β1X
β0+β1Xg()μเป็นค่าเฉลี่ยของการแจกแจงการตอบสนองแบบมีเงื่อนไข ณ จุดที่กำหนดในพื้นที่ covariate วิธีที่เราคิดเกี่ยวกับองค์ประกอบโครงสร้างที่นี่ไม่ได้แตกต่างจากที่เราคิดเกี่ยวกับมันด้วยแบบจำลองเชิงเส้นมาตรฐาน ในความเป็นจริงนั้นเป็นหนึ่งในข้อดีที่ยอดเยี่ยมของ GLiM เนื่องจากสำหรับการแจกแจงหลายครั้งความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ยการมีค่าเฉลี่ยตามเงื่อนไข (และเมื่อคุณกำหนดการแจกแจงการตอบกลับ) คุณจึงคิดว่าอนาล็อกขององค์ประกอบสุ่มในโมเดลเชิงเส้นโดยอัตโนมัติ (NB: ในทางปฏิบัติมีความซับซ้อนมากขึ้น)

ฟังก์ชั่นการเชื่อมโยงเป็นกุญแจสำคัญใน GLiMs: เนื่องจากการกระจายของตัวแปรการตอบสนองไม่ปกติมันเป็นสิ่งที่ช่วยให้เราเชื่อมต่อองค์ประกอบโครงสร้างกับการตอบสนอง - มัน 'ลิงค์' พวกเขา (ดังนั้นชื่อ) เป็นกุญแจสำคัญสำหรับคำถามของคุณเนื่องจาก logit และ probit เป็นลิงค์ (ตามที่ @vinux อธิบาย) และฟังก์ชั่นการเชื่อมโยงการทำความเข้าใจจะช่วยให้เราสามารถเลือกได้ว่าจะใช้เมื่อใด แม้ว่าจะมีฟังก์ชั่นลิงค์จำนวนมากที่สามารถยอมรับได้ แต่บ่อยครั้งที่มีฟังก์ชั่นพิเศษ โดยไม่ต้องการที่จะได้รับไกลเกินไปในวัชพืช (นี้จะได้รับทางเทคนิคมาก) ที่คาดการณ์เฉลี่ยจะไม่จำเป็นต้องทางคณิตศาสตร์เช่นเดียวกับการกระจายการตอบสนองของพารามิเตอร์ที่ตั้งที่ยอมรับ ;บีตา( 0 , 1 ) LN ( - LN ( 1 - μ ) )μ. ข้อได้เปรียบของสิ่งนี้ "คือมีสถิติที่เพียงพอเพียงเล็กน้อยสำหรับมีอยู่" ( German Rodriguez ) ลิงก์ canonical สำหรับข้อมูลการตอบกลับแบบไบนารี (โดยเฉพาะอย่างยิ่งการแจกแจงแบบทวินาม) คือ logit อย่างไรก็ตามมีฟังก์ชั่นมากมายที่สามารถแมปองค์ประกอบโครงสร้างลงในช่วงเวลาและเป็นที่ยอมรับได้ probit ยังได้รับความนิยม แต่ยังมีตัวเลือกอื่น ๆ ที่บางครั้งใช้ (เช่นบันทึกการใช้งานที่สมบูรณ์,มักเรียกว่า 'cloglog') ดังนั้นจึงมีฟังก์ชั่นลิงค์ที่เป็นไปได้มากมายและการเลือกฟังก์ชั่นลิงค์มีความสำคัญมาก ตัวเลือกควรทำตามการรวมกันของ: β(0,1)ln(ln(1μ))

  1. ความรู้เกี่ยวกับการกระจายการตอบสนอง
  2. การพิจารณาเชิงทฤษฎีและ
  3. เชิงประจักษ์พอดีกับข้อมูล

หลังจากที่มีพื้นหลังแนวคิดเล็กน้อยที่จำเป็นในการเข้าใจความคิดเหล่านี้อย่างชัดเจนมากขึ้น (ยกโทษให้ฉัน) ฉันจะอธิบายวิธีการพิจารณาเหล่านี้สามารถใช้เพื่อเป็นแนวทางในการเลือกลิงก์ของคุณ (ให้ฉันทราบว่าฉันคิดว่าความคิดเห็นของ @ David ถูกต้องแม่นยำว่าทำไมจึงมีการเลือกลิงก์ที่แตกต่างกันในทางปฏิบัติ ) หากเริ่มต้นด้วยหากตัวแปรการตอบสนองของคุณคือผลลัพธ์ของการทดลองใช้ Bernoulli (นั่นคือหรือ ) ทวินามและสิ่งที่คุณกำลังจำลองคือความน่าจะเป็นที่การสังเกตเป็น (นั่นคือ ) เป็นผลให้ฟังก์ชันใด ๆ ที่แมปบรรทัดจำนวนจริงไปยังช่วงเวลา011π(Y=1)(,+)(0,1)จะทำงาน.

จากมุมมองของทฤษฎีที่สำคัญของคุณหากคุณกำลังคิดว่าเพื่อนร่วมชาติของคุณเชื่อมต่อโดยตรงกับความน่าจะเป็นของความสำเร็จคุณมักจะเลือกการถดถอยโลจิสติกเพราะมันเป็นลิงก์แบบบัญญัติ อย่างไรก็ตามพิจารณาตัวอย่างต่อไปนี้: คุณถูกขอให้จำลองแบบhigh_Blood_Pressureเป็นฟังก์ชันของ covariates ความดันโลหิตของตัวเองมีการกระจายตัวตามปกติในประชากร (ฉันไม่รู้จริง ๆ ว่า แต่ดูเหมือนว่ามีเหตุผลเบื้องต้น) อย่างไรก็ตามแพทย์แบ่งเป็นสองส่วนในระหว่างการศึกษา (นั่นคือพวกเขาบันทึก 'ความดันโลหิตสูง' หรือ 'ปกติ' เท่านั้น ) ในกรณีนี้ probit น่าจะดีกว่าการให้เหตุผลทางทฤษฎี นี่คือความหมาย @Elvis โดย "ผลลัพธ์ไบนารีของคุณขึ้นอยู่กับตัวแปร Gaussian ที่ซ่อนอยู่"สมมาตรหากคุณเชื่อว่าความน่าจะเป็นของความสำเร็จจะเพิ่มขึ้นอย่างช้าๆจากศูนย์ แต่จะลดลงอย่างรวดเร็วเมื่อใกล้ถึงจุดหนึ่งบล็อกการอุดตันจะถูกเรียกใช้เป็นต้น

สุดท้ายโปรดทราบว่ารูปแบบเชิงประจักษ์ของแบบจำลองกับข้อมูลนั้นไม่น่าจะช่วยในการเลือกลิงค์เว้นแต่ว่ารูปร่างของฟังก์ชั่นลิงก์ที่มีปัญหาจะแตกต่างกันไปอย่างมาก (ซึ่ง Logit และ probit ไม่ได้ทำ) ตัวอย่างเช่นพิจารณาการจำลองต่อไปนี้:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

แม้ว่าเรารู้ว่าข้อมูลถูกสร้างขึ้นโดยตัวแบบ probit และเรามีจุดข้อมูล 1,000 จุด แต่ตัวแบบของ probit นั้นจะให้ผลที่ดีกว่าพอดี 70% ของเวลาและยิ่งกว่านั้นเพียงแค่จำนวนเล็กน้อยเท่านั้น พิจารณาการทำซ้ำครั้งล่าสุด:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

เหตุผลก็คือฟังก์ชั่น logit และ probit นั้นให้ผลลัพธ์ที่คล้ายกันมากเมื่อได้รับอินพุตเดียวกัน

ป้อนคำอธิบายภาพที่นี่

ฟังก์ชัน logit และ probit นั้นเหมือนกันทุกประการยกเว้นว่า logit นั้นอยู่ห่างจากขอบเขตเล็กน้อยเมื่อพวกเขา 'เลี้ยวมุม' ตามที่ @ vux ระบุไว้ (โปรดทราบว่าในการรับ logit และ probit เพื่อจัดตำแหน่งอย่างเหมาะสมของ logit จะต้องเท่าของค่าความชันที่สอดคล้องกันสำหรับ probit นอกจากนี้ฉันสามารถเลื่อน cloglog ไปเล็กน้อยเพื่อให้พวกเขาอยู่ด้านบน ของกันและกันมากขึ้น แต่ฉันทิ้งมันไว้ด้านข้างเพื่อให้ร่างอ่านง่ายขึ้น) สังเกตว่าการอุดตันนั้นไม่สมดุลในขณะที่คนอื่นไม่ได้; มันเริ่มดึงออกมาจาก 0 ก่อนหน้านี้ แต่ช้ากว่าและเข้าใกล้ 1 แล้วหมุนอย่างรวดเร็ว β11.7

อีกสองสิ่งที่สามารถพูดได้เกี่ยวกับฟังก์ชั่นการเชื่อมโยง ก่อนพิจารณาฟังก์ชั่นเอกลักษณ์ ( ) เป็นฟังก์ชั่นการเชื่อมโยงช่วยให้เราเข้าใจรูปแบบเชิงเส้นมาตรฐานเป็นกรณีพิเศษของรูปแบบเชิงเส้นทั่วไป (นั่นคือการกระจายการตอบสนองเป็นปกติและการเชื่อมโยง เป็นฟังก์ชันตัวตน) สิ่งสำคัญคือต้องตระหนักว่าการเปลี่ยนแปลงใด ๆ ที่ลิงค์อินสแตนซ์ของอินสแตนซ์ถูกนำไปใช้อย่างถูกต้องกับพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง (นั่นคือ ) ไม่ใช่ข้อมูลการตอบสนองที่แท้จริงg(η)=ημ. ในที่สุดเพราะในทางปฏิบัติเราไม่เคยมีพารามิเตอร์พื้นฐานที่จะแปลงในการอภิปรายของโมเดลเหล่านี้บ่อยครั้งที่สิ่งที่ถือว่าเป็นลิงค์จริงถูกทิ้งไว้โดยปริยายและแบบจำลองนั้นแทนด้วยฟังก์ชันผกผันของลิงก์ที่ใช้กับองค์ประกอบโครงสร้างแทน . นั่นคือ: ตัวอย่างเช่นการถดถอยโลจิสติกมักจะแสดง: แทน:

μ=g1(β0+β1X)
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ln(π(Y)1π(Y))=β0+β1X

สำหรับภาพรวมของโมเดลเชิงเส้นทั่วไปที่รวดเร็วและชัดเจน แต่ดูได้จากบทที่ 10 ของFitzmaurice, Laird, & Ware (2004) , (ซึ่งฉันเอนตัวไปบางส่วนของคำตอบนี้ถึงแม้ว่านี่จะเป็นการปรับตัวของฉันเอง - และอื่น ๆ - เนื้อหาความผิดพลาดใด ๆ จะเป็นของฉันเอง) สำหรับวิธีการติดตั้งรุ่นเหล่านี้ใน R ให้ตรวจสอบเอกสารสำหรับฟังก์ชั่น? glmในแพ็คเกจพื้นฐาน

(เพิ่มบันทึกย่อสุดท้ายในภายหลัง :)ฉันได้ยินบางครั้งผู้คนพูดว่าคุณไม่ควรใช้ probit เพราะไม่สามารถตีความได้ สิ่งนี้ไม่เป็นความจริงแม้ว่าการตีความของ betas จะไม่เกิดขึ้นจริง ด้วยการถดถอยโลจิสติกการเปลี่ยนแปลงหนึ่งหน่วยในจะสัมพันธ์กับการเปลี่ยนแปลงในอัตราต่อรองของ 'ความสำเร็จ' (หรืออีกทางหนึ่งคือการเปลี่ยนแปลงของอัตราต่อรอง) ทั้งหมดนี้เท่ากัน ด้วย probit นี้จะมีการเปลี่ยนแปลงของ 's (ลองนึกถึงการสังเกตสองชุดในชุดข้อมูลที่มีคะแนน 1 และ 2) หากต้องการแปลงสิ่งเหล่านี้ให้เป็นความน่าจะเป็นที่คาดการณ์คุณสามารถส่งผ่านความน่าจะเป็นของCDFปกติβ 1 exp ( β 1 ) β 1X1β1exp(β1)β1 zzหรือค้นหาบน -table z

(+1 ถึงทั้ง @vinux และ @Elvis ที่นี่ฉันพยายามเสนอกรอบที่กว้างขึ้นซึ่งจะคิดเกี่ยวกับสิ่งเหล่านี้แล้วใช้มันเพื่อระบุตัวเลือกระหว่าง logit และ probit)


79
ขอบคุณเพื่อน. ฉันดีใจที่มันเข้ากันได้ดี นี่เป็นตัวอย่างที่ดีของวิธีที่คุณสามารถเรียนรู้สิ่งต่าง ๆ ในประวัติส่วนตัวโดยการตอบคำถามเช่นเดียวกับการถามและอ่านคำตอบของผู้อื่น: ฉันรู้ข้อมูลนี้มาก่อนแล้ว แต่ไม่ค่อยดีพอที่ฉันจะเขียนมันออกมาได้ ดังนั้นฉันจึงใช้เวลาอ่านตำราเก่าของฉันเพื่อหาวิธีจัดระเบียบวัสดุและนำมาใช้อย่างชัดเจน & ในกระบวนการเสริมความคิดเหล่านี้ให้กับตัวเอง
gung

6
@ gung ขอบคุณสำหรับคำอธิบายนี้เป็นหนึ่งในคำอธิบายที่ชัดเจนที่สุดของ GLMs โดยทั่วไปที่ฉันได้เจอ
fmark

@whuber "เมื่อตัวแปรตอบกลับไม่ได้รับการแจกจ่าย (ตัวอย่างเช่นถ้าตัวแปรตอบกลับของคุณเป็นไบนารี) วิธีการนี้ [มาตรฐาน OLS] อาจไม่ถูกต้องอีกต่อไป" ฉันขอโทษที่รบกวนคุณ (อีกครั้ง!) กับสิ่งนี้ แต่ฉันคิดว่าบิตนี้น่าสับสน ฉันเข้าใจว่าไม่มีสมมติฐานการกระจายแบบไม่มีเงื่อนไขในตัวแปรตามใน OLS คำพูดนี้หมายความว่าหมายความว่าเนื่องจากคำตอบนั้นไม่ธรรมดา (เช่นตัวแปรไบนารี) ที่การแจกแจงแบบมีเงื่อนไขให้ (และด้วยเหตุนี้การกระจายตัวของเศษเหลือ) จึงไม่สามารถเข้าสู่ภาวะปกติได้? X
landroni

7
@landroni คุณอาจต้องการถามคำถามใหม่สำหรับสิ่งนี้ ในระยะสั้นหากการตอบสนองของคุณเป็นแบบไบนารีการแจกแจงแบบมีเงื่อนไขของ Y ที่ให้ X = xi ไม่สามารถเข้าสู่ภาวะปกติได้ มันจะเป็นแบบทวินามเสมอ การกระจายตัวของวัตถุดิบที่เหลือจะไม่เข้าเกณฑ์ปกติ พวกเขาจะเป็น pi & (1-pi) เสมอ กระจายการสุ่มตัวอย่างของค่าเฉลี่ยเงื่อนไขของ Y ให้ X = Xi (เช่น PI) จะเข้าใกล้ภาวะปกติแม้ว่า
gung

2
ฉันแบ่งปันข้อกังวลของ Landroni: หลังจากทั้งหมดผลการกระจายตามปกติไม่ใช่การแจกแจงแบบปกติและผลลัพธ์ที่ไม่กระจายแบบปกติอาจมีการแจกแจงแบบปกติ ปัญหาที่เกิดขึ้นกับผลลัพธ์ดูเหมือนจะน้อยลงเกี่ยวกับการกระจายของมันต่อ seมากกว่าช่วงของมัน
Alexis

47

นอกจากคำตอบของ vinux ซึ่งบอกสิ่งที่สำคัญที่สุดแล้ว:

  • สัมประสิทธิ์ในการถดถอยโลจิทมีการตีความตามธรรมชาติในรูปของอัตราส่วนอัตราต่อรองβ

  • การถดถอยแบบน่าจะเป็นแบบธรรมชาติเมื่อคุณคิดว่าผลลัพธ์ไบนารีของคุณขึ้นอยู่กับตัวแปร Gaussian ที่ซ่อนอยู่ [eq 1] ด้วยในลักษณะที่กำหนด:ว่าเมื่อ0Z=Xβ+ϵ ϵN(0,1)Y=1Z>0

  • โดยทั่วไปและการถดถอยที่เป็นไปได้โดยธรรมชาติและเป็นธรรมชาติมากขึ้นถ้าคุณคิดว่าผลลัพธ์นั้นเป็นอย่างแน่นอนเมื่อเกินขีด จำกัดโดยที่2) มันง่ายที่จะเห็นว่าสิ่งนี้สามารถลดลงได้ในกรณีดังกล่าว: เพียงแค่เป็น ; มันง่ายที่จะตรวจสอบสมการนั้น 1] ยังคงอยู่ (ช่วยลดค่าสัมประสิทธิ์และแปลการสกัดกั้น) แบบจำลองเหล่านี้ได้รับการปกป้องเช่นในบริบททางการแพทย์โดยที่จะเป็นตัวแปรต่อเนื่องที่ไม่ได้สังเกตและเช่นโรคที่ปรากฏเมื่อ1Z0=Xβ0+ϵ0cϵN(0,σ2)Z0Z=1σ(Z0c)Z0YZ0 เกิน "เกณฑ์พยาธิวิทยา" บางอย่าง

ทั้งสอง logit และ probit รุ่นมีเพียงรุ่น "แบบจำลองทั้งหมดผิดบางอันมีประโยชน์" ดังที่ Box เคยกล่าวไว้! ทั้งสองรุ่นจะช่วยให้คุณตรวจสอบการมีอยู่ของเอฟเฟกต์ในผลลัพธ์ ; ยกเว้นในกรณีพิเศษบางอย่างไม่มีใครในพวกเขาจะ "จริงจริง" และการตีความของพวกเขาควรจะทำด้วยความระมัดระวังYXY


17
นอกจากนี้ยังเป็นที่น่าสังเกตว่าการใช้ probit กับ logit model นั้นได้รับอิทธิพลอย่างมากจากธรรมเนียมปฏิบัติทางวินัย ยกตัวอย่างเช่นนักเศรษฐศาสตร์ดูเหมือนจะคุ้นเคยกับการวิเคราะห์ทางการเงินมากกว่าในขณะที่นักวิจัยใน psychometrics พึ่งพาโมเดล logit เป็นส่วนใหญ่
David

แบบจำลองที่อยู่เบื้องหลังการพลิกเหรียญคืออะไร
skan

32

เกี่ยวกับคำสั่งของคุณ

ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยโลจิสติกส์เมื่อใดและเมื่อใดควรใช้ probit

มีคำตอบมากมายที่นี่ที่นำสิ่งที่ต้องพิจารณาเมื่อเลือกระหว่างทั้งสอง แต่มีการพิจารณาที่สำคัญอย่างหนึ่งที่ยังไม่ได้ระบุ: เมื่อความสนใจของคุณคือการดูความสัมพันธ์ภายในคลัสเตอร์ในข้อมูลไบนารีโดยใช้ลักษณะพิเศษแบบผสม แบบจำลอง probit มีเหตุผลทางทฤษฎีสำหรับการเลือกแบบจำลอง probit แน่นอนว่านี่คือเหตุผลที่ไม่มีเหตุผลเบื้องต้นในการเลือกโมเดลโลจิสติก (เช่นถ้าคุณกำลังจำลองสถานการณ์และรู้ว่ามันเป็นโมเดลจริง)

ครั้งแรกเพื่อดูว่าทำไมนี่คือจริงครั้งแรกทราบว่าทั้งสองรุ่นสามารถดูเป็นแบบจำลองการถดถอยอย่างต่อเนื่องเกณฑ์ จากตัวอย่างให้พิจารณารูปแบบเอฟเฟกต์แบบผสมเชิงเส้นอย่างง่ายสำหรับการสังเกตภายในคลัสเตอร์ :ij

yij=μ+ηj+εij

โดยที่คือเอฟเฟ็กต์แบบสุ่มและเป็นคำที่ผิดพลาด จากนั้นแบบจำลองการถดถอยทั้งแบบโลจิสติกและโปรบิทจะถูกสร้างขึ้นอย่างเท่าเทียมกันซึ่งถูกสร้างขึ้นจากโมเดลนี้และการกำหนดค่าใหม่ที่ 0:ηjN(0,σ2)jεij

yij={1if   yij00if   yij<0

หากคำว่ารับการเผยแพร่ตามปกติคุณจะมีการถดถอยแบบโปรบิตและหากมีการกระจายแบบโลจิสติกคุณจะมีรูปแบบการถดถอยแบบโลจิสติก เนื่องจากไม่มีการระบุสเกลข้อผิดพลาดส่วนที่เหลือจะถูกระบุเป็นมาตรฐานปกติและมาตรฐานโลจิสติกตามลำดับεij

เพียร์สัน (1900)แสดงให้เห็นว่าว่าถ้าข้อมูลปกติหลายตัวแปรที่ถูกสร้างขึ้นและ thresholded จะเป็นเด็ดขาดความสัมพันธ์ระหว่างตัวแปรพื้นฐานก็ยังคงระบุสถิติ - ความสัมพันธ์เหล่านี้จะถูกเรียกว่าความสัมพันธ์ polychoricและเฉพาะกรณีไบนารีที่พวกเขาจะเรียกว่าความสัมพันธ์ tetrachoric นี่หมายความว่าในโมเดล probit สัมประสิทธิ์สหสัมพันธ์อินทราเน็ตของตัวแปรพื้นฐานที่แจกแจงปกติ:

ICC=σ^2σ^2+1

มีการระบุซึ่งหมายความว่าในกรณีที่คุณ probit อย่างเต็มที่สามารถอธิบายลักษณะการกระจายร่วมกันของตัวแปรแฝงพื้นฐาน

ในตัวแบบโลจิสติกส์ยังมีการระบุความแปรปรวนแบบสุ่มในรูปแบบโลจิสติกส์ แต่มันก็ไม่ได้ระบุลักษณะโครงสร้างการพึ่งพา (และการกระจายข้อต่อ) เนื่องจากมันเป็นส่วนผสมระหว่างตัวแปรปกติและโลจิสติกแบบสุ่มที่ไม่มี คุณสมบัติที่ระบุอย่างครบถ้วนโดยค่าเฉลี่ยและเมทริกซ์ความแปรปรวนร่วม การสังเกตสมมติฐานที่อิงพารามิเตอร์นี้แปลก ๆ สำหรับตัวแปรแฝงที่แฝงอยู่ทำให้การตีความผลแบบสุ่มในโมเดลโลจิสติกชัดเจนน้อยกว่าที่จะตีความโดยทั่วไป


6
มีสถานการณ์อื่น ๆ ที่ใครจะชอบ probit เช่นกัน แบบจำลองการเลือกทางเศรษฐมิติ (เช่น Heckman) ได้รับการพิสูจน์โดยใช้แบบจำลอง probit เท่านั้น ฉันไม่ค่อยแน่ใจในเรื่องนี้ แต่ฉันยังเชื่อว่าแบบจำลอง SEM บางตัวที่ตัวแปรเลขฐานสองอยู่ภายนอกยังใช้ตัวแบบโปรบิตเนื่องจากสมมติฐานของกฎเกณฑ์หลายตัวแปรที่จำเป็นสำหรับการประเมินความเป็นไปได้สูงสุด
Andy W

1
@AndyW คุณถูกต้องเกี่ยวกับไบนารี SEM - และที่เกี่ยวข้องอย่างใกล้ชิดกับจุดที่ฉันทำที่นี่ - การประเมิน (และการตีความที่ตามมา) มีการสนับสนุนจากข้อเท็จจริงที่ว่ามีการระบุความสัมพันธ์พื้นฐานและลักษณะการกระจายร่วมอย่างเต็มที่ .
แมโคร

29

จุดสำคัญที่ยังไม่ได้รับการตอบในคำตอบก่อนหน้า (ยอดเยี่ยม) คือขั้นตอนการประมาณค่าจริง Multitomial logit model มี PDF ที่ง่ายต่อการรวมเข้าด้วยกันนำไปสู่การแสดงออกในรูปแบบปิดของความน่าจะเป็นทางเลือก ฟังก์ชั่นความหนาแน่นของการแจกแจงแบบปกตินั้นไม่ได้ถูกรวมเข้าด้วยกันดังนั้นโมเดล Probit จึงจำเป็นต้องมีการจำลอง ดังนั้นในขณะที่ทั้งสองโมเดลเป็นนามธรรมของสถานการณ์โลกแห่งความเป็นจริง logit มักจะใช้กับปัญหาที่ใหญ่กว่าได้เร็วขึ้น (หลายทางเลือกหรือชุดข้อมูลขนาดใหญ่)

หากต้องการดูสิ่งนี้ให้ชัดเจนยิ่งขึ้นความน่าจะเป็นของผลลัพธ์เฉพาะที่เลือกคือฟังก์ชันของตัวแปรพยากรณ์และข้อกำหนดข้อผิดพลาด (ติดตามรถไฟ )xε

P=I[ε>βx]f(ε)dε
ที่เป็นฟังก์ชั่นตัวบ่งชี้ 1 ถ้าเลือกและศูนย์เป็นอย่างอื่น การประเมินอินทิกรัลนี้ขึ้นอยู่กับสมมติฐานของอย่างมาก ในโมเดล logit นี่คือฟังก์ชันโลจิสติกส์และการแจกแจงแบบปกติในโมเดล probit สำหรับโมเดล logit สิ่งนี้จะกลายเป็นIf(x)

P=ε=βxf(ε)dε=1F(βx)=11exp(βx)

ไม่มีรูปแบบที่สะดวกเช่นนี้สำหรับรุ่น Probit


4
นี่คือเหตุผลว่าทำไมฟังก์ชั่น multinomial logit ถูกใช้ในการประมาณปัญหาทางเลือกเชิงพื้นที่แม้ว่าปรากฏการณ์ที่เกิดขึ้นจริงจะเป็นแบบจำลองที่ดีกว่าโดย probit
fmark

คุณจะรวมองค์ประกอบเชิงพื้นที่เข้ากับโมเดล DC อย่างไร ฉันสนใจมาก
gregmacfarlane

2
แต่ในสถานการณ์ที่เลือก probit มีความยืดหยุ่นมากขึ้นดังนั้นมัวร์จึงใช้ในวันนี้! พหุนามพหุนามหมายถึงข้อสันนิษฐานของความไม่เกี่ยวข้องของทางเลือกที่ไม่เกี่ยวข้องซึ่งไม่ได้เป็นเหตุผลเชิงประจักษ์เสมอไป
kjetil b halvorsen

1
คุณพูดถูกว่า IIA นั้นไม่ยุติธรรมเสมอไปและคุณก็ถูกต้องด้วยโมเดล probit ตัวประมาณการที่ทันสมัยสามารถประมาณได้อย่างรวดเร็วพอสมควร แต่แบบจำลอง GEV แก้ปัญหา IIA และอาจแสดงโครงสร้างทางเลือกได้ดีขึ้นในบางสถานการณ์ ฉันยังไม่แน่ใจว่า probit นั้น "ใช้งานมากกว่านี้ในวันนี้" ในสาขาของฉัน (การสร้างแบบจำลองการขนส่ง) โมเดล Probit ยังคงแปลกใหม่
gregmacfarlane

13

สิ่งที่ฉันจะพูดในทางที่ไม่ถูกทำลายสิ่งที่ได้รับการกล่าวถึงป่านนี้ ฉันแค่ต้องการชี้ให้เห็นว่าโมเดล Probit ไม่ได้รับผลกระทบจากสมมติฐาน IIA (ความเป็นอิสระของทางเลือกที่ไม่เกี่ยวข้อง) และโมเดล Logit ทำ

เพื่อใช้เป็นตัวอย่างจากหนังสือยอดเยี่ยมของ Train ถ้าฉันมี logit ที่ทำนายว่าฉันกำลังจะขึ้นรถบัสสีน้ำเงินหรือขับรถในรถของฉันการเพิ่มรถบัสสีแดงจะดึงจากทั้งรถและรถบัสสีฟ้าตามสัดส่วน แต่การใช้โมเดล probit คุณสามารถหลีกเลี่ยงปัญหานี้ได้ ในสาระสำคัญแทนการวาดจากทั้งสองอย่างเป็นสัดส่วนคุณอาจวาดเพิ่มเติมจากรถบัสสีฟ้าเนื่องจากพวกเขาจะเข้ามาใกล้ทดแทน

การเสียสละที่คุณทำคือไม่มีวิธีแก้ปัญหาแบบปิดตามที่กล่าวไว้ข้างต้น Probit มีแนวโน้มที่จะเป็น goto ของฉันเมื่อฉันกังวลเกี่ยวกับปัญหา IIA นั่นไม่ใช่การบอกว่าไม่มีวิธีใดที่จะหลีกเลี่ยง IIA ในกรอบ logit (การแจกแจงแบบ GEV) แต่ฉันมักจะดูรุ่นต่างๆเหล่านี้ว่าเป็นวิธีที่วนรอบปัญหา ด้วยความเร็วในการคำนวณที่คุณจะได้รับฉันจะบอกว่าไปกับ probit


1
คุณช่วยอธิบาย "ความเป็นอิสระของทางเลือกที่ไม่เกี่ยวข้อง" ได้ไหม?
skan

3
โปรดทราบว่ายังคงเป็นไปได้ที่จะประมาณโมเดลพหุนามแบบหลายภาคที่บังคับใช้ตัวแปรของสมมติฐาน IIA (เช่นในคำสั่ง mprobit ใน Stata) ในการดำเนินการกับ IIA ใน multinomial probit คุณต้องจำลองเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมของข้อผิดพลาดตัวแปรแฝงสำหรับแต่ละทางเลือกในตัวแปรตอบกลับ
Kenji

8

หนึ่งในความแตกต่างที่รู้จักกันดีที่สุดระหว่าง logit และ probit คือการแจกแจงการถดถอย (ในทางทฤษฎี): ปกติสำหรับ probit, logistic สำหรับ logit (โปรดดู: Koop G. บทนำสู่เศรษฐมิติชิเชสเตอร์, Wiley: 2008: 280)


2
แต่เราจะทราบได้อย่างไรว่าข้อมูลของเราควรมีการแจกแจงแบบปกติทฤษฏีหรือลอจิสติกเช่นเมื่อฉันพลิกเหรียญ
skan

8

ฉันเสนอคำตอบที่เป็นประโยชน์สำหรับคำถามซึ่งมุ่งเน้นที่ "เมื่อใดที่จะใช้การถดถอยโลจิสติกและเมื่อใช้ probit" โดยไม่ได้รับรายละเอียดทางสถิติ แต่มุ่งเน้นไปที่การตัดสินใจตามสถิติ คำตอบนั้นขึ้นอยู่กับสองประเด็นหลัก: คุณมีวินัยหรือไม่และคุณสนใจเพียงแค่รูปแบบที่เหมาะกับข้อมูลของคุณมากขึ้นหรือไม่

ความแตกต่างพื้นฐาน

ทั้งแบบจำลอง logit และ probit ให้แบบจำลองทางสถิติที่ให้ความน่าจะเป็นที่ตัวแปรตอบสนองขึ้นอยู่กับจะเป็น 0 หรือ 1 พวกมันเหมือนกันมากและมักให้ผลลัพธ์ที่เหมือนกัน แต่ในทางปฏิบัติ ต่าง

การลงโทษทางวินัย

โดยทั่วไปนักวิชาการบางสาขาชอบมากกว่าหนึ่งสาขา หากคุณกำลังจะตีพิมพ์หรือนำเสนอผลงานของคุณต่อวินัยทางการศึกษาด้วยการตั้งค่าแบบดั้งเดิมที่เฉพาะเจาะจงแล้วให้กำหนดที่คุณเลือกเพื่อให้การค้นพบของคุณจะเป็นที่ยอมรับได้ง่ายขึ้น ตัวอย่างเช่น (จากที่ปรึกษาวิธีการ )

Logit - หรือที่เรียกว่าการถดถอยโลจิสติกส์เป็นที่นิยมมากในวิทยาศาสตร์สุขภาพเช่นระบาดวิทยาส่วนหนึ่งเป็นเพราะค่าสัมประสิทธิ์สามารถตีความได้ในแง่ของอัตราส่วนอัตราต่อรอง แบบจำลองของ Probit สามารถนำมาใช้เพื่ออธิบายความแปรปรวนข้อผิดพลาดที่ไม่คงที่ในการตั้งค่าทางเศรษฐมิติที่ก้าวหน้ากว่า

ประเด็นก็คือความแตกต่างของผลลัพธ์นั้นเล็กน้อยดังนั้นความสามารถสำหรับผู้ชมทั่วไปของคุณในการทำความเข้าใจผลลัพธ์ของคุณนั้นมีมากกว่าความแตกต่างเล็กน้อยระหว่างสองแนวทาง

หากสิ่งที่คุณสนใจดีกว่า ...

หากงานวิจัยของคุณอยู่ในระเบียบวินัยที่ไม่ต้องการหนึ่งหรืออื่น ๆ แล้วการศึกษาของฉันคำถามนี้ (ซึ่งจะดีกว่า logit หรือ probit) ได้นำฉันไปสรุปได้ว่ามันเป็นเรื่องปกติดีกว่าการใช้probitเพราะมันเกือบจะเสมอ ให้ข้อมูลสถิติที่มีค่าเท่ากันหรือเหนือกว่าของโมเดล logit ข้อยกเว้นที่น่าสังเกตมากที่สุดเมื่อตัวแบบ logit ให้แบบที่ดีกว่าคือในกรณีของ "ตัวแปรอิสระมาก" (ซึ่งฉันอธิบายด้านล่าง)

ข้อสรุปของฉันขึ้นอยู่เกือบทั้งหมด (หลังจากค้นหาแหล่งข้อมูลอื่น ๆ อีกมากมาย) บน Hahn, ED & Soyer, R. , 2005 โมเดล Probit และ logit: ความแตกต่างในอาณาจักรหลายตัวแปร จำหน่ายที่: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf นี่คือบทสรุปของฉันของข้อสรุปการตัดสินใจในทางปฏิบัติจากบทความนี้เกี่ยวกับว่า logit กับแบบจำลองหลายตัวแปรแบบ probit ให้ข้อมูลที่ดีขึ้นหรือไม่ (ข้อสรุปเหล่านี้ใช้กับแบบจำลอง univariate ด้วย

  • ในสถานการณ์ส่วนใหญ่โมเดล logit และ probit จะพอดีกับข้อมูลอย่างเท่าเทียมกันโดยมีข้อยกเว้นสองข้อต่อไปนี้

  • Logit แน่นอนที่ดีขึ้นในกรณีของ "ตัวแปรอิสระมากว่า" เหล่านี้เป็นตัวแปรอิสระที่มีค่าขนาดใหญ่หรือขนาดเล็กโดยเฉพาะอย่างยิ่งมักจะตรวจสอบว่าตัวแปรตามคือ 0 หรือ 1, แทนที่ผลกระทบของตัวแปรอื่น ๆ ส่วนใหญ่ Hahn และ Soyer ให้นิยามอย่างเป็นทางการดังนี้ (หน้า 4):

ระดับตัวแปรอิสระที่รุนแรงนั้นเกี่ยวข้องกับความไม่แน่นอนของเหตุการณ์สามเหตุการณ์ ครั้งแรกระดับตัวแปรอิสระที่รุนแรงเกิดขึ้นที่มากหรือต่ำสุดของตัวแปรอิสระ ตัวอย่างเช่นสมมติว่าตัวแปรอิสระ x ต้องใช้กับค่า 1, 2 และ 3.2 ระดับตัวแปรอิสระที่รุนแรงจะเกี่ยวข้องกับค่าที่ x = 3.2 (หรือ x = 1) ประการที่สองสัดส่วนที่เป็นกอบเป็นกำ (เช่น 60%) ของจำนวน n ทั้งหมดต้องอยู่ในระดับนี้ ประการที่สามความน่าจะเป็นที่จะประสบความสำเร็จในระดับนี้ควรสูงมาก (เช่นมากกว่า 99%)

  • Probit จะดีกว่าในกรณีของ "โมเดลเอฟเฟกต์แบบสุ่ม" ที่มีขนาดตัวอย่างปานกลางหรือขนาดใหญ่ (ซึ่งเท่ากับ logit สำหรับขนาดตัวอย่างขนาดเล็ก) สำหรับโมเดลเอฟเฟกต์คงที่ probit และ logit ก็ดีพอ ๆ กัน ฉันไม่เข้าใจว่า Hahn และ Soyer หมายถึงอะไรโดย "แบบจำลองเอฟเฟกต์แบบสุ่ม" ในบทความของพวกเขา แม้ว่าความหมายมากที่นำเสนอ ( เป็นคำถามในการแลกเปลี่ยนชุดนี้ ) ความหมายของคำว่าในความเป็นจริงที่ไม่ชัดเจนและไม่สอดคล้องกัน แต่เนื่องจาก logit ไม่เคยเหนือกว่า probit ในเรื่องนี้ประเด็นก็คือ moot โดยการเลือก probit

ขึ้นอยู่กับ Hahn และ Soyer ของการวิเคราะห์ข้อสรุปของฉันคือการมักจะใช้รุ่น probit ยกเว้นในกรณีที่ตัวแปรอิสระมากซึ่งในกรณี logit ควรจะเลือก ตัวแปรอิสระที่รุนแรงนั้นไม่ใช่สิ่งที่พบเห็นได้ทั่วไปและควรจดจำได้ง่าย ด้วยกฎง่ายๆนี้มันไม่สำคัญว่าแบบจำลองจะเป็นแบบจำลองลักษณะพิเศษแบบสุ่มหรือไม่ ในกรณีที่โมเดลเป็นโมเดลเอฟเฟกต์แบบสุ่ม (ที่ต้องการ probit) แต่มีตัวแปรอิสระมาก (ที่ต้องการ logit) แม้ว่า Hahn และ Soyer ไม่ได้แสดงความคิดเห็นเกี่ยวกับเรื่องนี้ความประทับใจของฉันจากบทความของพวกเขาคือผลกระทบของ ตัวแปรอิสระที่รุนแรงที่สุดนั้นมีความสำคัญมากกว่าและดังนั้นจึงควรเลือกใช้ logit


5

ด้านล่างนี้ฉันอธิบายตัวประมาณที่สร้างรังนกและบันทึกเป็นกรณีพิเศษและที่หนึ่งสามารถทดสอบที่เหมาะสมกว่า

ทั้ง probit และ logit สามารถซ้อนในแบบจำลองตัวแปรแฝง

yi=xiβ+εi,εiG(),

ที่องค์ประกอบที่สังเกตคือ

yi=1(yi>0).

หากคุณเลือกเป็น cdf ปกติคุณจะได้รับ probit ถ้าคุณเลือก cistic โลจิสติกคุณจะได้ logit ทั้งสองวิธีฟังก์ชันความน่าจะเป็นจะใช้แบบฟอร์มG

(β)=yilogG(xiβ)+(1yi)log[1G(xiβ)].

อย่างไรก็ตามหากคุณกังวลว่าข้อสันนิษฐานใดที่คุณทำขึ้นคุณสามารถใช้ตัวประมาณ Klein & Spady (1993; Econometrica) เครื่องมือประมาณนี้ช่วยให้คุณมีความยืดหยุ่นอย่างเต็มที่ในข้อมูลจำเพาะของ cdf,และจากนั้นคุณสามารถทดสอบความถูกต้องของความปกติหรือลอจิสติก (?)G

ใน Klein & Spady ฟังก์ชันเกณฑ์จะแทน

(β)=yilogG^(xiβ)+(1yi)log[1G^(xiβ)],

โดยที่เป็นการประมาณค่าพารามิเตอร์ของ cdf ตัวอย่างเช่นประมาณโดยใช้ตัวประมาณการถดถอยเคอร์เนล Nadaraya-WatsonG^()

G^(z)=i=1NyiK(zxiβh)j=1NK(zxjβh),

โดยที่เรียกว่า "เคอร์เนล" (โดยทั่วไปแล้วจะเป็นแบบ Gaussian cdf หรือสามเหลี่ยมเคอร์เนลที่ถูกเลือก) และคือ "แบนด์วิดท์" มีค่าปลั๊กอินให้เลือกสำหรับหลัง แต่มันมีความซับซ้อนมากขึ้นและสามารถทำการปรับให้เหมาะสมนอกมีความซับซ้อนมากขึ้นหากการเปลี่ยนแปลงในทุกขั้นตอน (ยอดคงเหลือการแลกเปลี่ยนความแปรปรวนที่เรียกว่าอคติ )ชั่วโมงβ เอชเอชKhβhh

การปรับปรุง: Ichimura ได้แนะนำว่าเคอร์เนลถดถอย , ควรปล่อยออก TH สังเกต; มิฉะนั้นตัวเลือกของอาจมีความซับซ้อนโดยปัญหากับตัวอย่างที่มากเกินไป (ความแปรปรวนสูงเกินไป)ฉันชั่วโมงG^ih

พูดคุย:หนึ่งข้อเสียเปรียบกับตัวประมาณ Klein-Spady ก็คือมันอาจติดอยู่ในท้องถิ่นขนาดเล็ก นี่เป็นเพราะ cdf ปรับให้เหมาะกับพารามิเตอร์ที่กำหนด ฉันรู้จักนักเรียนหลายคนที่พยายามนำมาใช้และมีปัญหาในการบรรลุการบรรจบกันและหลีกเลี่ยงปัญหาเชิงตัวเลข ดังนั้นจึงไม่ใช่ตัวประมาณที่ใช้งานได้ง่าย นอกจากนี้อนุมานในการประมาณค่าพารามิเตอร์มีความซับซ้อนโดยสเปคกึ่งพาราสำหรับGβ GGβG


5

พวกมันคล้ายกันมาก

ในทั้งสองรุ่นความน่าจะเป็นที่กำหนดสามารถมองได้ว่าเป็นความน่าจะเป็นที่ตัวแปรสุ่มซ่อน (ที่มีการแจกแจงคงที่แน่นอน) ต่ำกว่าขีด จำกัด ที่แน่นอนซึ่งขึ้นอยู่เชิงเส้นบน :X S XY=1XSX

P(Y=1|X)=P(S<βX)

หรือเทียบเท่า:

P(Y=1|X)=P(βXS>0)

จากนั้นเป็นเรื่องของสิ่งที่คุณเลือกสำหรับการกระจายของ :S

  • ในการถดถอยโลจิสติกมีการกระจายโลจิสติกS
  • ในการถดถอยแบบ probitมีการแจกแจงแบบปกติS

ความแปรปรวนนั้นไม่สำคัญเนื่องจากจะได้รับการชดเชยโดยอัตโนมัติโดยการคูณด้วยค่าคงที่ ค่าเฉลี่ยนั้นไม่สำคัญเช่นกันหากคุณใช้การสกัดกั้นβ

สิ่งนี้สามารถมองเห็นได้ว่าเป็นผลกระทบเกณฑ์ ผลลัพธ์ที่มองไม่เห็นเป็นฟังก์ชันเชิงเส้นของมีสัญญาณรบกวนเพิ่มเข้ามาเช่นเดียวกับการถดถอยเชิงเส้นและเราได้ผลลัพธ์ 0/1 โดยกล่าวว่า:X - SE=βXSXS

  • เมื่อผลลัพธ์คือY = 1E>0Y=1
  • เมื่อผลลัพธ์คือY = 0E<0Y=0

ความแตกต่างระหว่างโลจิสติกและโปรบิทอยู่ที่ความแตกต่างระหว่างโลจิสติกและการแจกแจงแบบปกติ มีไม่มาก เมื่อปรับแล้วจะมีลักษณะดังนี้: ป้อนคำอธิบายรูปภาพที่นี่

โลจิสติกมีหางที่หนักกว่า สิ่งนี้อาจส่งผลต่อความน่าจะเป็นของเหตุการณ์ขนาดเล็ก (<1%) หรือสูง (> 99%) เล็กน้อย ในทางปฏิบัติแล้วความแตกต่างไม่ได้สังเกตเห็นได้ในสถานการณ์ส่วนใหญ่: logit และ probit ทำนายสิ่งเดียวกัน ดูhttp://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"ปรัชญา" การถดถอยโลจิสติกสามารถพิสูจน์ได้โดยเทียบเท่ากับหลักการของเอนโทรปีสูงสุด: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy โมเดล /

ในแง่ของการคำนวณ: ลอจิสติกนั้นง่ายกว่าเนื่องจากการแจกแจงสะสมของการกระจายโลจิสติกมีสูตรปิดซึ่งแตกต่างจากการแจกแจงแบบปกติ แต่การแจกแจงแบบปกติมีคุณสมบัติที่ดีเมื่อคุณไปที่หลายมิตินี่คือเหตุผลว่าทำไม probit จึงเป็นที่นิยมในกรณีขั้นสูง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.