LogitและProbit modelแตกต่างกันอย่างไร?
ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit
หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน
LogitและProbit modelแตกต่างกันอย่างไร?
ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยแบบลอจิสติกเมื่อใดและเมื่อใดควรใช้ Probit
หากมีวรรณกรรมใด ๆ ที่กำหนดโดยใช้Rก็จะเป็นประโยชน์เช่นกัน
คำตอบ:
พวกเขาส่วนใหญ่แตกต่างกันในฟังก์ชั่นลิงค์
ใน Logit:
ใน Probit: (PDF ปกติสะสม)
ในทางอื่นโลจิสติกมีหางที่แบนราบกว่าเล็กน้อย นั่นคือ probit curve ใกล้แกนเร็วกว่า logit curve
Logit ตีความได้ง่ายกว่า probit การถดถอยแบบลอจิสติกสามารถตีความได้ว่าเป็นการสร้างแบบจำลองอัตราต่อรอง (เช่นผู้ที่สูบบุหรี่> 25 มวนต่อวันมีแนวโน้มที่จะเสียชีวิต 6 ครั้งก่อนอายุ 65 ปี) โดยปกติคนเริ่มสร้างแบบจำลองด้วย logit คุณสามารถใช้ค่าความน่าจะเป็นของแต่ละรุ่นเพื่อตัดสินใจสำหรับ logit vs probit
แบบจำลองเชิงเส้นมาตรฐาน (เช่นแบบจำลองการถดถอยอย่างง่าย) สามารถคิดได้ว่ามี 'ส่วน' สองส่วน เหล่านี้จะถูกเรียกว่าองค์ประกอบโครงสร้างและองค์ประกอบแบบสุ่ม ตัวอย่างเช่น:
สองคำแรก (นั่นคือ ) องค์ประกอบโครงสร้างและ (ซึ่งบ่งบอกถึงข้อผิดพลาดที่กระจายตามปกติ) เป็นองค์ประกอบแบบสุ่ม เมื่อปกติแล้วตัวแปรตอบกลับจะไม่กระจาย (ตัวอย่างเช่นหากตัวแปรตอบกลับของคุณเป็นแบบไบนารี) วิธีการนี้อาจไม่ถูกต้องอีกต่อไป จำลองเชิงเส้นทั่วไป
β 0 + β 1 X ε g ( μ ) = β 0 + β 1 X β 0 + β 1 X g ( ) μ
ฟังก์ชั่นการเชื่อมโยงเป็นกุญแจสำคัญใน GLiMs: เนื่องจากการกระจายของตัวแปรการตอบสนองไม่ปกติมันเป็นสิ่งที่ช่วยให้เราเชื่อมต่อองค์ประกอบโครงสร้างกับการตอบสนอง - มัน 'ลิงค์' พวกเขา (ดังนั้นชื่อ) เป็นกุญแจสำคัญสำหรับคำถามของคุณเนื่องจาก logit และ probit เป็นลิงค์ (ตามที่ @vinux อธิบาย) และฟังก์ชั่นการเชื่อมโยงการทำความเข้าใจจะช่วยให้เราสามารถเลือกได้ว่าจะใช้เมื่อใด แม้ว่าจะมีฟังก์ชั่นลิงค์จำนวนมากที่สามารถยอมรับได้ แต่บ่อยครั้งที่มีฟังก์ชั่นพิเศษ โดยไม่ต้องการที่จะได้รับไกลเกินไปในวัชพืช (นี้จะได้รับทางเทคนิคมาก) ที่คาดการณ์เฉลี่ยจะไม่จำเป็นต้องทางคณิตศาสตร์เช่นเดียวกับการกระจายการตอบสนองของพารามิเตอร์ที่ตั้งที่ยอมรับ ;บีตา( 0 , 1 ) LN ( - LN ( 1 - μ ) ). ข้อได้เปรียบของสิ่งนี้ "คือมีสถิติที่เพียงพอเพียงเล็กน้อยสำหรับมีอยู่" ( German Rodriguez ) ลิงก์ canonical สำหรับข้อมูลการตอบกลับแบบไบนารี (โดยเฉพาะอย่างยิ่งการแจกแจงแบบทวินาม) คือ logit อย่างไรก็ตามมีฟังก์ชั่นมากมายที่สามารถแมปองค์ประกอบโครงสร้างลงในช่วงเวลาและเป็นที่ยอมรับได้ probit ยังได้รับความนิยม แต่ยังมีตัวเลือกอื่น ๆ ที่บางครั้งใช้ (เช่นบันทึกการใช้งานที่สมบูรณ์,มักเรียกว่า 'cloglog') ดังนั้นจึงมีฟังก์ชั่นลิงค์ที่เป็นไปได้มากมายและการเลือกฟังก์ชั่นลิงค์มีความสำคัญมาก ตัวเลือกควรทำตามการรวมกันของ:
หลังจากที่มีพื้นหลังแนวคิดเล็กน้อยที่จำเป็นในการเข้าใจความคิดเหล่านี้อย่างชัดเจนมากขึ้น (ยกโทษให้ฉัน) ฉันจะอธิบายวิธีการพิจารณาเหล่านี้สามารถใช้เพื่อเป็นแนวทางในการเลือกลิงก์ของคุณ (ให้ฉันทราบว่าฉันคิดว่าความคิดเห็นของ @ David ถูกต้องแม่นยำว่าทำไมจึงมีการเลือกลิงก์ที่แตกต่างกันในทางปฏิบัติ ) หากเริ่มต้นด้วยหากตัวแปรการตอบสนองของคุณคือผลลัพธ์ของการทดลองใช้ Bernoulli (นั่นคือหรือ ) ทวินามและสิ่งที่คุณกำลังจำลองคือความน่าจะเป็นที่การสังเกตเป็น (นั่นคือ ) เป็นผลให้ฟังก์ชันใด ๆ ที่แมปบรรทัดจำนวนจริงไปยังช่วงเวลาจะทำงาน.
จากมุมมองของทฤษฎีที่สำคัญของคุณหากคุณกำลังคิดว่าเพื่อนร่วมชาติของคุณเชื่อมต่อโดยตรงกับความน่าจะเป็นของความสำเร็จคุณมักจะเลือกการถดถอยโลจิสติกเพราะมันเป็นลิงก์แบบบัญญัติ อย่างไรก็ตามพิจารณาตัวอย่างต่อไปนี้: คุณถูกขอให้จำลองแบบhigh_Blood_Pressure
เป็นฟังก์ชันของ covariates ความดันโลหิตของตัวเองมีการกระจายตัวตามปกติในประชากร (ฉันไม่รู้จริง ๆ ว่า แต่ดูเหมือนว่ามีเหตุผลเบื้องต้น) อย่างไรก็ตามแพทย์แบ่งเป็นสองส่วนในระหว่างการศึกษา (นั่นคือพวกเขาบันทึก 'ความดันโลหิตสูง' หรือ 'ปกติ' เท่านั้น ) ในกรณีนี้ probit น่าจะดีกว่าการให้เหตุผลทางทฤษฎี นี่คือความหมาย @Elvis โดย "ผลลัพธ์ไบนารีของคุณขึ้นอยู่กับตัวแปร Gaussian ที่ซ่อนอยู่"สมมาตรหากคุณเชื่อว่าความน่าจะเป็นของความสำเร็จจะเพิ่มขึ้นอย่างช้าๆจากศูนย์ แต่จะลดลงอย่างรวดเร็วเมื่อใกล้ถึงจุดหนึ่งบล็อกการอุดตันจะถูกเรียกใช้เป็นต้น
สุดท้ายโปรดทราบว่ารูปแบบเชิงประจักษ์ของแบบจำลองกับข้อมูลนั้นไม่น่าจะช่วยในการเลือกลิงค์เว้นแต่ว่ารูปร่างของฟังก์ชั่นลิงก์ที่มีปัญหาจะแตกต่างกันไปอย่างมาก (ซึ่ง Logit และ probit ไม่ได้ทำ) ตัวอย่างเช่นพิจารณาการจำลองต่อไปนี้:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
แม้ว่าเรารู้ว่าข้อมูลถูกสร้างขึ้นโดยตัวแบบ probit และเรามีจุดข้อมูล 1,000 จุด แต่ตัวแบบของ probit นั้นจะให้ผลที่ดีกว่าพอดี 70% ของเวลาและยิ่งกว่านั้นเพียงแค่จำนวนเล็กน้อยเท่านั้น พิจารณาการทำซ้ำครั้งล่าสุด:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
เหตุผลก็คือฟังก์ชั่น logit และ probit นั้นให้ผลลัพธ์ที่คล้ายกันมากเมื่อได้รับอินพุตเดียวกัน
ฟังก์ชัน logit และ probit นั้นเหมือนกันทุกประการยกเว้นว่า logit นั้นอยู่ห่างจากขอบเขตเล็กน้อยเมื่อพวกเขา 'เลี้ยวมุม' ตามที่ @ vux ระบุไว้ (โปรดทราบว่าในการรับ logit และ probit เพื่อจัดตำแหน่งอย่างเหมาะสมของ logit จะต้องเท่าของค่าความชันที่สอดคล้องกันสำหรับ probit นอกจากนี้ฉันสามารถเลื่อน cloglog ไปเล็กน้อยเพื่อให้พวกเขาอยู่ด้านบน ของกันและกันมากขึ้น แต่ฉันทิ้งมันไว้ด้านข้างเพื่อให้ร่างอ่านง่ายขึ้น) สังเกตว่าการอุดตันนั้นไม่สมดุลในขณะที่คนอื่นไม่ได้; มันเริ่มดึงออกมาจาก 0 ก่อนหน้านี้ แต่ช้ากว่าและเข้าใกล้ 1 แล้วหมุนอย่างรวดเร็ว
อีกสองสิ่งที่สามารถพูดได้เกี่ยวกับฟังก์ชั่นการเชื่อมโยง ก่อนพิจารณาฟังก์ชั่นเอกลักษณ์ ( ) เป็นฟังก์ชั่นการเชื่อมโยงช่วยให้เราเข้าใจรูปแบบเชิงเส้นมาตรฐานเป็นกรณีพิเศษของรูปแบบเชิงเส้นทั่วไป (นั่นคือการกระจายการตอบสนองเป็นปกติและการเชื่อมโยง เป็นฟังก์ชันตัวตน) สิ่งสำคัญคือต้องตระหนักว่าการเปลี่ยนแปลงใด ๆ ที่ลิงค์อินสแตนซ์ของอินสแตนซ์ถูกนำไปใช้อย่างถูกต้องกับพารามิเตอร์ที่ควบคุมการกระจายการตอบสนอง (นั่นคือ ) ไม่ใช่ข้อมูลการตอบสนองที่แท้จริง. ในที่สุดเพราะในทางปฏิบัติเราไม่เคยมีพารามิเตอร์พื้นฐานที่จะแปลงในการอภิปรายของโมเดลเหล่านี้บ่อยครั้งที่สิ่งที่ถือว่าเป็นลิงค์จริงถูกทิ้งไว้โดยปริยายและแบบจำลองนั้นแทนด้วยฟังก์ชันผกผันของลิงก์ที่ใช้กับองค์ประกอบโครงสร้างแทน . นั่นคือ:
ตัวอย่างเช่นการถดถอยโลจิสติกมักจะแสดง:
แทน:
สำหรับภาพรวมของโมเดลเชิงเส้นทั่วไปที่รวดเร็วและชัดเจน แต่ดูได้จากบทที่ 10 ของFitzmaurice, Laird, & Ware (2004) , (ซึ่งฉันเอนตัวไปบางส่วนของคำตอบนี้ถึงแม้ว่านี่จะเป็นการปรับตัวของฉันเอง - และอื่น ๆ - เนื้อหาความผิดพลาดใด ๆ จะเป็นของฉันเอง) สำหรับวิธีการติดตั้งรุ่นเหล่านี้ใน R ให้ตรวจสอบเอกสารสำหรับฟังก์ชั่น? glmในแพ็คเกจพื้นฐาน
(เพิ่มบันทึกย่อสุดท้ายในภายหลัง :)ฉันได้ยินบางครั้งผู้คนพูดว่าคุณไม่ควรใช้ probit เพราะไม่สามารถตีความได้ สิ่งนี้ไม่เป็นความจริงแม้ว่าการตีความของ betas จะไม่เกิดขึ้นจริง ด้วยการถดถอยโลจิสติกการเปลี่ยนแปลงหนึ่งหน่วยในจะสัมพันธ์กับการเปลี่ยนแปลงในอัตราต่อรองของ 'ความสำเร็จ' (หรืออีกทางหนึ่งคือการเปลี่ยนแปลงของอัตราต่อรอง) ทั้งหมดนี้เท่ากัน ด้วย probit นี้จะมีการเปลี่ยนแปลงของ 's (ลองนึกถึงการสังเกตสองชุดในชุดข้อมูลที่มีคะแนน 1 และ 2) หากต้องการแปลงสิ่งเหล่านี้ให้เป็นความน่าจะเป็นที่คาดการณ์คุณสามารถส่งผ่านความน่าจะเป็นของCDFปกติβ 1 exp ( β 1 ) β 1หรือค้นหาบน -table
(+1 ถึงทั้ง @vinux และ @Elvis ที่นี่ฉันพยายามเสนอกรอบที่กว้างขึ้นซึ่งจะคิดเกี่ยวกับสิ่งเหล่านี้แล้วใช้มันเพื่อระบุตัวเลือกระหว่าง logit และ probit)
นอกจากคำตอบของ vinux ซึ่งบอกสิ่งที่สำคัญที่สุดแล้ว:
สัมประสิทธิ์ในการถดถอยโลจิทมีการตีความตามธรรมชาติในรูปของอัตราส่วนอัตราต่อรอง
การถดถอยแบบน่าจะเป็นแบบธรรมชาติเมื่อคุณคิดว่าผลลัพธ์ไบนารีของคุณขึ้นอยู่กับตัวแปร Gaussian ที่ซ่อนอยู่ [eq 1] ด้วยในลักษณะที่กำหนด:ว่าเมื่อ0
โดยทั่วไปและการถดถอยที่เป็นไปได้โดยธรรมชาติและเป็นธรรมชาติมากขึ้นถ้าคุณคิดว่าผลลัพธ์นั้นเป็นอย่างแน่นอนเมื่อเกินขีด จำกัดโดยที่2) มันง่ายที่จะเห็นว่าสิ่งนี้สามารถลดลงได้ในกรณีดังกล่าว: เพียงแค่เป็น ; มันง่ายที่จะตรวจสอบสมการนั้น 1] ยังคงอยู่ (ช่วยลดค่าสัมประสิทธิ์และแปลการสกัดกั้น) แบบจำลองเหล่านี้ได้รับการปกป้องเช่นในบริบททางการแพทย์โดยที่จะเป็นตัวแปรต่อเนื่องที่ไม่ได้สังเกตและเช่นโรคที่ปรากฏเมื่อ เกิน "เกณฑ์พยาธิวิทยา" บางอย่าง
ทั้งสอง logit และ probit รุ่นมีเพียงรุ่น "แบบจำลองทั้งหมดผิดบางอันมีประโยชน์" ดังที่ Box เคยกล่าวไว้! ทั้งสองรุ่นจะช่วยให้คุณตรวจสอบการมีอยู่ของเอฟเฟกต์ในผลลัพธ์ ; ยกเว้นในกรณีพิเศษบางอย่างไม่มีใครในพวกเขาจะ "จริงจริง" และการตีความของพวกเขาควรจะทำด้วยความระมัดระวังY
เกี่ยวกับคำสั่งของคุณ
ฉันสนใจที่นี่มากขึ้นในการรู้ว่าจะใช้การถดถอยโลจิสติกส์เมื่อใดและเมื่อใดควรใช้ probit
มีคำตอบมากมายที่นี่ที่นำสิ่งที่ต้องพิจารณาเมื่อเลือกระหว่างทั้งสอง แต่มีการพิจารณาที่สำคัญอย่างหนึ่งที่ยังไม่ได้ระบุ: เมื่อความสนใจของคุณคือการดูความสัมพันธ์ภายในคลัสเตอร์ในข้อมูลไบนารีโดยใช้ลักษณะพิเศษแบบผสม แบบจำลอง probit มีเหตุผลทางทฤษฎีสำหรับการเลือกแบบจำลอง probit แน่นอนว่านี่คือเหตุผลที่ไม่มีเหตุผลเบื้องต้นในการเลือกโมเดลโลจิสติก (เช่นถ้าคุณกำลังจำลองสถานการณ์และรู้ว่ามันเป็นโมเดลจริง)
ครั้งแรกเพื่อดูว่าทำไมนี่คือจริงครั้งแรกทราบว่าทั้งสองรุ่นสามารถดูเป็นแบบจำลองการถดถอยอย่างต่อเนื่องเกณฑ์ จากตัวอย่างให้พิจารณารูปแบบเอฟเฟกต์แบบผสมเชิงเส้นอย่างง่ายสำหรับการสังเกตภายในคลัสเตอร์ :
โดยที่คือเอฟเฟ็กต์แบบสุ่มและเป็นคำที่ผิดพลาด จากนั้นแบบจำลองการถดถอยทั้งแบบโลจิสติกและโปรบิทจะถูกสร้างขึ้นอย่างเท่าเทียมกันซึ่งถูกสร้างขึ้นจากโมเดลนี้และการกำหนดค่าใหม่ที่ 0:
หากคำว่ารับการเผยแพร่ตามปกติคุณจะมีการถดถอยแบบโปรบิตและหากมีการกระจายแบบโลจิสติกคุณจะมีรูปแบบการถดถอยแบบโลจิสติก เนื่องจากไม่มีการระบุสเกลข้อผิดพลาดส่วนที่เหลือจะถูกระบุเป็นมาตรฐานปกติและมาตรฐานโลจิสติกตามลำดับ
เพียร์สัน (1900)แสดงให้เห็นว่าว่าถ้าข้อมูลปกติหลายตัวแปรที่ถูกสร้างขึ้นและ thresholded จะเป็นเด็ดขาดความสัมพันธ์ระหว่างตัวแปรพื้นฐานก็ยังคงระบุสถิติ - ความสัมพันธ์เหล่านี้จะถูกเรียกว่าความสัมพันธ์ polychoricและเฉพาะกรณีไบนารีที่พวกเขาจะเรียกว่าความสัมพันธ์ tetrachoric นี่หมายความว่าในโมเดล probit สัมประสิทธิ์สหสัมพันธ์อินทราเน็ตของตัวแปรพื้นฐานที่แจกแจงปกติ:
มีการระบุซึ่งหมายความว่าในกรณีที่คุณ probit อย่างเต็มที่สามารถอธิบายลักษณะการกระจายร่วมกันของตัวแปรแฝงพื้นฐาน
ในตัวแบบโลจิสติกส์ยังมีการระบุความแปรปรวนแบบสุ่มในรูปแบบโลจิสติกส์ แต่มันก็ไม่ได้ระบุลักษณะโครงสร้างการพึ่งพา (และการกระจายข้อต่อ) เนื่องจากมันเป็นส่วนผสมระหว่างตัวแปรปกติและโลจิสติกแบบสุ่มที่ไม่มี คุณสมบัติที่ระบุอย่างครบถ้วนโดยค่าเฉลี่ยและเมทริกซ์ความแปรปรวนร่วม การสังเกตสมมติฐานที่อิงพารามิเตอร์นี้แปลก ๆ สำหรับตัวแปรแฝงที่แฝงอยู่ทำให้การตีความผลแบบสุ่มในโมเดลโลจิสติกชัดเจนน้อยกว่าที่จะตีความโดยทั่วไป
จุดสำคัญที่ยังไม่ได้รับการตอบในคำตอบก่อนหน้า (ยอดเยี่ยม) คือขั้นตอนการประมาณค่าจริง Multitomial logit model มี PDF ที่ง่ายต่อการรวมเข้าด้วยกันนำไปสู่การแสดงออกในรูปแบบปิดของความน่าจะเป็นทางเลือก ฟังก์ชั่นความหนาแน่นของการแจกแจงแบบปกตินั้นไม่ได้ถูกรวมเข้าด้วยกันดังนั้นโมเดล Probit จึงจำเป็นต้องมีการจำลอง ดังนั้นในขณะที่ทั้งสองโมเดลเป็นนามธรรมของสถานการณ์โลกแห่งความเป็นจริง logit มักจะใช้กับปัญหาที่ใหญ่กว่าได้เร็วขึ้น (หลายทางเลือกหรือชุดข้อมูลขนาดใหญ่)
หากต้องการดูสิ่งนี้ให้ชัดเจนยิ่งขึ้นความน่าจะเป็นของผลลัพธ์เฉพาะที่เลือกคือฟังก์ชันของตัวแปรพยากรณ์และข้อกำหนดข้อผิดพลาด (ติดตามรถไฟ )
ไม่มีรูปแบบที่สะดวกเช่นนี้สำหรับรุ่น Probit
สิ่งที่ฉันจะพูดในทางที่ไม่ถูกทำลายสิ่งที่ได้รับการกล่าวถึงป่านนี้ ฉันแค่ต้องการชี้ให้เห็นว่าโมเดล Probit ไม่ได้รับผลกระทบจากสมมติฐาน IIA (ความเป็นอิสระของทางเลือกที่ไม่เกี่ยวข้อง) และโมเดล Logit ทำ
เพื่อใช้เป็นตัวอย่างจากหนังสือยอดเยี่ยมของ Train ถ้าฉันมี logit ที่ทำนายว่าฉันกำลังจะขึ้นรถบัสสีน้ำเงินหรือขับรถในรถของฉันการเพิ่มรถบัสสีแดงจะดึงจากทั้งรถและรถบัสสีฟ้าตามสัดส่วน แต่การใช้โมเดล probit คุณสามารถหลีกเลี่ยงปัญหานี้ได้ ในสาระสำคัญแทนการวาดจากทั้งสองอย่างเป็นสัดส่วนคุณอาจวาดเพิ่มเติมจากรถบัสสีฟ้าเนื่องจากพวกเขาจะเข้ามาใกล้ทดแทน
การเสียสละที่คุณทำคือไม่มีวิธีแก้ปัญหาแบบปิดตามที่กล่าวไว้ข้างต้น Probit มีแนวโน้มที่จะเป็น goto ของฉันเมื่อฉันกังวลเกี่ยวกับปัญหา IIA นั่นไม่ใช่การบอกว่าไม่มีวิธีใดที่จะหลีกเลี่ยง IIA ในกรอบ logit (การแจกแจงแบบ GEV) แต่ฉันมักจะดูรุ่นต่างๆเหล่านี้ว่าเป็นวิธีที่วนรอบปัญหา ด้วยความเร็วในการคำนวณที่คุณจะได้รับฉันจะบอกว่าไปกับ probit
หนึ่งในความแตกต่างที่รู้จักกันดีที่สุดระหว่าง logit และ probit คือการแจกแจงการถดถอย (ในทางทฤษฎี): ปกติสำหรับ probit, logistic สำหรับ logit (โปรดดู: Koop G. บทนำสู่เศรษฐมิติชิเชสเตอร์, Wiley: 2008: 280)
ฉันเสนอคำตอบที่เป็นประโยชน์สำหรับคำถามซึ่งมุ่งเน้นที่ "เมื่อใดที่จะใช้การถดถอยโลจิสติกและเมื่อใช้ probit" โดยไม่ได้รับรายละเอียดทางสถิติ แต่มุ่งเน้นไปที่การตัดสินใจตามสถิติ คำตอบนั้นขึ้นอยู่กับสองประเด็นหลัก: คุณมีวินัยหรือไม่และคุณสนใจเพียงแค่รูปแบบที่เหมาะกับข้อมูลของคุณมากขึ้นหรือไม่
ความแตกต่างพื้นฐาน
ทั้งแบบจำลอง logit และ probit ให้แบบจำลองทางสถิติที่ให้ความน่าจะเป็นที่ตัวแปรตอบสนองขึ้นอยู่กับจะเป็น 0 หรือ 1 พวกมันเหมือนกันมากและมักให้ผลลัพธ์ที่เหมือนกัน แต่ในทางปฏิบัติ ต่าง
การลงโทษทางวินัย
โดยทั่วไปนักวิชาการบางสาขาชอบมากกว่าหนึ่งสาขา หากคุณกำลังจะตีพิมพ์หรือนำเสนอผลงานของคุณต่อวินัยทางการศึกษาด้วยการตั้งค่าแบบดั้งเดิมที่เฉพาะเจาะจงแล้วให้กำหนดที่คุณเลือกเพื่อให้การค้นพบของคุณจะเป็นที่ยอมรับได้ง่ายขึ้น ตัวอย่างเช่น (จากที่ปรึกษาวิธีการ )
Logit - หรือที่เรียกว่าการถดถอยโลจิสติกส์เป็นที่นิยมมากในวิทยาศาสตร์สุขภาพเช่นระบาดวิทยาส่วนหนึ่งเป็นเพราะค่าสัมประสิทธิ์สามารถตีความได้ในแง่ของอัตราส่วนอัตราต่อรอง แบบจำลองของ Probit สามารถนำมาใช้เพื่ออธิบายความแปรปรวนข้อผิดพลาดที่ไม่คงที่ในการตั้งค่าทางเศรษฐมิติที่ก้าวหน้ากว่า
ประเด็นก็คือความแตกต่างของผลลัพธ์นั้นเล็กน้อยดังนั้นความสามารถสำหรับผู้ชมทั่วไปของคุณในการทำความเข้าใจผลลัพธ์ของคุณนั้นมีมากกว่าความแตกต่างเล็กน้อยระหว่างสองแนวทาง
หากสิ่งที่คุณสนใจดีกว่า ...
หากงานวิจัยของคุณอยู่ในระเบียบวินัยที่ไม่ต้องการหนึ่งหรืออื่น ๆ แล้วการศึกษาของฉันคำถามนี้ (ซึ่งจะดีกว่า logit หรือ probit) ได้นำฉันไปสรุปได้ว่ามันเป็นเรื่องปกติดีกว่าการใช้probitเพราะมันเกือบจะเสมอ ให้ข้อมูลสถิติที่มีค่าเท่ากันหรือเหนือกว่าของโมเดล logit ข้อยกเว้นที่น่าสังเกตมากที่สุดเมื่อตัวแบบ logit ให้แบบที่ดีกว่าคือในกรณีของ "ตัวแปรอิสระมาก" (ซึ่งฉันอธิบายด้านล่าง)
ข้อสรุปของฉันขึ้นอยู่เกือบทั้งหมด (หลังจากค้นหาแหล่งข้อมูลอื่น ๆ อีกมากมาย) บน Hahn, ED & Soyer, R. , 2005 โมเดล Probit และ logit: ความแตกต่างในอาณาจักรหลายตัวแปร จำหน่ายที่: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf นี่คือบทสรุปของฉันของข้อสรุปการตัดสินใจในทางปฏิบัติจากบทความนี้เกี่ยวกับว่า logit กับแบบจำลองหลายตัวแปรแบบ probit ให้ข้อมูลที่ดีขึ้นหรือไม่ (ข้อสรุปเหล่านี้ใช้กับแบบจำลอง univariate ด้วย
ในสถานการณ์ส่วนใหญ่โมเดล logit และ probit จะพอดีกับข้อมูลอย่างเท่าเทียมกันโดยมีข้อยกเว้นสองข้อต่อไปนี้
Logit แน่นอนที่ดีขึ้นในกรณีของ "ตัวแปรอิสระมากว่า" เหล่านี้เป็นตัวแปรอิสระที่มีค่าขนาดใหญ่หรือขนาดเล็กโดยเฉพาะอย่างยิ่งมักจะตรวจสอบว่าตัวแปรตามคือ 0 หรือ 1, แทนที่ผลกระทบของตัวแปรอื่น ๆ ส่วนใหญ่ Hahn และ Soyer ให้นิยามอย่างเป็นทางการดังนี้ (หน้า 4):
ระดับตัวแปรอิสระที่รุนแรงนั้นเกี่ยวข้องกับความไม่แน่นอนของเหตุการณ์สามเหตุการณ์ ครั้งแรกระดับตัวแปรอิสระที่รุนแรงเกิดขึ้นที่มากหรือต่ำสุดของตัวแปรอิสระ ตัวอย่างเช่นสมมติว่าตัวแปรอิสระ x ต้องใช้กับค่า 1, 2 และ 3.2 ระดับตัวแปรอิสระที่รุนแรงจะเกี่ยวข้องกับค่าที่ x = 3.2 (หรือ x = 1) ประการที่สองสัดส่วนที่เป็นกอบเป็นกำ (เช่น 60%) ของจำนวน n ทั้งหมดต้องอยู่ในระดับนี้ ประการที่สามความน่าจะเป็นที่จะประสบความสำเร็จในระดับนี้ควรสูงมาก (เช่นมากกว่า 99%)
ขึ้นอยู่กับ Hahn และ Soyer ของการวิเคราะห์ข้อสรุปของฉันคือการมักจะใช้รุ่น probit ยกเว้นในกรณีที่ตัวแปรอิสระมากซึ่งในกรณี logit ควรจะเลือก ตัวแปรอิสระที่รุนแรงนั้นไม่ใช่สิ่งที่พบเห็นได้ทั่วไปและควรจดจำได้ง่าย ด้วยกฎง่ายๆนี้มันไม่สำคัญว่าแบบจำลองจะเป็นแบบจำลองลักษณะพิเศษแบบสุ่มหรือไม่ ในกรณีที่โมเดลเป็นโมเดลเอฟเฟกต์แบบสุ่ม (ที่ต้องการ probit) แต่มีตัวแปรอิสระมาก (ที่ต้องการ logit) แม้ว่า Hahn และ Soyer ไม่ได้แสดงความคิดเห็นเกี่ยวกับเรื่องนี้ความประทับใจของฉันจากบทความของพวกเขาคือผลกระทบของ ตัวแปรอิสระที่รุนแรงที่สุดนั้นมีความสำคัญมากกว่าและดังนั้นจึงควรเลือกใช้ logit
ด้านล่างนี้ฉันอธิบายตัวประมาณที่สร้างรังนกและบันทึกเป็นกรณีพิเศษและที่หนึ่งสามารถทดสอบที่เหมาะสมกว่า
ทั้ง probit และ logit สามารถซ้อนในแบบจำลองตัวแปรแฝง
ที่องค์ประกอบที่สังเกตคือ
หากคุณเลือกเป็น cdf ปกติคุณจะได้รับ probit ถ้าคุณเลือก cistic โลจิสติกคุณจะได้ logit ทั้งสองวิธีฟังก์ชันความน่าจะเป็นจะใช้แบบฟอร์ม
อย่างไรก็ตามหากคุณกังวลว่าข้อสันนิษฐานใดที่คุณทำขึ้นคุณสามารถใช้ตัวประมาณ Klein & Spady (1993; Econometrica) เครื่องมือประมาณนี้ช่วยให้คุณมีความยืดหยุ่นอย่างเต็มที่ในข้อมูลจำเพาะของ cdf,และจากนั้นคุณสามารถทดสอบความถูกต้องของความปกติหรือลอจิสติก (?)
ใน Klein & Spady ฟังก์ชันเกณฑ์จะแทน
โดยที่เป็นการประมาณค่าพารามิเตอร์ของ cdf ตัวอย่างเช่นประมาณโดยใช้ตัวประมาณการถดถอยเคอร์เนล Nadaraya-Watson
โดยที่เรียกว่า "เคอร์เนล" (โดยทั่วไปแล้วจะเป็นแบบ Gaussian cdf หรือสามเหลี่ยมเคอร์เนลที่ถูกเลือก) และคือ "แบนด์วิดท์" มีค่าปลั๊กอินให้เลือกสำหรับหลัง แต่มันมีความซับซ้อนมากขึ้นและสามารถทำการปรับให้เหมาะสมนอกมีความซับซ้อนมากขึ้นหากการเปลี่ยนแปลงในทุกขั้นตอน (ยอดคงเหลือการแลกเปลี่ยนความแปรปรวนที่เรียกว่าอคติ )ชั่วโมงβ เอชเอช
การปรับปรุง: Ichimura ได้แนะนำว่าเคอร์เนลถดถอย , ควรปล่อยออก TH สังเกต; มิฉะนั้นตัวเลือกของอาจมีความซับซ้อนโดยปัญหากับตัวอย่างที่มากเกินไป (ความแปรปรวนสูงเกินไป)ฉันชั่วโมง
พูดคุย:หนึ่งข้อเสียเปรียบกับตัวประมาณ Klein-Spady ก็คือมันอาจติดอยู่ในท้องถิ่นขนาดเล็ก นี่เป็นเพราะ cdf ปรับให้เหมาะกับพารามิเตอร์ที่กำหนด ฉันรู้จักนักเรียนหลายคนที่พยายามนำมาใช้และมีปัญหาในการบรรลุการบรรจบกันและหลีกเลี่ยงปัญหาเชิงตัวเลข ดังนั้นจึงไม่ใช่ตัวประมาณที่ใช้งานได้ง่าย นอกจากนี้อนุมานในการประมาณค่าพารามิเตอร์มีความซับซ้อนโดยสเปคกึ่งพาราสำหรับGβ G
พวกมันคล้ายกันมาก
ในทั้งสองรุ่นความน่าจะเป็นที่กำหนดสามารถมองได้ว่าเป็นความน่าจะเป็นที่ตัวแปรสุ่มซ่อน (ที่มีการแจกแจงคงที่แน่นอน) ต่ำกว่าขีด จำกัด ที่แน่นอนซึ่งขึ้นอยู่เชิงเส้นบน :X S X
หรือเทียบเท่า:
จากนั้นเป็นเรื่องของสิ่งที่คุณเลือกสำหรับการกระจายของ :
ความแปรปรวนนั้นไม่สำคัญเนื่องจากจะได้รับการชดเชยโดยอัตโนมัติโดยการคูณด้วยค่าคงที่ ค่าเฉลี่ยนั้นไม่สำคัญเช่นกันหากคุณใช้การสกัดกั้น
สิ่งนี้สามารถมองเห็นได้ว่าเป็นผลกระทบเกณฑ์ ผลลัพธ์ที่มองไม่เห็นเป็นฟังก์ชันเชิงเส้นของมีสัญญาณรบกวนเพิ่มเข้ามาเช่นเดียวกับการถดถอยเชิงเส้นและเราได้ผลลัพธ์ 0/1 โดยกล่าวว่า:X - S
ความแตกต่างระหว่างโลจิสติกและโปรบิทอยู่ที่ความแตกต่างระหว่างโลจิสติกและการแจกแจงแบบปกติ มีไม่มาก เมื่อปรับแล้วจะมีลักษณะดังนี้:
โลจิสติกมีหางที่หนักกว่า สิ่งนี้อาจส่งผลต่อความน่าจะเป็นของเหตุการณ์ขนาดเล็ก (<1%) หรือสูง (> 99%) เล็กน้อย ในทางปฏิบัติแล้วความแตกต่างไม่ได้สังเกตเห็นได้ในสถานการณ์ส่วนใหญ่: logit และ probit ทำนายสิ่งเดียวกัน ดูhttp://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
"ปรัชญา" การถดถอยโลจิสติกสามารถพิสูจน์ได้โดยเทียบเท่ากับหลักการของเอนโทรปีสูงสุด: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy โมเดล /
ในแง่ของการคำนวณ: ลอจิสติกนั้นง่ายกว่าเนื่องจากการแจกแจงสะสมของการกระจายโลจิสติกมีสูตรปิดซึ่งแตกต่างจากการแจกแจงแบบปกติ แต่การแจกแจงแบบปกติมีคุณสมบัติที่ดีเมื่อคุณไปที่หลายมิตินี่คือเหตุผลว่าทำไม probit จึงเป็นที่นิยมในกรณีขั้นสูง