ผลกระทบเล็กน้อยของรุ่น Probit และ Logit


12

ใครสามารถอธิบายวิธีการคำนวณผลกระทบส่วนเพิ่มของโมเดล Probit และ Logit ในแง่ของคนธรรมดา

ฉันยังใหม่กับสถิติและฉันสับสนเกี่ยวกับแบบจำลองทั้งสองนี้


โปรดทราบว่าตัวเลขที่ออกมาจากรุ่น Probit และ Logit ดูราวกับว่าพวกเขาวัดสิ่งเดียวกัน แต่มักจะแตกต่างกันเป็นตัวเลข เมื่อคุณแปลมันกลับสู่ชีวิตจริงความแตกต่างระหว่างคนทั้งสองมักจะเล็กลง
Henry

คำตอบ:


15

ฉันคิดว่าวิธีที่ดีกว่าที่จะเห็นผลกระทบเล็กน้อยของตัวแปรที่กำหนดเช่นคือการสร้างพล็อตการกระจายของความน่าจะเป็นที่คาดการณ์ไว้ในแกนตั้งและให้X jบนแกนแนวนอน นี่เป็นวิธี "คนธรรมดา" ที่สุดที่ฉันสามารถนึกได้ว่าบ่งชี้ว่าตัวแปรที่กำหนดนั้นมีอิทธิพลอย่างไร ไม่มีคณิตศาสตร์แค่รูป หากคุณมีจุดข้อมูลจำนวนมากจุดบ็อกซ์พล็อตหรือการกระจายที่ราบรื่นอาจช่วยให้เห็นว่าข้อมูลส่วนใหญ่อยู่ตรงไหน (ตรงข้ามกับกลุ่มเมฆ)XjXj

ไม่แน่ใจว่าหัวข้อ "คนธรรมดา" เป็นอย่างไร แต่คุณอาจพบว่ามันมีประโยชน์

ถ้าเราดูที่ marginal effect ให้เรียกมันว่าโดยสังเกตว่าg ( p ) = k X k β kเราจะได้mjg(p)=kXkβk

mj=pXj=βjg[g1(XTβ)]=βjg(p)

ดังนั้นผลกระทบเล็กน้อยนั้นขึ้นอยู่กับความน่าจะเป็นโดยประมาณและความลาดชันของฟังก์ชั่นลิงก์นอกเหนือจากเบต้า การหารด้วยมาจากกฎลูกโซ่สำหรับการสร้างความแตกต่างและความจริงที่g - 1 ( z )g(p) ] นี้สามารถแสดงให้เห็นความแตกต่างของทั้งสองด้านของสมการความจริงที่เห็นได้ชัดZ=กรัม[กรัม-1(Z)] นอกจากนี้เรายังมีg-1(XTβ)=pตามคำจำกัดความ สำหรับรูปแบบ logit เรามีg(p)=log(p)-log(1-p)g1(z)z=1g[g1(z)]z=g[g1(z)]g1(XTβ)=pและผลกระทบเล็กน้อยคือ:g(p)=log(p)log(1p)g(p)=1p+11p=1p(1p)

mjlogit=βjp(1p)

สิ่งนี้หมายความว่า? ดีเป็นศูนย์ที่P = 0และP = 1และมันถึงค่าสูงสุดของ0.25ที่P = 0.5 ดังนั้นผลกระทบเล็กน้อยที่ยิ่งใหญ่ที่สุดคือเมื่อความน่าจะอยู่ใกล้กับ0.5และมีขนาดเล็กที่สุดเมื่อพีอยู่ใกล้0หรือใกล้1 อย่างไรก็ตามp ( 1 - p )ยังคงขึ้นอยู่กับX jดังนั้นผลกระทบเล็กน้อยนั้นซับซ้อน ในความเป็นจริงเพราะมันขึ้นอยู่กับp(1p)p=0p=10.25p=0.50.5p01p(1p)Xjคุณจะได้รับผลกระทบเล็กน้อยที่แตกต่างกันสำหรับการที่แตกต่างกัน X k ,pค่า อาจเป็นเหตุผลหนึ่งที่ดีที่จะทำแผนกระจายแบบง่าย ๆ - ไม่จำเป็นต้องเลือกค่าของตัวแปรร่วมที่จะใช้Xk,kj

สำหรับโมเดล probit เรามีโดยที่Φ(.)เป็น CDF ปกติมาตรฐานและϕ(.)เป็น pdf มาตรฐานปกติ ดังนั้นเราจึงได้รับ:ก.(พี)=Φ-1(พี)ก.'(พี)=1φ[Φ-1(พี)]Φ(.)φ(.)

ม.JพีRโอผมเสื้อ=βJφ[Φ-1(พี)]

หมายเหตุที่ว่านี้มีมากที่สุดของคุณสมบัติที่ผลร่อแร่ผมพูดก่อนหน้านี้และเป็นอย่างเท่าเทียมกันที่แท้จริงของฟังก์ชั่นการเชื่อมโยงใด ๆ ซึ่งเป็นสมมาตรเกี่ยวกับ0.5 (และสติของหลักสูตรเช่นกรัม( P ) = T n ( πม.Jล.โอก.ผมเสื้อ0.5) การพึ่งพาpมีความซับซ้อนมากขึ้น แต่ยังคงมีรูปร่าง "โคก" ทั่วไป (จุดสูงสุดที่0.5, ต่ำสุดที่0และ1) ฟังก์ชั่นลิงค์จะเปลี่ยนขนาดของความสูงสูงสุด (เช่น probit สูงสุดคือ1ก.(พี)=เสื้อan(π2[2พี-1])พี0.501, logit เป็น0.25) และวิธีการอย่างรวดเร็วผลร่อแร่เป็นเรียวไปทางศูนย์12π0.40.25


effectsแพคเกจในการวิจัยสามารถผลิตแปลงดังกล่าวน่าจะเป็นที่คาดการณ์ไว้บนแกนตั้ง VS X บนแกนนอน ดูsocserv.socsci.mcmaster.ca/jfox/Misc/effects/index.html
landroni

ดูเพิ่มเติมที่: stats.stackexchange.com/questions/18814/…
landroni

5

โดยทั่วไปแล้วตัวแบบ logit และ probit จะใช้เพื่อหาความน่าจะเป็นที่ตัวแปรที่ขึ้นต่อกัน y คือ 0 หรือ 1 ขึ้นอยู่กับตัวแปรอินพุตจำนวนหนึ่ง

ในภาษาอังกฤษ: สมมติว่าคุณกำลังพยายามทำนายค่าไบนารี่เช่นมีใครบางคนที่จะพัฒนาโรคหัวใจในช่วงชีวิตของพวกเขาหรือไม่ คุณมีตัวแปรอินพุทหลายอย่างเช่นความดันโลหิตอายุไม่ว่าจะเป็นผู้สูบบุหรี่ BMI ของพวกเขาที่พวกเขาอาศัยอยู่ ฯลฯ ตัวแปรเหล่านั้นทั้งหมดอาจมีส่วนช่วยในโอกาสที่ใครบางคนกำลังพัฒนาโรคหัวใจ

ผลกระทบส่วนเพิ่มของตัวแปรอินพุตเดียวคือถ้าคุณเพิ่มตัวแปรนั้นขึ้นอีกเล็กน้อยมันจะส่งผลต่อความน่าจะเป็นที่จะเป็นโรคหัวใจอย่างไร สมมติว่าความดันโลหิตเพิ่มขึ้นเล็กน้อยปริมาณนี้เปลี่ยนโอกาสของการเป็นโรคหัวใจได้อย่างไร หรือถ้าคุณอายุเพิ่มขึ้นประมาณหนึ่งปี

เอฟเฟกต์บางอย่างเหล่านี้อาจไม่ใช่แบบเส้นตรง: การเพิ่มค่าดัชนีมวลกายโดยจำนวนเล็กน้อยอาจมีผลแตกต่างกันมากสำหรับคนที่มีค่าดัชนีมวลกายที่ดีมาก ๆ สำหรับคนที่ไม่ได้เป็น


1

คุณยังต้องการให้คนธรรมดาของคุณรู้แคลคูลัสเนื่องจากผลกระทบเล็กน้อยคืออนุพันธ์ของความน่าจะเป็นที่พอดีกับตัวแปรที่สนใจ เนื่องจากความน่าจะเป็นที่พอดีคือฟังก์ชันลิงก์ (logit, probit หรืออะไรก็ตาม) ที่ใช้กับค่าติดตั้งคุณจึงต้องใช้กฎลูกโซ่เพื่อคำนวณ ดังนั้นในโมเดลดัชนีเชิงเส้น (โดยที่พารามิเตอร์ป้อนเป็นบางอย่างเช่น X'b) จะเท่ากับค่าประมาณของพารามิเตอร์คูณด้วยอนุพันธ์ของฟังก์ชันลิงก์ เนื่องจากอนุพันธ์แตกต่างกันที่ค่าต่าง ๆ ของ regressors (ซึ่งแตกต่างจากกรณีของตัวแบบเชิงเส้น) คุณต้องตัดสินใจว่าจะประเมินผลกระทบจากส่วนต่างได้ที่ไหน ตัวเลือกโดยธรรมชาติคือค่าเฉลี่ยของผู้ถดถอยทั้งหมด อีกวิธีหนึ่งคือการประเมินผลกระทบสำหรับการสังเกตแต่ละครั้งแล้วเฉลี่ยมากกว่าพวกเขา การตีความแตกต่างกันตาม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.