ฟังก์ชัน logit ดีที่สุดสำหรับการสร้างแบบจำลองการถดถอยของข้อมูลไบนารีหรือไม่?


15

ฉันกำลังคิดเกี่ยวกับปัญหานี้ ฟังก์ชันโลจิสติกส์ปกติสำหรับการสร้างแบบจำลองข้อมูลไบนารีคือ: อย่างไรก็ตามเป็นฟังก์ชัน logit ซึ่งเป็นรูปโค้ง S จะดีที่สุดสำหรับการสร้างแบบจำลองข้อมูลหรือไม่ บางทีคุณอาจจะมีเหตุผลที่จะเชื่อว่าข้อมูลของคุณไม่เป็นไปตามปกติ S- รูปโค้ง แต่เป็นชนิดที่แตกต่างกันของเส้นโค้งด้วยโดเมน(0,1)

log(p1p)=β0+β1X1+β2X2+
(0,1)

มีการวิจัยเกี่ยวกับเรื่องนี้หรือไม่? บางทีคุณอาจจำลองมันเป็นฟังก์ชั่น probit หรือคล้ายกัน แต่ถ้าเป็นอย่างอื่นล่ะ? สิ่งนี้นำไปสู่การประเมินผลที่ดีขึ้นหรือไม่? แค่คิดว่าฉันมีและฉันสงสัยว่ามีงานวิจัยเกี่ยวกับเรื่องนี้หรือไม่


3

2
@macro ฉันไม่คิดว่ามันจะซ้ำกันแน่นอน คำถามนั้นเกี่ยวกับเพียง logit และ probit; อันนี้ขอทางเลือกอื่นเช่นกัน
Peter Flom - Reinstate Monica

ฉันโหวตให้เปิดทิ้งไว้ ความแตกต่างหลักที่ฉันเห็นคือคำถามนี้ถามเพื่อการวิจัยในสถิติในหัวข้อของฟังก์ชั่นลิงค์ต่าง ๆ ที่เป็นไปได้ มันแตกต่างกันเล็กน้อย แต่อาจเพียงพอ @Glen คุณอาจต้องการตรวจสอบคำถามอื่น ๆ หากคุณยังไม่ได้เห็น ในคำตอบของฉันฉันพูดคุยเกี่ยวกับลิงค์ต่าง ๆ ที่เป็นไปได้ หากคุณคิดว่าคำถามนี้ไม่แตกต่างกันเลยให้ตั้งค่าสถานะ & mods สามารถปิดได้ หากคุณนึกถึงวิธีแยกแยะความแตกต่าง b / t สิ่งที่คุณถาม & ชัดเจนยิ่งขึ้นคุณอาจต้องการแก้ไข
gung - Reinstate Monica

ฉันรู้ว่ามันไม่ใช่คำถามซ้ำของ logit vs. probit แต่ฉันคิดว่าคำตอบของ gung ซึ่งไปไกลกว่าคำถามที่ถูกเชื่อมโยงถามที่อยู่ส่วนใหญ่ของสิ่งที่ถามที่นี่ซึ่งเป็นสาเหตุที่ฉันปิดเหมือนซ้ำ อาจมีหัวข้ออื่น ๆ ที่เกี่ยวข้องอย่างใกล้ชิด แต่นั่นเป็นครั้งแรกที่มาถึงใจ
มาโคร

ขอบคุณสำหรับความคิดเห็น ฉันเชื่อว่าคำถามของฉันแตกต่างจากคำถามก่อนหน้า ฉันคุ้นเคยกับการแปลง probit และ log-log และการอภิปรายจากคำถามก่อนหน้านี้เป็นข้อมูลที่ดีสำหรับฉัน อย่างไรก็ตามฉันสนใจฟังก์ชั่นลิงค์อื่น ๆ (อาจไม่ใช่พารามิเตอร์?) ที่เป็นไปได้ในสถานการณ์ที่คุณอาจมีหรือไม่มีความรู้ว่ากราฟความน่าจะเป็นเป็นไปตามการกระจายตัวที่แตกต่างกัน ฉันคิดว่าเมื่อการปฏิสัมพันธ์มีส่วนร่วมในหมู่เพื่อนร่วมงานสิ่งนี้อาจมีบทบาทสำคัญ @David J. คำตอบของแฮร์ริสก็มีประโยชน์เช่นกัน ...
เกลน

คำตอบ:


15

ผู้คนใช้ฟังก์ชั่นทุกประเภทในการเก็บข้อมูลระหว่าง 0 และ 1 อัตราการล็อกหลุดออกมาจากคณิตศาสตร์เมื่อคุณได้รับแบบจำลอง (เรียกว่า "ฟังก์ชั่น canonical ลิงก์") แต่คุณสามารถทดลองใช้ได้อย่างอิสระ ทางเลือกอื่น ๆ

ในฐานะที่เป็นมาโครพูดถึงความคิดเห็นของเขาในคำถามของคุณตัวเลือกทั่วไปอย่างหนึ่งคือโมเดล probitซึ่งใช้ฟังก์ชัน quantile ของ Gaussian แทนฟังก์ชันโลจิสติกส์ ฉันเคยได้ยินสิ่งดีๆเกี่ยวกับการใช้ฟังก์ชัน quantile ของการแจกแจงแบบแม้ว่าฉันจะไม่เคยลองเลยt

ttt7

หวังว่านี่จะช่วยได้

แก้ไขเพื่อเพิ่ม : การอภิปราย @Macro ที่เชื่อมโยงกับยอดเยี่ยมจริงๆ ฉันขอแนะนำให้อ่านมันหากคุณสนใจรายละเอียดเพิ่มเติม


คำถามนั้นเกี่ยวกับ "ข้อมูลไบนารี" - ไม่เกี่ยวกับข้อมูลที่อยู่ระหว่าง 0 และ 1 โมเดล probit ไม่มีเหตุผลทางทฤษฎีในกรณีของข้อมูลไบนารี
Neil G

3
@NeilG เหตุผลหนึ่งที่ใช้โมเดล probit ก็คือมันให้วิธีที่สะดวกในการสร้างแบบจำลองข้อมูลไบนารีหลายตัวแปร (เช่นกับโมเดลผสม) เป็นเกณฑ์มาตรฐาน ในกรณีนั้นเมทริกซ์สหสัมพันธ์ของตัวแปรพื้นฐานจะแยกไม่ออกทางสถิติในขณะที่มันไม่ได้อยู่ในกรณีโลจิสติกส์ มีการอภิปรายอีกนิดเป็นที่นี่
มาโคร

@Macro: โอ้ฉันเข้าใจแล้ว น่าสนใจมากขอบคุณ
Neil G

@ David J.Harris: คุณหมายถึง quintile (หรือ quantile มีความหมายเหมือนกัน) คือการแบ่งการกระจายออกเป็นส่วน ๆ จำนวนห้าส่วน: 20%, 40%, .. , 100%?
MSIS

1
@MSIS quintile แบ่งออกเป็นหนึ่งในห้าส่วนเปอร์เซนต์แบ่งเป็น 100 ส่วนและ quartile แบ่งออกเป็นหน่วยต่าง ๆ ดูen.wikipedia.org/wiki/Quantile#Specialized_quantiles
David J. Harris

11

ฉันไม่เห็นเหตุผลเลยว่าเหตุใดฟังก์ชันลิงก์ที่เหมาะสมสำหรับชุดข้อมูลที่กำหนดต้องเป็น logit (แม้ว่าจักรวาลดูเหมือนจะค่อนข้างใจดีกับเราโดยทั่วไป) ฉันไม่รู้ว่าสิ่งเหล่านี้เป็นสิ่งที่คุณกำลังมองหาหรือไม่ แต่นี่คือเอกสารที่พูดถึงฟังก์ชั่นลิงค์ที่แปลกใหม่กว่านี้:

การเปิดเผยข้อมูล: ฉันไม่รู้เนื้อหานี้ดีนัก ฉันลองเล่นน้ำกับ Cauchit และ Scobit เมื่อสองสามปีก่อน แต่รหัสของฉันยังคงพัง (อาจเป็นเพราะฉันไม่ใช่โปรแกรมเมอร์ที่ยอดเยี่ยม) และดูเหมือนว่าจะไม่เกี่ยวข้องกับโครงการที่ฉันทำงานอยู่ดังนั้นฉันจึงทิ้งมัน .

X


4

กลยุทธ์ที่ดีที่สุดคือการสร้างแบบจำลองข้อมูลในสิ่งที่เกิดขึ้น (ไม่แปลกใจ!)

  • รุ่น Probit มีต้นกำเนิดจากการศึกษา LD50 - คุณต้องการปริมาณของยาฆ่าแมลงที่ฆ่าแมลงครึ่งตัว การตอบสนองแบบไบนารี่คือว่าแมลงมีชีวิตหรือตาย (ตามขนาดที่กำหนด) ข้อบกพร่องที่ไวต่อยาครั้งเดียวจะอ่อนไหวในปริมาณที่น้อยลงเช่นกันซึ่งเป็นที่ที่ความคิดในการสร้างแบบจำลองเพื่อสะสมปกติเข้ามา
  • หากการสังเกตแบบไบนารีมาเป็นกลุ่มคุณสามารถใช้โมเดลเบต้า - ทวินาม เบ็นโบลเคอร์มีการแนะนำที่ดีในเอกสารประกอบแพ็คเกจ bbmle ของเขา (ใน R) ซึ่งใช้ในกรณีง่าย ๆ โมเดลเหล่านี้ช่วยให้สามารถควบคุมรูปแบบของข้อมูลได้มากกว่าการกระจายแบบทวินาม
  • ข้อมูลไบนารีหลายตัวแปร - การเรียงลำดับที่ม้วนลงในตารางฉุกเฉินหลายมิติ - สามารถวิเคราะห์ได้โดยใช้แบบจำลองเชิงเส้นบันทึก ฟังก์ชั่นการเชื่อมโยงเป็นบันทึกแทนที่จะเป็นราคาต่อรอง บางคนอ้างถึงสิ่งนี้ว่าการถดถอยของปัวซอง

อาจไม่มีการวิจัยเกี่ยวกับแบบจำลองเหล่านี้แม้ว่าจะมีงานวิจัยมากมายเกี่ยวกับแบบจำลองเหล่านี้และการเปรียบเทียบระหว่างแบบจำลองเหล่านี้กับวิธีต่าง ๆ ในการประมาณค่า สิ่งที่คุณพบในวรรณคดีคือมีกิจกรรมมากมายอยู่พักหนึ่งขณะที่นักวิจัยพิจารณาตัวเลือกจำนวนมากสำหรับปัญหาระดับหนึ่งและจากนั้นวิธีการหนึ่งก็ปรากฏว่าเหนือกว่า


+1 สำหรับเบต้า - ทวินาม นั่นเป็นเครื่องมือที่ยอดเยี่ยมที่มีอยู่ในกล่องเครื่องมือ
David J. Harris

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.