การถดถอยโลจิสติกส์ถูกแก้ไขเมื่อใดในรูปแบบปิด?


31

รับและและสมมติว่าเราจำลองงานของการทำนาย y ที่ได้รับ x โดยใช้การถดถอยโลจิสติก เมื่อใดที่สามารถเขียนสัมประสิทธิ์การถดถอยโลจิสติกในรูปแบบปิด? y { 0 , 1 }x{0,1}dy{0,1}

ตัวอย่างหนึ่งคือเมื่อเราใช้แบบจำลองที่อิ่มตัว

นั่นคือกำหนดโดยที่ดัชนีของตั้งอยู่ในชุดพลังงานของและส่งคืน 1 ถ้า ตัวแปรทั้งหมดในชุดคือ 1 และ 0 เป็นอย่างอื่น จากนั้นคุณสามารถแสดงแต่ละในรูปแบบการถดถอยโลจิสติกนี้เป็นลอการิทึมของฟังก์ชันเหตุผลของสถิติของข้อมูลฉัน{ x 1 , ... , x d } ฉันฉันW ฉันP(y|x)exp(iwifi(xi))i{x1,,xd}fiiwi

มีตัวอย่างที่น่าสนใจอื่น ๆ อีกไหมเมื่อมีแบบฟอร์มปิดอยู่?


4
ฉันถือว่าคุณหมายถึง "เมื่อใด MLE ของพารามิเตอร์ในรูปแบบปิด?"
Glen_b -Reinstate Monica

คุณช่วยให้รายละเอียดเพิ่มเติมเกี่ยวกับสิ่งที่คุณทำหรือไม่? คำถามของคุณอ่านราวกับว่าคุณพยายามหาตัวประมาณกำลังสองน้อยที่สุดสำหรับปัญหาการถดถอยโลจิสติก
Momo

1
ขอบคุณสำหรับโพสต์ / คำถามที่น่าสนใจยาโรสลาฟ คุณมีการอ้างอิงสำหรับตัวอย่างที่คุณแสดงหรือไม่?
Bitwise

1
ไม่นานมานี้ แต่อาจเป็นไปได้ในหนังสือ "Graphical Models" ของ Lauritzen รากฐานที่กว้างขึ้นของคำตอบสำหรับคำถามนี้อยู่ที่นั่น - คุณได้รับการแก้ปัญหาแบบปิดเมื่อกราฟ (ไฮเปอร์) ที่เกิดจากสถิติที่เพียงพอนั้นเป็นเสียงประสานกัน
Yaroslav Bulatov

นี่อาจเป็นtandfonline.com/doi/abs/10.1080/ ที่น่าสนใจฉันเชื่อว่านี่เป็นกรณีพิเศษของโซลูชันการวิเคราะห์เมื่อคุณมีตาราง 2x2 เท่านั้น
Austin

คำตอบ:


33

-2 Σผม (Yฉัน-x ' ฉัน β)xฉัน=0พีพีพี

Σผม(Yผม-xผม'β)2นาทีβ,
-2Σผม(Yผม-xผม'β)xผม=0
พีพีพีราชวงศ์ ที่สำคัญที่สุดก็คือระบบเชิงเส้นเพื่อให้คุณสามารถหาทางแก้ปัญหาโดยใช้มาตรฐานทฤษฎีพีชคณิตเชิงเส้นและการปฏิบัติ ระบบนี้จะมีทางออกที่น่าจะเป็น 1 ยกเว้นว่าคุณมีตัวแปร collinear อย่างสมบูรณ์

ตอนนี้ด้วยการถดถอยโลจิสติกสิ่งที่ไม่ง่ายอีกต่อไป จดบันทึกฟังก์ชันความน่าจะเป็น และหาอนุพันธ์เพื่อค้นหา MLE เราได้รับ พารามิเตอร์ใส่สิ่งนี้ในรูปแบบที่ไม่เชิงเส้น: สำหรับแต่ละคนมีฟังก์ชั่นไม่เชิงเส้นและพวกมันถูกรวมเข้าด้วยกัน ไม่มีวิธีการวิเคราะห์ (ยกเว้นอาจอยู่ในสถานการณ์ที่ไม่สำคัญกับการสังเกตสองครั้งหรืออะไรทำนองนั้น) และคุณต้องใช้l

ล.(Y;x,β)=ΣผมYผมLNพีผม+(1-Yผม)LN(1-พีผม),พีผม=(1+ประสบการณ์(-θผม))-1,θผม=xผม'β,
lβ=idpidθ(yipi1yi1pi)xi=i[yi11+exp(xiβ)]xi
βiวิธีการเพิ่มประสิทธิภาพการไม่เชิงเส้นเพื่อหาประมาณการ\β^

เมื่อมองลึกลงไปในปัญหา (การหาอนุพันธ์อันดับสอง) พบว่านี่เป็นปัญหาการหาค่าเหมาะที่สุดของการหาค่าสูงสุดของฟังก์ชันเว้า (พาราโบลาหลายตัวแปรที่ได้รับการยกย่อง) ดังนั้นจึงมีอยู่จริงและอัลกอริธึมที่เหมาะสม อย่างรวดเร็วหรือสิ่งต่าง ๆ ระเบิดออกไปไม่มีที่สิ้นสุด หลังเกิดขึ้นกับการถดถอยโลจิสติกเมื่อสำหรับบางนั่นคือคุณมีการทำนายที่สมบูรณ์แบบ นี่เป็นสิ่งประดิษฐ์ที่ไม่พึงประสงค์: คุณจะคิดว่าเมื่อคุณมีการทำนายที่สมบูรณ์แบบตัวแบบจะทำงานได้อย่างสมบูรณ์ แต่อยากรู้อยากเห็นมากพอProb[Yi=1|xiβ>c]=1c


คำถามคือเหตุผลที่สมการสุดท้ายของคุณไม่สามารถแก้ไขได้ มันเกิดจากการผกผันของฟังก์ชันโลจิสติกที่ 0 และ 1 หรือว่าเป็นเพราะความไม่เชิงเส้นโดยทั่วไป?
eyaler

5
(+1) เกี่ยวกับย่อหน้าสุดท้ายของคุณ: จากมุมมองทางคณิตศาสตร์มันไม่ทำงาน "ดีเลิศ" ในแง่ที่ว่า MLE จะให้ผลผลิตที่สมบูรณ์แบบไฮเปอร์เพลแยก อัลกอริธึมเชิงตัวเลขของคุณทำงานอย่างสมเหตุสมผลหรือไม่ในกรณีนั้นเป็นเรื่องแยกต่างหาก Laplace smoothing มักถูกใช้ในสถานการณ์เช่นนี้
พระคาร์ดินัล

@ ผู้จำหน่ายฉันจะบอกว่านี่เป็นเพราะความไม่เชิงเส้นโดยทั่วไป ความเข้าใจของฉันคือว่ามีสถานการณ์ที่ จำกัด เมื่อสามารถแก้ไขได้แม้ว่าฉันจะไม่ทราบว่าสถานการณ์เหล่านี้คืออะไร
StasK

1
ฉันไม่เข้าใจเงื่อนไขทางคณิตศาสตร์อะไรที่ทำให้ระบบไม่มีโซลูชันแบบปิด มีเงื่อนไขทั่วไปหรือไม่ที่สิ่งต่าง ๆ โดยทั่วไปไม่มีโซลูชั่นแบบปิด?
Charlie Parker

ความจริงที่ว่าการถดถอยแบบลอจิสติกไม่มีรูปแบบที่ปิดอย่างที่ใคร ๆ สามารถพิสูจน์ได้
Charlie Parker

8

เดิมโพสต์นี้มีจุดประสงค์เพื่อแสดงความคิดเห็นเป็นระยะเวลานานกว่าจะตอบคำถามทั้งหมดได้

จากคำถามมันไม่ชัดเจนหากความสนใจอยู่เฉพาะในกรณีไบนารีหรือบางทีในกรณีทั่วไปมากขึ้นซึ่งพวกเขาอาจจะต่อเนื่องหรือรับค่าแยกอื่น ๆ

ตัวอย่างหนึ่งที่ไม่ค่อยตอบคำถาม แต่เกี่ยวข้องและฉันชอบเกี่ยวข้องกับการจัดอันดับความพึงพอใจของรายการที่ได้จากการเปรียบเทียบแบบคู่ รุ่นแบรดลีย์เทอร์รี่สามารถแสดงเป็นถดถอยโลจิสติกที่ และเป็น "ความสัมพันธ์", "ความนิยม" หรือ " พารามิเตอร์ strength ของไอเท็มมีระบุไอเท็มมากกว่าไอเท็ม

logit(Pr(Yij=1))=αiαj,
αiiYij=1ij

(i,j)α^iSi=jiYij

หากต้องการตีความสิ่งนี้ลองนึกภาพการแข่งขันแบบเต็มรอบในกีฬาที่คุณชื่นชอบ จากนั้นผลลัพธ์นี้บอกว่าโมเดลของแบรดลีย์ - เทอร์รี่จัดอันดับผู้เล่น / ทีมตามเปอร์เซ็นต์ที่ชนะ ไม่ว่าจะเป็นผลลัพธ์ที่ให้กำลังใจหรือน่าผิดหวังขึ้นอยู่กับมุมมองของคุณฉันคิดว่า

หมายเหตุผลการจัดอันดับนี้ไม่ได้ถือโดยทั่วไปเมื่อไม่ได้เล่นรอบโรบินเต็ม


2
ฉันสนใจเลขฐานสองเพราะง่ายต่อการวิเคราะห์ ฉันได้พบสภาพที่เพียงพอในผลงานของ Lauritzen - คุณได้รับแบบฟอร์มปิดถ้าแบบจำลองการบันทึกเชิงเส้นตรงที่เกี่ยวข้อง
Yaroslav Bulatov
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.