ความน่าจะเป็นในการบันทึกใน GLM รับประกันการลู่เข้าสู่ maxima ทั่วโลกหรือไม่?


16

คำถามของฉันคือ:

  1. แบบจำลองเชิงเส้นทั่วไป (GLMs) รับประกันว่าจะรวมกันเป็นค่าสูงสุดทั่วโลกหรือไม่? ถ้าเป็นเช่นนั้นทำไม
  2. นอกจากนี้สิ่งที่มีข้อ จำกัด ในฟังก์ชั่นการเชื่อมโยงเพื่อประกันความนูน?

ความเข้าใจของฉันเกี่ยวกับ GLMs คือพวกเขาเพิ่มฟังก์ชั่นความน่าจะเป็นแบบไม่เชิงเส้นอย่างมาก ดังนั้นฉันคิดว่ามี maxima ท้องถิ่นหลายชุดและพารามิเตอร์ที่คุณรวมเข้าด้วยกันนั้นขึ้นอยู่กับเงื่อนไขเริ่มต้นสำหรับอัลกอริธึมการปรับให้เหมาะสม อย่างไรก็ตามหลังจากทำการวิจัยบางอย่างฉันไม่ได้พบแหล่งเดียวซึ่งบ่งชี้ว่ามีหลายท้องถิ่นสูงสุด นอกจากนี้ฉันไม่คุ้นเคยกับเทคนิคการปรับให้เหมาะสม แต่ฉันรู้ว่าวิธี Newton-Raphson และอัลกอริทึม IRLS มีแนวโน้มที่จะสูงสุดในท้องถิ่น

กรุณาอธิบายว่าเป็นไปได้ทั้งบนพื้นฐานที่ใช้งานง่ายและทางคณิตศาสตร์!

แก้ไข: dksahuji ตอบคำถามเดิมของฉัน แต่ฉันต้องการเพิ่มคำถามติดตาม [ 2 ] ด้านบน ("มีข้อ จำกัด อะไรบ้างในฟังก์ชั่นลิงค์เพื่อประกันความนูน?")


ฉันคิดว่าต้องมีข้อ จำกัด บางอย่างก่อนที่จะเป็นเช่นนั้น แหล่งที่มาสำหรับคำสั่งคืออะไร?
Glen_b -Reinstate Monica

ดูเหมือนว่าหลายไซต์จะบอกเป็นนัย ๆ แต่ฉันก็ไม่สามารถหาอะไรที่กล่าวถึงมันได้เลยดังนั้นฉันก็เลยยินดีด้วย
DankMasterDan

ตราบใดที่มีการกำหนดความน่าจะเป็นทุกหนทุกแห่งบนโดเมน (และไม่สนใจประเด็นเชิงตัวเลขบางส่วน) ฉันคิดว่าใช่ ภายใต้เงื่อนไขเหล่านั้นรัฐ Hessian นั้น <0 ทุกหนทุกแห่งบนโดเมนเพื่อให้ความเป็นสากลทั่วโลกเว้า Btw ฟังก์ชั่นไม่ใช่ 'ที่ไม่เป็นเชิงเส้นสูง' ในพารามิเตอร์และนั่นคือสิ่งที่สำคัญ
user603

@ user603 แหล่งที่มา / หลักฐานของคุณที่ว่ารัฐนั้นคือ <0 ทุกที่?
DankMasterDan

การถดถอยโลจิสติก, ปัวซอง, และเกาส์เซียนมักได้รับฟังก์ชั่นลิงค์ "ดี" อย่างไรก็ตามด้วยฟังก์ชั่นการเชื่อมโยงโดยพลการพวกเขาจะไม่นูน
Memming

คำตอบ:


11

นิยามของตระกูลเอ็กซ์โพเนนเชียลคือ:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

โดยที่เป็นฟังก์ชันแบ่งพาร์ติชัน ในตอนนี้เราสามารถพิสูจน์ได้ว่าสามสิ่งต่อไปนี้มีไว้สำหรับกรณี 1D (และพวกเขาทั่วไปในมิติที่สูงกว่า - คุณสามารถดูคุณสมบัติของตระกูลชี้แจงหรือพาร์ติชันบันทึก):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

ผลดังกล่าวข้างต้นพิสูจน์ว่า( θ )นูน (ตามที่o วี ( φ ( x ) )เป็น semidefinite บวก) ตอนนี้เรามาดูฟังก์ชั่นโอกาสสำหรับ MLE: A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

ทีนี้เป็นเส้นตรงในทีต้าและ- A ( θ )เป็นเว้า ดังนั้นจึงมีค่าสูงสุดทั่วโลกที่ไม่ซ้ำกันθT[ϕ(D)]A(θ)

มีรุ่นทั่วไปเรียกว่าครอบครัวเอ็กซ์โพเนนเชียลแบบโค้งซึ่งก็จะคล้ายกัน แต่หลักฐานส่วนใหญ่อยู่ในรูปแบบบัญญัติ


ดังนั้นนี่หมายความว่า GLM มีชื่อเฉพาะระดับต่ำสุดของโลกที่ฟังก์ชันลิงค์ถูกเลือก (รวมถึง noncanonical)
DankMasterDan

1
ฉันจะพยายามตอบเท่าที่ฉันเข้าใจ เป็นกรณีที่คุณกำลังพูดถึง นี้ยังคงเป็นเว้าในηแต่อาจไม่อยู่ในθเพื่อηควรเช่นที่บันทึกของความน่าจะเป็นทั้งเว้าในθ p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ)))ηθηθ
dksahuji

โปรดทราบว่าคำถามถามเกี่ยวกับการบรรจบกันมากกว่าแค่การดำรงอยู่ แต่มีข้อ จำกัด เล็กน้อยเช่นกันที่อาจทำได้
Glen_b

@Glen_b คุณสามารถทำอย่างละเอียด? ฉันไม่ทราบข้อ จำกัด ดังกล่าว บางทีสิ่งที่ต้องการข้อ จำกัด ใน stepize ในเครื่องมือเพิ่มประสิทธิภาพไล่ระดับสีเพื่อรับประกันการบรรจบกันในกรณีที่ฟังก์ชั่นเว้า
dksahuji

1
@Glen_b มันอาจจะเป็นเรื่องจริงโดยทั่วไป แต่ฉันไม่สามารถมองเห็นเหตุผลใด ๆ ที่ฟังก์ชั่นเว้าไม่มาบรรจบกับ optima ในค่าที่ยอมรับได้เล็กน้อย แต่ฉันจะบอกว่าฉันไม่มีประสบการณ์จริงใด ๆ กับสิ่งเหล่านี้และฉันเพิ่งเริ่มต้น :)
dksahuji
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.