การประมาณค่าพารามิเตอร์ด้วยโมเดลเชิงเส้นทั่วไป


9

โดยค่าเริ่มต้นเมื่อเราใช้glmฟังก์ชั่นใน R มันจะใช้วิธีการวนซ้ำน้อยที่สุดอย่างน้อยสี่เหลี่ยม (IWLS) เพื่อหาโอกาสในการประมาณค่าพารามิเตอร์สูงสุด ตอนนี้ฉันมีสองคำถาม

  1. การประมาณค่าของ IWLS รับประกันว่าจะมีฟังก์ชั่นโอกาสสูงสุดในระดับโลก ฉันคิดว่ามันไม่ได้ขึ้นอยู่กับสไลด์สุดท้ายในงานนำเสนอนี้ ! ฉันแค่ต้องการทำให้แน่ใจว่า
  2. เราสามารถพูดได้ว่าเหตุผลของคำถามที่ 1 ข้างต้นนั้นเป็นเพราะความจริงที่ว่าวิธีการหาค่าเหมาะที่สุดเชิงตัวเลขเกือบทั้งหมดอาจติดอยู่ที่ค่าสูงสุดในท้องถิ่นมากกว่าค่าสูงสุดทั่วโลก

คำตอบ:


6

เมื่อคุณพยายามประเมินพารามิเตอร์คุณต้องการให้มีโซลูชันแบบปิดเสมอ อย่างไรก็ตามไม่มีใครอยู่เสมอ (ฉันคิดว่าเป็นไปได้ว่าในบางกรณีอาจมีหนึ่งรายการ แต่ไม่เป็นที่รู้จักในปัจจุบัน) เมื่อโซลูชันแบบปิดไม่มีอยู่ต้องใช้กลยุทธ์การแก้ปัญหาบางอย่างเพื่อค้นหาพื้นที่พารามิเตอร์เพื่อการประมาณค่าพารามิเตอร์ที่ดีที่สุดเท่าที่จะเป็นไปได้ มีกลยุทธ์การค้นหาดังกล่าวจำนวนมาก (เช่นในR, "เพิ่มประสิทธิภาพแสดงวิธีการทั่วไป 6 วิธี) IRWLS เป็นอัลกอริธึมรุ่นNewton-Raphson ที่ง่ายขึ้น

น่าเสียดายที่คำตอบของคุณ [ 1 ] คือไม่มีกลยุทธ์การค้นหาแบบแก้ปัญหาในการค้นหาเพื่อหาค่าต่ำสุดทั่วโลก (สูงสุด) มีสามเหตุผลที่เป็นกรณี:

  1. ดังที่ระบุไว้ในสไลด์ 9 ของงานนำเสนอที่เชื่อมโยงของคุณอาจไม่มีวิธีแก้ปัญหาที่ไม่ซ้ำกัน ตัวอย่างของเรื่องนี้อาจจะสมบูรณ์แบบพหุหรือเมื่อมีพารามิเตอร์มากขึ้นที่จะประมาณกว่าที่มีข้อมูล
  2. ตามที่ระบุไว้ในสไลด์ 10 (งานนำเสนอนั้นค่อนข้างดีฉันคิดว่า) วิธีแก้ปัญหาอาจไม่มีที่สิ้นสุด ซึ่งอาจเกิดขึ้นในการถดถอยโลจิสติกตัวอย่างเช่นเมื่อคุณมีที่สมบูรณ์แบบแยก
  3. มันอาจเป็นไปได้ว่ามีค่าน้อยที่สุดทั่วโลก (สูงสุด) แต่อัลกอริทึมไม่พบมัน อัลกอริทึมเหล่านี้ (โดยเฉพาะ IRWLS และ NR) มีแนวโน้มที่จะเริ่มต้นจากตำแหน่งที่ระบุและ 'มองไปรอบ ๆ ' เพื่อดูว่าการเคลื่อนที่ในทิศทางใดทิศทางหนึ่งถือว่าเป็น 'กำลังตกต่ำ' หรือไม่ ถ้าเป็นเช่นนั้นมันจะกลับมาฟิตอีกครั้งในระยะไกลในทิศทางนั้นและทำซ้ำจนกว่าการปรับปรุงเดา / คาดการณ์จะน้อยกว่าขีด จำกัด บางอย่าง ดังนั้นอาจมีสองวิธีในการเข้าถึงระดับต่ำสุดของโลก:

    1. อัตราการสืบเชื้อสายจากที่ตั้งปัจจุบันไปสู่ระดับต่ำสุดทั่วโลก (สูงสุด) นั้นตื้นเกินไปที่จะข้ามธรณีประตูและอัลกอริทึมจะหยุดการแก้ปัญหาสั้น ๆ
    2. มีค่าต่ำสุดในท้องถิ่น (สูงสุด) ระหว่างตำแหน่งปัจจุบันและระดับต่ำสุดทั่วโลก (สูงสุด) ดังนั้นจึงปรากฏว่าอัลกอริทึมที่การเคลื่อนไหวต่อไปจะนำไปสู่การพอดี ยิ่งแย่ลง

เกี่ยวกับ [ 2 ] ของคุณโปรดทราบว่ากลยุทธ์การค้นหาที่แตกต่างกันมีแนวโน้มที่แตกต่างกันในมินิมาท้องถิ่น แม้แต่บางครั้งกลยุทธ์เดียวกันก็สามารถปรับเปลี่ยนได้หรือเริ่มจากจุดเริ่มต้นที่แตกต่างกันเพื่อจัดการกับปัญหาสองข้อหลัง


ขอบคุณ gung คำถามอีกข้อหนึ่งเราจะเลือกจุดเริ่มต้นที่ดีได้อย่างไรเมื่อปรับให้เหมาะสม
สถิติ

ฉันไม่รู้ว่ามีวิธีที่ดีที่สุด บางครั้งคุณต้องลองจุดเริ่มต้นที่แตกต่างกันสองสามอย่างถ้ามันไม่สามารถมาบรรจบกันหรือถ้าคุณไม่แน่ใจว่าคุณอยู่ในระดับต่ำสุดทั่วโลก ฉันคิดว่าวิธีทั่วไปที่โปรแกรมเลือกจุดเริ่มต้นคือการใช้ค่าประมาณของ OLS แม้ว่าจะไม่เหมาะสมและคุณรู้ว่าคุณจะต้องย้ายจากที่นั่น
gung - Reinstate Monica

6

คุณถูกต้องว่าโดยทั่วไปแล้ว IWLS เช่นเดียวกับวิธีการเพิ่มประสิทธิภาพเชิงตัวเลขอื่น ๆ สามารถรับประกันได้ว่าการบรรจบกันเป็นค่าสูงสุดในท้องถิ่นหากพวกเขามาบรรจบกัน นี่คือตัวอย่างที่ดีที่ค่าเริ่มต้นอยู่นอกโดเมนบรรจบสำหรับอัลกอริทึมที่ใช้โดย GLM () ในอาร์ แต่ก็เป็นที่น่าสังเกตว่าสำหรับ GLMs กับการเชื่อมโยงที่ยอมรับโอกาสเว้าให้ดูที่นี่ ดังนั้นหากอัลกอริทึมมาบรรจบกันมันจะกลายเป็นโหมดสากล!

ปัญหาล่าสุดที่ชี้ให้เห็นในสไลด์เป็นปัญหาที่ MLE สำหรับพารามิเตอร์เป็นที่ไม่มีที่สิ้นสุด สิ่งนี้สามารถเกิดขึ้นได้ในการถดถอยโลจิสติกที่มีการแยกสมบูรณ์ ในกรณีเช่นนี้คุณจะได้รับข้อความเตือนว่าความน่าจะเป็นที่ได้รับการติดตั้งเป็นตัวเลข 0 หรือ 1 เป็นสิ่งสำคัญที่จะต้องทราบว่าเมื่อเกิดเหตุการณ์นี้อัลกอริทึมไม่ได้แปรสภาพเป็นโหมดดังนั้นจึงไม่จำเป็นต้องเกี่ยวข้องกับอัลกอริทึม ติดอยู่ในท้องถิ่นสูงสุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.