ฉันพยายามวางแผนแผนการเรียนรู้เพื่อการเรียนรู้ MLE ในการทำเช่นนี้ฉันกำลังพยายามหาแคลคูลัสระดับต่ำสุดที่จำเป็นต้องเข้าใจ MLE
มันเพียงพอที่จะเข้าใจพื้นฐานของแคลคูลัส (เช่นการค้นหาฟังก์ชันขั้นต่ำและสูงสุด) เพื่อที่จะเข้าใจ MLE หรือไม่?
ฉันพยายามวางแผนแผนการเรียนรู้เพื่อการเรียนรู้ MLE ในการทำเช่นนี้ฉันกำลังพยายามหาแคลคูลัสระดับต่ำสุดที่จำเป็นต้องเข้าใจ MLE
มันเพียงพอที่จะเข้าใจพื้นฐานของแคลคูลัส (เช่นการค้นหาฟังก์ชันขั้นต่ำและสูงสุด) เพื่อที่จะเข้าใจ MLE หรือไม่?
คำตอบ:
เพื่อขยายความคิดเห็นของฉัน - มันขึ้นอยู่กับ หากคุณเพียงแค่พยายามทำความเข้าใจพื้นฐานการสามารถหาฟังก์ชั่นมากมายทำให้คุณได้รับความเป็นธรรม (แม้ว่าในกรณีที่ใช้งานได้จริงของ MLE) โอกาสที่จะได้รับตัวเลขสูงสุดซึ่งในกรณีนี้คุณต้องมีทักษะอื่น ๆ เช่นกัน แคลคูลัสขั้นพื้นฐาน)
ฉันจะทิ้งกรณีง่าย ๆ ที่คุณได้รับการแก้ปัญหาพีชคณิตที่ชัดเจน ถึงกระนั้นแคลคูลัสก็มีประโยชน์มาก
ฉันจะถือว่าเป็นอิสระตลอด ลองใช้กรณีที่ง่ายที่สุดที่เป็นไปได้ของการเพิ่มประสิทธิภาพ 1 พารามิเตอร์ ก่อนอื่นเราจะมาดูกรณีที่เราสามารถหาอนุพันธ์และแยกการทำงานของพารามิเตอร์และสถิติ
พิจารณาความหนาแน่นของ
จากนั้นสำหรับตัวอย่างของขนาดความน่าจะเป็นคือ
และความน่าจะเป็นคือบันทึก
ที่{x_i} รับอนุพันธ์
ดังนั้นหากเราตั้งค่าเป็นศูนย์และพยายามแก้หาเราจะได้สิ่งนี้:
ที่เป็นdigammaฟังก์ชั่นและเป็นค่าเฉลี่ยเรขาคณิต เราต้องไม่ลืมว่าโดยทั่วไปคุณไม่สามารถตั้งค่าอนุพันธ์ให้เป็นศูนย์และมั่นใจได้ว่าคุณจะหาargmax ; คุณยังคงต้องแสดงให้เห็นว่าวิธีการแก้ปัญหามีค่าสูงสุด (ในกรณีนี้คือ) โดยทั่วไปแล้วคุณอาจได้รับคะแนนต่ำสุดหรือแนวนอนของการทำให้งอและแม้ว่าคุณจะมีค่าสูงสุดในท้องถิ่นคุณอาจไม่ได้ค่าสูงสุดทั่วโลกG ( ⋅ )
เพื่อให้งานของเราอยู่ในขณะนี้เพื่อหาค่าของที่
ที่{x})}
นี่ไม่ใช่วิธีแก้ปัญหาในแง่ของฟังก์ชั่นพื้นฐานมันจะต้องคำนวณเป็นตัวเลข อย่างน้อยเราก็สามารถรับฟังก์ชั่นของพารามิเตอร์ในด้านหนึ่งและฟังก์ชั่นของข้อมูลในอีกด้านหนึ่ง มีอัลกอริธึมการค้นหาศูนย์หลายแบบที่อาจใช้ถ้าคุณไม่มีวิธีการที่ชัดเจนในการแก้สมการ
บ่อยครั้งที่มันไม่ค่อยดีเท่าไหร่ พิจารณาความหนาแน่นของโลจิสติกส์ด้วยระดับหน่วย:
ทั้ง argmax ของความน่าจะเป็นและฟังก์ชั่นบันทึกความเป็นไปได้นั้นไม่สามารถหาได้ทางพีชคณิต - คุณต้องใช้วิธีการหาค่าเหมาะที่สุดเชิงตัวเลข ในกรณีนี้ฟังก์ชั่นอย่างเป็นธรรมประพฤติดีและวิธี Newton-Raphsonมักจะควรจะพอเพียงเพื่อหาประมาณการ ML ของ\หากอนุพันธ์ไม่พร้อมใช้งานหรือหาก Newton-Raphson ไม่มาบรรจบกันอาจจำเป็นต้องใช้วิธีการเพิ่มประสิทธิภาพแบบตัวเลขอื่น ๆ เช่น Golden-section (นี่ไม่ได้ตั้งใจจะให้เป็นภาพรวมของวิธีการที่ดีที่สุดที่มีอยู่ มีแนวโน้มที่จะพบในระดับพื้นฐาน)
โดยทั่วไปคุณอาจไม่สามารถทำสิ่งนั้นได้มากนัก พิจารณา Cauchy ที่มีค่ามัธยฐานและมาตราส่วนหน่วย:
โดยทั่วไปแล้วความน่าจะเป็นที่นี่ไม่มีค่าสูงสุดในท้องถิ่นที่ไม่ซ้ำกัน แต่มีค่าสูงสุดในพื้นที่หลายแห่ง หากคุณพบสูงสุดในท้องถิ่นอาจจะมีอีกหนึ่งที่ใหญ่กว่าที่อื่น ๆ (บางครั้งผู้คนมุ่งเน้นไปที่การระบุค่าสูงสุดในท้องถิ่นที่ใกล้เคียงกับค่ามัธยฐานหรือค่าอื่น ๆ )
มันง่ายสำหรับผู้เริ่มต้นที่จะสมมติว่าหากพวกเขาพบจุดเปลี่ยนเว้าที่พวกเขามีฟังก์ชั่น argmax แต่นอกเหนือจากหลายโหมด (กล่าวถึงแล้ว) อาจมี maxima ที่ไม่เกี่ยวข้องกับจุดเปลี่ยนเลย การได้อนุพันธ์และการตั้งค่าให้เป็นศูนย์นั้นไม่เพียงพอ พิจารณาการประมาณค่าพารามิเตอร์สำหรับชุดรูปแบบบนเช่น
ในกรณีอื่นพื้นที่ของพารามิเตอร์อาจไม่ต่อเนื่อง
บางครั้งการหาค่าสูงสุดอาจมีส่วนร่วมค่อนข้างมาก
และนั่นเป็นเพียงการสุ่มตัวอย่างของปัญหาด้วยพารามิเตอร์เดียว เมื่อคุณมีพารามิเตอร์หลายตัวสิ่งต่างๆก็จะเกี่ยวข้องกันอีกครั้ง
ใช่. แน่นอนว่าเราไม่ได้พูดถึงฟังก์ชั่นหนึ่งมิติ แต่ฟังก์ชั่นจะถูกขยายให้ใหญ่สุด (กล่าวคือความน่าจะเป็น) ดังนั้นนี่จึงเป็นขั้นสูงกว่าหนึ่ง - กรณีมิติ
สิ่งอำนวยความสะดวกบางอย่างที่มีลอการิทึมจะมีประโยชน์อย่างแน่นอนเนื่องจากการเพิ่มลอการิทึมของโอกาสสูงสุดมักจะง่ายกว่าการเพิ่มโอกาสให้ตัวเองให้มากที่สุด
ค่อนข้างเข้าใจง่ายกว่า MLE (ข้อมูลเมทริกซ์เป็นต้น) ถ้าคุณสามารถจัดการกับอนุพันธ์อันดับสองของฟังก์ชั่นเช่นเมทริกซ์ของ Hessian