แคลคูลัสจำเป็นต้องมีความเข้าใจในการประมาณค่าความน่าจะเป็นสูงสุดอย่างไร


11

ฉันพยายามวางแผนแผนการเรียนรู้เพื่อการเรียนรู้ MLE ในการทำเช่นนี้ฉันกำลังพยายามหาแคลคูลัสระดับต่ำสุดที่จำเป็นต้องเข้าใจ MLE

มันเพียงพอที่จะเข้าใจพื้นฐานของแคลคูลัส (เช่นการค้นหาฟังก์ชันขั้นต่ำและสูงสุด) เพื่อที่จะเข้าใจ MLE หรือไม่?


2
และเช่นเคยมันขึ้นอยู่กับ หากคุณเพียงแค่พยายามทำความเข้าใจพื้นฐานการสามารถหาฟังก์ชั่นมากมายทำให้คุณได้รับความเป็นธรรม (แม้ว่าในกรณีที่ใช้งานได้จริงของ MLE หลายตัว L ก็คือ M ซึ่งเป็นตัวเลขซึ่งในกรณีนี้คุณต้องมีทักษะอื่น ๆ ด้วยเช่นกัน บางแคลคูลัสเบื้องต้น)
Glen_b -Reinstate Monica

ขอบคุณ คุณช่วยอธิบายกรณีที่คุณพูดถึงอย่างละเอียดมากขึ้นได้ไหม มันฟังดูน่าสนใจ
histelheim

โอเค แต่ตอนนี้ฉันต้องตอบมัน รอก่อน.
Glen_b -Reinstate Monica

คำตอบ:


20

เพื่อขยายความคิดเห็นของฉัน - มันขึ้นอยู่กับ หากคุณเพียงแค่พยายามทำความเข้าใจพื้นฐานการสามารถหาฟังก์ชั่นมากมายทำให้คุณได้รับความเป็นธรรม (แม้ว่าในกรณีที่ใช้งานได้จริงของ MLE) โอกาสที่จะได้รับตัวเลขสูงสุดซึ่งในกรณีนี้คุณต้องมีทักษะอื่น ๆ เช่นกัน แคลคูลัสขั้นพื้นฐาน)

ฉันจะทิ้งกรณีง่าย ๆ ที่คุณได้รับการแก้ปัญหาพีชคณิตที่ชัดเจน ถึงกระนั้นแคลคูลัสก็มีประโยชน์มาก

ฉันจะถือว่าเป็นอิสระตลอด ลองใช้กรณีที่ง่ายที่สุดที่เป็นไปได้ของการเพิ่มประสิทธิภาพ 1 พารามิเตอร์ ก่อนอื่นเราจะมาดูกรณีที่เราสามารถหาอนุพันธ์และแยกการทำงานของพารามิเตอร์และสถิติ

พิจารณาความหนาแน่นของGamma(α,1)

fX(x;α)=1Γ(α)xα1exp(x);x>0;α>0

จากนั้นสำหรับตัวอย่างของขนาดความน่าจะเป็นคือn

L(α;x)=i=1nfX(xi;α)

และความน่าจะเป็นคือบันทึก ที่{x_i} รับอนุพันธ์

l(α;x)=i=1nlnfX(xi;α)=i=1nln(1Γ(α)xiα1exp(xi))
=i=1nlnΓ(α)+(α1)lnxixi
=nlnΓ(α)+(α1)Sxnx¯
Sx=i=1nlnxi

ddαl(α;x)=ddα(nlnΓ(α)+(α1)Sxnx¯)
=nΓ(α)Γ(α)+Sx
=nψ(α)+Sx

ดังนั้นหากเราตั้งค่าเป็นศูนย์และพยายามแก้หาเราจะได้สิ่งนี้: α^

ψ(α^)=lnG(x)

ที่เป็นdigammaฟังก์ชั่นและเป็นค่าเฉลี่ยเรขาคณิต เราต้องไม่ลืมว่าโดยทั่วไปคุณไม่สามารถตั้งค่าอนุพันธ์ให้เป็นศูนย์และมั่นใจได้ว่าคุณจะหาargmax ; คุณยังคงต้องแสดงให้เห็นว่าวิธีการแก้ปัญหามีค่าสูงสุด (ในกรณีนี้คือ) โดยทั่วไปแล้วคุณอาจได้รับคะแนนต่ำสุดหรือแนวนอนของการทำให้งอและแม้ว่าคุณจะมีค่าสูงสุดในท้องถิ่นคุณอาจไม่ได้ค่าสูงสุดทั่วโลกψ()G ( )G()

เพื่อให้งานของเราอยู่ในขณะนี้เพื่อหาค่าของที่α^

ψ(α^)=g

ที่{x})}g=lnG(x)

นี่ไม่ใช่วิธีแก้ปัญหาในแง่ของฟังก์ชั่นพื้นฐานมันจะต้องคำนวณเป็นตัวเลข อย่างน้อยเราก็สามารถรับฟังก์ชั่นของพารามิเตอร์ในด้านหนึ่งและฟังก์ชั่นของข้อมูลในอีกด้านหนึ่ง มีอัลกอริธึมการค้นหาศูนย์หลายแบบที่อาจใช้ถ้าคุณไม่มีวิธีการที่ชัดเจนในการแก้สมการ

บ่อยครั้งที่มันไม่ค่อยดีเท่าไหร่ พิจารณาความหนาแน่นของโลจิสติกส์ด้วยระดับหน่วย: ทั้ง argmax ของความน่าจะเป็นและฟังก์ชั่นบันทึกความเป็นไปได้นั้นไม่สามารถหาได้ทางพีชคณิต - คุณต้องใช้วิธีการหาค่าเหมาะที่สุดเชิงตัวเลข ในกรณีนี้ฟังก์ชั่นอย่างเป็นธรรมประพฤติดีและวิธี Newton-Raphsonมักจะควรจะพอเพียงเพื่อหาประมาณการ ML ของ\หากอนุพันธ์ไม่พร้อมใช้งานหรือหาก Newton-Raphson ไม่มาบรรจบกันอาจจำเป็นต้องใช้วิธีการเพิ่มประสิทธิภาพแบบตัวเลขอื่น ๆ เช่น Golden-section (นี่ไม่ได้ตั้งใจจะให้เป็นภาพรวมของวิธีการที่ดีที่สุดที่มีอยู่ มีแนวโน้มที่จะพบในระดับพื้นฐาน)

f(x;μ)=14sech2(xμ2).
μμ

โดยทั่วไปคุณอาจไม่สามารถทำสิ่งนั้นได้มากนัก พิจารณา Cauchy ที่มีค่ามัธยฐานและมาตราส่วนหน่วย:θ

fX(x;θ)=1π(1+(xθ)2).

โดยทั่วไปแล้วความน่าจะเป็นที่นี่ไม่มีค่าสูงสุดในท้องถิ่นที่ไม่ซ้ำกัน แต่มีค่าสูงสุดในพื้นที่หลายแห่ง หากคุณพบสูงสุดในท้องถิ่นอาจจะมีอีกหนึ่งที่ใหญ่กว่าที่อื่น ๆ (บางครั้งผู้คนมุ่งเน้นไปที่การระบุค่าสูงสุดในท้องถิ่นที่ใกล้เคียงกับค่ามัธยฐานหรือค่าอื่น ๆ )

มันง่ายสำหรับผู้เริ่มต้นที่จะสมมติว่าหากพวกเขาพบจุดเปลี่ยนเว้าที่พวกเขามีฟังก์ชั่น argmax แต่นอกเหนือจากหลายโหมด (กล่าวถึงแล้ว) อาจมี maxima ที่ไม่เกี่ยวข้องกับจุดเปลี่ยนเลย การได้อนุพันธ์และการตั้งค่าให้เป็นศูนย์นั้นไม่เพียงพอ พิจารณาการประมาณค่าพารามิเตอร์สำหรับชุดรูปแบบบนเช่น(0,θ)

ในกรณีอื่นพื้นที่ของพารามิเตอร์อาจไม่ต่อเนื่อง

บางครั้งการหาค่าสูงสุดอาจมีส่วนร่วมค่อนข้างมาก

และนั่นเป็นเพียงการสุ่มตัวอย่างของปัญหาด้วยพารามิเตอร์เดียว เมื่อคุณมีพารามิเตอร์หลายตัวสิ่งต่างๆก็จะเกี่ยวข้องกันอีกครั้ง


4

ใช่. แน่นอนว่าเราไม่ได้พูดถึงฟังก์ชั่นหนึ่งมิติ แต่ฟังก์ชั่นจะถูกขยายให้ใหญ่สุด (กล่าวคือความน่าจะเป็น) ดังนั้นนี่จึงเป็นขั้นสูงกว่าหนึ่ง - กรณีมิติRpR

สิ่งอำนวยความสะดวกบางอย่างที่มีลอการิทึมจะมีประโยชน์อย่างแน่นอนเนื่องจากการเพิ่มลอการิทึมของโอกาสสูงสุดมักจะง่ายกว่าการเพิ่มโอกาสให้ตัวเองให้มากที่สุด

ค่อนข้างเข้าใจง่ายกว่า MLE (ข้อมูลเมทริกซ์เป็นต้น) ถ้าคุณสามารถจัดการกับอนุพันธ์อันดับสองของฟังก์ชั่นเช่นเมทริกซ์ของ HessianRpR

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.