มันเป็นแค่ความสะดวกสบายสำหรับ loglikelihood ไม่มีอะไรมาก
ฉันหมายถึงความสะดวกสบายของผลรวมกับผลิตภัณฑ์: ผลรวมนั้นง่ายต่อการจัดการกับหลายประการเช่นความแตกต่างหรือการรวม มันไม่สะดวกสำหรับครอบครัวเอ็กซ์โพเนนเชียลฉันกำลังพยายามพูดLN( ∏ผมxผม) = ∑ผมLNxผม
เมื่อคุณจัดการกับกลุ่มตัวอย่างแบบสุ่มโอกาสเกิดเป็นรูปแบบ: จึง loglikelihood จะทำลายสินค้านี้ลงในผลรวมแทนซึ่งจะง่ายต่อการจัดการและวิเคราะห์ มันช่วยให้ทุกสิ่งที่เราใส่ใจคือจุดสูงสุดค่าที่สูงสุดไม่สำคัญเลยเราสามารถใช้การแปลงแบบซ้ำซากจำเจเช่นลอการิทึมL=∏ipi
เมื่อสัญชาตญาณความโค้ง มันคือสิ่งเดียวกันในท้ายที่สุดในฐานะอนุพันธ์อันดับสองของ loglikelihood
UPDATE: นี่คือสิ่งที่ฉันหมายถึงความโค้ง หากคุณมีฟังก์ชั่นว่ามันเป็นความโค้ง ( ดู (14)สำหรับ Wolfram):
κ = f ″ ( x )y=f(x)
κ=f′′(x)(1+f′(x)2)3 / 2
อนุพันธ์อันดับสองของความน่าจะเป็นบันทึก:
A = ( lnฉ( x ) )''= f''( x )ฉ( x )- ( f'( x )ฉ( x ))2
ณ จุดสูงสุดอนุพันธ์อันดับแรกนั้นมีค่าเป็นศูนย์ดังนั้นเราจะได้รับ:
ดังนั้นฉันสำนวนของฉันว่าความโค้งของความเป็นไปได้ และอนุพันธ์อันดับสองของ loglikelihood ก็เหมือนกัน
κm a x= f''( xm a x)=Af(xmax)
ในทางตรงกันข้ามถ้าอนุพันธ์แรกของความน่าจะเป็นขนาดเล็กที่ไม่เพียง แต่รอบจุดสูงสุดคือฟังก์ชั่นความน่าจะเป็นที่ราบแล้วเราจะได้รับ:
ตอนนี้น่าจะเป็นแบน ไม่ใช่สิ่งที่ดีสำหรับเราเพราะมันทำให้การค้นหาตัวเลขที่ยากที่สุดและความน่าจะเป็นสูงสุดนั้นไม่ดีกว่าจุดอื่น ๆ รอบ ๆ นั่นคือข้อผิดพลาดในการประมาณค่าพารามิเตอร์สูง
κ ≈ ฉ''( x ) ≈ Af( x)
และอีกครั้งเรายังคงมีความโค้งและความสัมพันธ์อนุพันธ์อันดับสอง เหตุใดฟิชเชอร์จึงไม่ดูความโค้งของฟังก์ชันความน่าจะเป็น ฉันคิดว่ามันเป็นเพราะเหตุผลเดียวกันกับความสะดวกสบาย มันง่ายกว่าที่จะจัดการ loglikelihood เพราะผลรวมแทนที่จะเป็นผลิตภัณฑ์ ดังนั้นเขาสามารถศึกษาความโค้งของความน่าจะเป็นได้โดยการวิเคราะห์อนุพันธ์อันดับสองของ loglikelihood แม้ว่าสมการจะดูง่ายมากสำหรับความโค้งในความเป็นจริงคุณกำลังหาอนุพันธ์อันดับสองของผลิตภัณฑ์ซึ่งยุ่งกว่าผลรวมของอนุพันธ์อันดับสองκm a x= f''( xm a x)
อัปเดต 2:
นี่คือการสาธิต ฉันวาดฟังก์ชันความน่าจะเป็น (ทำขึ้นอย่างสมบูรณ์), a) ความโค้งและข) อนุพันธ์อันดับสองของบันทึก ทางด้านซ้ายคุณจะเห็นโอกาสที่แคบและทางด้านขวามันกว้าง คุณจะเห็นว่า ณ จุดที่มีโอกาสมากที่สุดก) และข) มาบรรจบกันอย่างที่ควรจะเป็น ที่สำคัญกว่านั้นคือคุณสามารถศึกษาความกว้าง (หรือความเรียบ) ของฟังก์ชันความน่าจะเป็นได้โดยตรวจสอบอนุพันธ์อันดับสองของความน่าจะเป็นของบันทึก อย่างที่ฉันได้เขียนไว้ก่อนหน้านี้เรื่องหลังนั้นง่ายกว่าในทางเทคนิคในการวิเคราะห์
ไม่น่าแปลกใจที่อนุพันธ์อันดับ 2 ของสัญญาณ loglikelihood จะประจบฟังก์ชันความน่าจะเป็นรอบ ๆ ค่าสูงสุดซึ่งไม่ต้องการเพราะมันทำให้เกิดข้อผิดพลาดในการประมาณค่าพารามิเตอร์ที่ใหญ่กว่า
รหัส MATLAB ในกรณีที่คุณต้องการทำซ้ำแปลง:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
อัปเดต 3:
ในโค้ดข้างต้นฉันเสียบฟังก์ชันรูประฆังโดยพลการลงในสมการความโค้งแล้วคำนวณอนุพันธ์อันดับสองของบันทึก ฉันไม่ได้ปรับขนาดอะไรอีกแล้วค่าตรงจากสมการเพื่อแสดงความเท่าเทียมที่ฉันพูดถึงไปก่อนหน้านี้
นี่เป็นบทความแรกเกี่ยวกับโอกาสที่ฟิชเชอร์ตีพิมพ์ในขณะที่ยังอยู่ในมหาวิทยาลัย "ในเกณฑ์สัมบูรณ์สำหรับเส้นโค้งความถี่ที่เหมาะสม", Messenger of Mathmatics, 41: 155-160 (1912)
ในขณะที่ฉันยืนยันตลอดเขาไม่ได้พูดถึงการเชื่อมโยงความน่าจะเป็นของบันทึกการเข้าสู่เอนโทรปีและเรื่องแฟนซีอื่น ๆ ที่ลึกซึ้งยิ่งขึ้น เขาวางสมการบน p.54 แล้วจึงพูดคุยเกี่ยวกับการเพิ่มความน่าจะเป็นสูงสุด ในความคิดของฉันนี้แสดงให้เห็นว่าเขาใช้ลอการิทึมเช่นเดียวกับวิธีที่สะดวกในการวิเคราะห์ความน่าจะเป็นร่วมกันด้วยตนเอง มันมีประโยชน์อย่างยิ่งในการปรับโค้งอย่างต่อเนื่องซึ่งเขาได้ให้สูตรที่ชัดเจนใน p.55:
log P =เข้าสู่ระบบP'= ∑n1เข้าสู่ระบบพี
เข้าสู่ระบบP= ∫∞- ∞เข้าสู่ระบบฉdx
P
สิ่งหนึ่งที่ควรทราบเมื่ออ่านกระดาษเขาเริ่มต้นด้วยการประเมินความเป็นไปได้สูงสุดเท่านั้นและทำงานได้มากขึ้นใน 10 ปีต่อมาดังนั้นแม้กระทั่งคำว่า MLE ยังไม่ได้ประกาศเกียรติคุณเท่าที่ฉันรู้