คำอธิบายที่เข้าใจง่ายของ Fisher Information และ Cramer-Rao


59

ฉันไม่พอใจกับข้อมูลฟิชเชอร์มาตรการและวิธีการที่เป็นประโยชน์ นอกจากนี้ความสัมพันธ์กับขอบเขตแครมเมอร์ - ราวไม่ชัดเจนสำหรับฉัน

ใครสามารถช่วยอธิบายแนวคิดเหล่านี้ได้ด้วยตนเอง?


1
มีอะไรในบทความ Wikipediaซึ่งก่อให้เกิดปัญหาหรือไม่ มันวัดปริมาณของข้อมูลที่สังเกตตัวแปรสุ่มดำเนินการเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักซึ่งน่าจะเป็นของขึ้นและผกผันของมันคือ Cramer-ราวขอบเขตล่างบนความแปรปรวนของประมาณการเป็นกลางของ\XθXθ
Henry

2
ฉันเข้าใจว่า แต่ฉันไม่สบายใจกับมัน เช่น "ปริมาณข้อมูล" หมายถึงอะไรที่นี่ ทำไมความคาดหวังเชิงลบของกำลังสองของอนุพันธ์บางส่วนของความหนาแน่นจึงวัดข้อมูลนี้ การแสดงออกมาจากที่ไหน ฯลฯ นั่นคือสาเหตุที่ฉันหวังว่าจะได้สัญชาตญาณเกี่ยวกับเรื่องนี้
อินฟินิตี้

@ อินฟินิตี้: คะแนนคืออัตราการเปลี่ยนแปลงตามสัดส่วนในความเป็นไปได้ของข้อมูลที่สังเกตได้เมื่อพารามิเตอร์เปลี่ยนแปลงและมีประโยชน์สำหรับการอนุมาน ฟิชเชอร์ให้ข้อมูลความแปรปรวนของคะแนน (ศูนย์ - หมายถึง) ในทางคณิตศาสตร์มันคือความคาดหวังของกำลังสองของอนุพันธ์ย่อยส่วนแรกของลอการิทึมของความหนาแน่นและเป็นลบของความคาดหวังของอนุพันธ์ย่อยส่วนที่สองของลอการิทึมของความหนาแน่น
Henry

คำตอบ:


32

ที่นี่ฉันจะอธิบายว่าทำไมความแปรปรวนเชิงซีมิกของตัวประมาณความน่าจะเป็นสูงสุดคือขอบเขตล่างของแครมเมอร์ - ราว หวังว่านี่จะให้ข้อมูลเชิงลึกเกี่ยวกับความเกี่ยวข้องของข้อมูลฟิชเชอร์

การอนุมานทางสถิติดำเนินไปด้วยการใช้ฟังก์ชันความน่าจะเป็นที่คุณสร้างจากข้อมูล ประมาณการจุดเป็นค่าซึ่งจะเพิ่มtheta) เครื่องมือประมาณเป็นตัวแปรสุ่ม แต่ช่วยให้ตระหนักได้ว่าฟังก์ชันความน่าจะเป็นคือ "เส้นโค้งแบบสุ่ม"θ L ( θ ) θ L ( θ )L(θ)θ^L(θ)θ^ L(θ)

ที่นี่เราสันนิษฐานว่าข้อมูลที่ดึงมาจากการแจกจ่ายและการกำหนดโอกาส L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

พารามิเตอร์มีคุณสมบัติที่จะช่วยเพิ่มมูลค่าของความน่าจะเป็น "ของจริง" ที่theta) อย่างไรก็ตามฟังก์ชั่นความน่าจะเป็น "สังเกต"ซึ่งสร้างขึ้นจากข้อมูลจะถูก "ปิด" เล็กน้อยจากโอกาสที่แท้จริง ทว่าคุณสามารถจินตนาการได้ว่าเมื่อขนาดของกลุ่มตัวอย่างเพิ่มขึ้นความน่าจะเป็นที่ "สังเกต" จะแปรเปลี่ยนเป็นรูปร่างของเส้นโค้งความเป็นไปได้ที่แท้จริง เช่นเดียวกับที่มาของความเป็นไปได้เกี่ยวกับพารามิเตอร์ฟังก์ชั่นคะแนน\ (เรื่องสั้นสั้น ๆ ข้อมูลฟิชเชอร์เป็นตัวกำหนดว่าฟังก์ชันคะแนนที่สังเกตได้เร็วเพียงใดมาบรรจบกับรูปร่างของฟังก์ชันคะแนนจริงE L ( θ ) L ( θ ) L /θθEL(θ)L(θ) L/θ

ที่ขนาดตัวอย่างใหญ่เราสันนิษฐานว่าการประมาณความน่าจะเป็นสูงสุดนั้นใกล้กับมาก เราซูมเข้าไปในย่านเล็ก ๆ รอบ ๆและเพื่อให้ฟังก์ชันความน่าจะเป็นคือ "กำลังสองในพื้นที่" θθ θθ^θθθ^

ที่นั่นคือจุดที่ฟังก์ชันคะแนนปริภูมิกำเนิด ในภูมิภาคนี้มีขนาดเล็กที่เราปฏิบัติต่อฟังก์ชั่นคะแนนเป็นสายหนึ่งที่มีความลาดชันและ สุ่มตัดที่\เรารู้จากสมการของเส้นตรงนั้นL/θθθ^ L/θabθ

a(θ^θ)+b=0

หรือ

θ^=θb/a.

จากความสอดคล้องของตัวประมาณ MLE เรารู้ว่า

E(θ^)=θ

ในขีด จำกัด

ดังนั้น asymptotically

nVar(θ^)=nVar(b/a)

แต่กลับกลายเป็นว่าความลาดชันที่แตกต่างกันมากน้อยกว่าการสกัดกั้นและ asymptotically เราสามารถรักษาฟังก์ชั่นคะแนนที่มีความลาดชันอย่างต่อเนื่องในพื้นที่ใกล้เคียงขนาดเล็กทั่ว\ดังนั้นเราสามารถเขียนθ

nVar(θ^)=1a2nVar(b)

ดังนั้นค่าของและคืออะไร? ปรากฎว่าเนื่องจากความบังเอิญทางคณิตศาสตร์ที่ยิ่งใหญ่พวกเขามีปริมาณเท่ากันมาก (โมดูโลเครื่องหมายลบ) ข้อมูลฟิชเชอร์n V a r ( b )anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

ดังนั้น,

1/I(θ)

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
asymptotically : Cramer-Rao ขอบเขตล่าง (แสดงว่าเป็นขอบเขตล่างของความแปรปรวนของตัวประมาณค่าที่ไม่เอนเอียงเป็นอีกเรื่องหนึ่ง)1/I(θ)

2
มีการแสดงกราฟิกของส่วนที่คุณพูดถึงว่าฟังก์ชั่นความน่าจะเป็นกำลังสองท้องถิ่นหรือไม่?
quirik

@quirik ลองใช้ลำดับที่สองของการขยายตัวเทย์เลอร์รอบ theta_hat
idnavid

@ charles.y.zheng นี่เป็นหนึ่งในคำอธิบายที่น่าสนใจที่สุดของฉาก
idnavid

13

วิธีหนึ่งที่ฉันเข้าใจข้อมูลการประมงคือตามคำจำกัดความต่อไปนี้:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

ข้อมูลฟิชเชอร์สามารถเขียนด้วยวิธีนี้เมื่อใดก็ตามที่ความหนาแน่นแตกต่างกันสองครั้ง ถ้าพื้นที่ตัวอย่างไม่ได้ขึ้นอยู่กับพารามิเตอร์เราสามารถใช้สูตรอินทิกรัลไลบนิซเพื่อแสดงว่าเทอมแรกเป็นศูนย์ (แยกความแตกต่างของทั้งสองด้านสองครั้งและคุณจะได้รับศูนย์) และคำที่สองคือคำจำกัดความ "มาตรฐาน" ฉันจะเอากรณีเมื่อเทอมแรกเป็นศูนย์ กรณีที่ไม่เป็นศูนย์ก็ไม่ได้ใช้ในการทำความเข้าใจกับข้อมูลชาวประมงมากนักX θ X( x | θ ) d x = 1f(x|θ)XθXf(x|θ)dx=1

ตอนนี้เมื่อคุณทำการประเมินความเป็นไปได้สูงสุด (แทรก "เงื่อนไขปกติ" ที่นี่) ที่คุณตั้งไว้

θlog[f(x|θ)]=0

และแก้ปัญหาสำหรับ\ดังนั้นอนุพันธ์อันดับสองบอกว่าการไล่ระดับสีเปลี่ยนไปเร็วแค่ไหนและในแง่ "ไกลแค่ไหน"สามารถออกจาก MLE ได้โดยไม่ต้องทำการเปลี่ยนแปลงที่เห็นได้ชัดเจนในด้านขวามือของสมการข้างต้น อีกวิธีหนึ่งที่คุณสามารถนึกได้ก็คือการจินตนาการ "ภูเขา" ที่วาดลงบนกระดาษ - นี่คือฟังก์ชั่นบันทึกความเป็นไปได้ การแก้สมการข้างต้น MLE บอกคุณที่จุดสูงสุดของภูเขานี้ตั้งอยู่เป็นหน้าที่ของตัวแปรสุ่มxอนุพันธ์อันดับสองบอกคุณว่าภูเขาสูงชันมากแค่ไหนในแง่หนึ่งจะบอกคุณว่าการหาจุดสูงสุดของภูเขานั้นง่ายแค่ไหน ข้อมูลฟิชเชอร์มาจากการใช้ความชันสูงสุดของจุดสูงสุดดังนั้นจึงมีการตีความ "ข้อมูลล่วงหน้า" เล็กน้อยθ xθθx

สิ่งหนึ่งที่ฉันยังคงอยากรู้อยากเห็นก็คือว่ามันเป็นไปได้อย่างไรและไม่ใช่วิธีชันชัน - ฟังก์ชั่นอื่น ๆ ของความน่าจะเป็นที่น่าเบื่อ (อาจจะเกี่ยวข้องกับการให้คะแนน "เหมาะสม" ในทฤษฎีการตัดสินใจหรือ? ?)

ข้อมูลฟิชเชอร์ยัง "แสดง" ในการวิเคราะห์เชิงเส้นประสาทหลายอย่างเนื่องจากสิ่งที่รู้จักกันในชื่อการประมาณลาปลาซ สิ่งนี้โดยพื้นฐานแล้วเนื่องจากความจริงที่ว่าฟังก์ชั่นใด ๆ ที่มีการเพิ่มสูงสุดเพียงครั้งเดียวเพื่อให้ได้พลังงานที่สูงกว่าและสูงกว่าจะเข้าสู่ฟังก์ชันเกาส์เซียน (คล้ายกับทฤษฎีขีด จำกัด กลาง ทั่วไป). ดังนั้นเมื่อคุณมีตัวอย่างจำนวนมากคุณจะอยู่ในตำแหน่งนี้อย่างมีประสิทธิภาพและคุณสามารถเขียน:exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

และเมื่อคุณเทย์เลอร์ขยายโอกาสในการบันทึกเกี่ยวกับ MLE:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)
และอนุพันธ์อันดับที่สองของบันทึกความน่าจะเป็นปรากฏขึ้น (แต่ในรูปแบบ "สังเกต" แทนที่จะเป็น "คาดหวัง") สิ่งที่มักจะทำที่นี่คือการทำให้การประมาณเพิ่มเติม:

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

ซึ่งจำนวนเงินที่ประมาณโดยปกติที่ดีของการแทนที่ผลรวมโดยอินทิกรัล แต่สิ่งนี้ต้องการให้ข้อมูลมีความเป็นอิสระ ดังนั้นสำหรับกลุ่มตัวอย่างอิสระขนาดใหญ่ (ที่ได้รับ ) คุณจะเห็นว่าข้อมูลฟิชเชอร์เป็นวิธีที่ตัวแปร MLE คือสำหรับค่าต่างๆของ MLEθ


1
“ สิ่งหนึ่งที่ฉันยังพบว่าอยากรู้อยากเห็นก็คือว่ามันมีความเป็นไปได้สูงแค่ไหนและไม่ใช่วิธีการทำงานแบบโมโนโทนิชันของโอกาสที่สูงชัน” ฉันแน่ใจว่าคุณสามารถรับ analogues สำหรับข้อมูล Fisher ในแง่ของการเปลี่ยนแปลงอื่น ๆ ของความน่าจะเป็น แต่แล้วคุณจะไม่ได้รับการแสดงออกที่เป็นระเบียบสำหรับขอบเขตล่างของ Cramer-Rao
charles.y.zheng

2

นี่เป็นบทความที่เข้าใจง่ายที่สุดที่ฉันเคยเห็น:

Cramér-Rao Lower Bound on Variance: หลักการความไม่แน่นอนของ Adam และ Eve โดย Michael R. Powers, วารสารการเงินความเสี่ยง, Vol. 7, ฉบับที่ 3, 2006

ขอบเขตถูกอธิบายโดยการเปรียบเทียบของอาดัมและเอวาในสวนเอเดนโยนเหรียญเพื่อดูว่าใครจะกินผลไม้และจากนั้นพวกเขาถามตัวเองว่ามีตัวอย่างขนาดใหญ่เท่าใดที่จำเป็นเพื่อให้ได้ความแม่นยำในระดับหนึ่ง แล้วพวกเขาก็ค้นพบสิ่งที่ถูกผูกไว้ ...

เรื่องราวที่ดีกับข้อความที่ลึกซึ้งเกี่ยวกับความเป็นจริงแน่นอน


6
ขอบคุณสำหรับการโพสต์ข้อมูลอ้างอิงนี้ ในตอนท้ายฉันรู้สึกผิดหวังแม้ว่าจะพบว่ามันไม่ได้อธิบาย CRLB จริง ๆ มันบอกเพียงแค่นั้นโดยไม่ต้องให้เหตุผลว่าทำไมจึงเป็นเรื่องจริงและให้ภาษาที่นำเสนอ แต่ในที่สุดก็ไม่มีความหมายเช่น "บีบข้อมูล" ในความพยายามที่จะอธิบาย
whuber

@whuber: ยุติธรรมเพียงพอฉันยอมรับว่ามันสามารถดำน้ำได้ในที่ลึกและตอนจบก็ค่อนข้างฉับพลัน แต่สิ่งที่ฉันชอบเกี่ยวกับบทความก็ดูเหมือนจริง ๆ แล้วว่ามีการเชื่อมต่อระหว่างขนาดตัวอย่างค่าเฉลี่ยตัวอย่างกฎจำนวนมากและความแปรปรวนตัวอย่างสามารถลดลงได้ถึงจุดเท่านั้น (เช่นต้องมี บางสิ่งที่ถูกผูกไว้ซึ่งเป็นสิ่งที่กล่าวมาข้างต้น) มันยังทำให้เห็นได้ชัดว่านี่ไม่ใช่ผลลัพธ์ทางคณิตศาสตร์ที่เข้าใจยาก แต่เป็นคำแถลงเกี่ยวกับข้อ จำกัด ในการรับความรู้เกี่ยวกับความเป็นจริง
vonjd

2

แม้ว่าคำอธิบายที่ให้ไว้ข้างต้นนั้นน่าสนใจมากและฉันก็รู้สึกสนุกกับมัน แต่ฉันรู้สึกว่าธรรมชาติของ Cramer-Rao Lower Bound อธิบายได้ดีที่สุดสำหรับฉันจากมุมมองทางเรขาคณิต สัญชาตญาณนี่คือบทสรุปของแนวคิดของวงรีเข้มข้นจากบทที่ 6 ของหนังสือเล่ม Scharf เกี่ยวกับสถิติการประมวลผลสัญญาณ

พิจารณาประมาณการเป็นกลางใด ๆ ของ\} นอกจากนี้สมมติว่าประมาณการมีการกระจายแบบเกาส์ที่มีความแปรปรวนSigma} ภายใต้เงื่อนไขเหล่านี้การกระจายของเป็นสัดส่วนกับ:θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ))theta}))

ตอนนี้คิดว่าแปลงรูปร่างของการกระจายนี้สำหรับ 2 ข้อ จำกัด ขอบเขตบนของความน่าจะเป็นของ (กล่าวคือ ) จะส่งผลให้รูปไข่อยู่กึ่งกลางที่มีรัศมีคงRมันง่ายที่จะแสดงให้เห็นว่ามีความสัมพันธ์แบบหนึ่งต่อหนึ่งระหว่างรัศมีของทรงรีและความน่าจะเป็นที่ต้องการP_rกล่าวอีกนัยหนึ่งอยู่ใกล้กับภายในรูปวงรีที่กำหนดโดยรัศมีด้วยความน่าจะเป็นθF ( θ ) d θP R θ R R P R θ θ R P RθR2θ^f(θ^)dθPrθrrPrθ^θrPr. ellipsoid นี้เรียกว่า ellipsoid ที่มีความเข้มข้น

เมื่อพิจารณาจากคำอธิบายข้างต้นเราสามารถพูดต่อไปนี้เกี่ยวกับ CRLB ในบรรดาผู้ประมาณค่าที่เป็นกลางทั้งหมด CRLB แสดงตัวประมาณมีความแปรปรวนร่วมซึ่งสำหรับความน่าจะเป็นคงที่ของ "ความใกล้ชิด" (ตามที่กำหนดไว้ด้านบน) ความเข้มข้นรูปไข่ รูปด้านล่างแสดงภาพประกอบ 2D (ได้รับแรงบันดาลใจจากภาพประกอบในหนังสือของ Scharf )ΣRลิตรPRθ^crlbΣcrlbPr

ภาพประกอบ 2 มิติของ CRLB ในบริบทของตัวประมาณที่ไม่เอนเอียง


2
นี่เป็นสิ่งที่ยอดเยี่ยมมากโดยเฉพาะอย่างยิ่งภาพที่ต้องการความสูงมาก
Astrid
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.