พยายามเติมเต็มคำตอบอื่น ๆ ... ข้อมูลประเภทใดคือข้อมูลฟิชเชอร์ เริ่มต้นด้วยฟังก์ชั่น loglikelihood
เป็นฟังก์ชั่นของθสำหรับθ ∈ Θพื้นที่พารามิเตอร์ สมมติว่ามีเงื่อนไขปกติที่เราไม่ได้กล่าวถึงที่นี่เรามี
E ∂
ℓ(θ)=logf(x;θ)
θθ∈Θ(เราจะเขียนสัญญาซื้อขายล่วงหน้าที่เกี่ยวกับพารามิเตอร์เป็นจุดเป็นที่นี่) ความแปรปรวนเป็นข้อมูลที่ฟิชเชอร์
ผม(θ)=Eθ( ˙ ℓ (θ))2=-Eθ ¨ ℓ (θ)
สูตรล่าสุดแสดงให้เห็นว่ามันเป็น (ลบ) ความโค้งของฟังก์ชั่น loglikelihood หนึ่งมักจะพบตัวประมาณโอกาสสูงสุด (mle) ของ
E∂∂θℓ ( θ ) = Eθℓ˙( θ ) = 0ผม( θ ) = Eθ( ℓ˙( θ ) )2= - Eθℓ¨( θ )
โดยการแก้สมการความน่าจะเป็น
˙ ℓ ( θ ) = 0เมื่อข้อมูลฟิชเชอร์เป็นความแปรปรวนของคะแนน
˙ ℓ ( θ )ที่มีขนาดใหญ่แล้ววิธีการแก้สมการที่จะมีความสำคัญมากกับข้อมูลที่ให้ความหวังสำหรับสูง ความแม่นยำของ mle นั่นคือการยืนยันอย่างน้อย asymptotically ความแปรปรวนของ asymptotic mle เป็นสิ่งที่ตรงกันข้ามกับข้อมูลฟิชเชอร์
θℓ˙( θ ) = 0ℓ˙( θ )
เราจะตีความสิ่งนี้ได้อย่างไร เป็นข้อมูลความน่าจะเป็นเกี่ยวกับพารามิเตอร์θจากตัวอย่าง นี้สามารถจริงๆจะตีความเพียง แต่ในความรู้สึกของญาติเช่นเมื่อเราใช้มันเพื่อเปรียบเทียบ plausibilities สองค่าพารามิเตอร์ที่เป็นไปได้ที่แตกต่างผ่านการทดสอบอัตราส่วนโอกาสℓ ( θ 0 ) - ℓ ( θ 1 ) อัตราการเปลี่ยนแปลงของ loglikelihood คือฟังก์ชั่นคะแนน˙ ℓ ( θ )บอกเราวิธีการที่รวดเร็วการเปลี่ยนแปลงโอกาสและความแปรปรวนของฉัน( θ )ℓ ( θ )θℓ ( θ0) - ℓ ( θ1)ℓ˙( θ )ผม( θ )วิธีการที่แตกต่างกันมากนี้จากตัวอย่างตัวอย่างที่คุ้มค่า paramiter ให้พูด 0 สมการ (ซึ่งจริงๆน่าแปลกใจ!)
ฉัน( θ ) = - E θ ¨ ℓ ( θ )
บอกเรามี relationsship (ความเสมอภาค) ระหว่างความแปรปรวนในข้อมูลที่ (น่าจะ) สำหรับค่าพารามิเตอร์ที่กำหนดθ 0และ ความโค้งของฟังก์ชันความน่าจะเป็นสำหรับค่าพารามิเตอร์นั้น นี่คือความสัมพันธ์ที่น่าแปลกใจระหว่างแปรปรวน (แปรปรวน) ของ ths สถิติ˙ ℓ ( θ ) | θ = θ 0θ0
ผม( θ ) = - Eθℓ¨( θ )
θ0ℓ˙( θ ) ∣θ = θ0และการเปลี่ยนแปลงที่คาดหวังในความชอบเมื่อเราเปลี่ยนแปลงพารามิเตอร์
ในบางช่วงประมาณ
θ 0 (สำหรับข้อมูลเดียวกัน) นี่คือทั้งแปลกประหลาดและทรงพลัง!
θθ0
ฟังก์ชั่นความน่าจะเป็นคืออะไร? เรามักจะคิดว่าของแบบจำลองทางสถิติเป็นครอบครัวของดิน่าจะเป็นข้อมูลที่x , ดัชนีโดยพารามิเตอร์θองค์ประกอบบางอย่างในพารามิเตอร์พื้นที่Θ เราคิดว่าของรุ่นนี้เป็นจริงถ้ามีอยู่ค่าบางθ 0 ∈ Θดังกล่าวว่าข้อมูลที่xจริงมีความน่าจะเป็นการกระจายF ( x ; θ 0 ){ f( x ; θ ) , θ ∈ Θ }xθΘθ0∈ Θxฉ( x ; θ0). ดังนั้นเราจึงได้แบบจำลองทางสถิติโดยการใส่การกระจายความน่าจะเป็นที่แท้จริงของการแจกแจงในตระกูลการแจกแจงความน่าจะเป็น แต่เป็นที่ชัดเจนว่าการฝังดังกล่าวสามารถทำได้หลายวิธีและการฝังดังกล่าวจะเป็นรูปแบบ "ของจริง" และพวกเขาจะให้โอกาสในการทำงานที่แตกต่างกัน และหากปราศจากการฝังลึกเช่นนี้ก็จะไม่มีหน้าที่เป็นไปได้ ดูเหมือนว่าเราต้องการความช่วยเหลือจริง ๆ มีหลักการบางอย่างสำหรับวิธีการเลือกการฝังอย่างชาญฉลาด!ฉ( x ; θ0)
ดังนั้นสิ่งนี้หมายความว่าอย่างไร หมายความว่าตัวเลือกของฟังก์ชั่นความน่าจะเป็นบอกเราว่าเราคาดหวังว่าข้อมูลจะเปลี่ยนแปลงอย่างไรถ้าความจริงเปลี่ยนไปเล็กน้อย แต่ข้อมูลนี้ไม่สามารถตรวจสอบได้จริงเนื่องจากข้อมูลให้เฉพาะข้อมูลเกี่ยวกับฟังก์ชั่นตัวแบบที่แท้จริงซึ่งสร้างข้อมูลจริงและไม่เกี่ยวกับองค์ประกอบอื่น ๆ ในรูปแบบที่เลือก วิธีนี้เราจะเห็นว่าทางเลือกของฟังก์ชั่นความน่าจะเป็นคล้ายกับทางเลือกก่อนหน้านี้ในการวิเคราะห์แบบเบย์มันจะอัดข้อมูลที่ไม่ใช่ข้อมูลลงในการวิเคราะห์ ให้เราดูสิ่งนี้ในตัวอย่างง่าย ๆ (ค่อนข้างจะประดิษฐ์) และดูผลของการฝังf ( x ; θ 0 )ฉ( x ; θ0)ฉ( x ; θ0) ในรูปแบบที่แตกต่างกัน
ให้เราสมมติว่าจะ IID เป็นN ( μ = 10 , σ 2 = 1 ) นั่นคือการกระจายที่สร้างข้อมูลจริง ตอนนี้ให้เราฝังในรูปแบบในสองวิธีที่แตกต่างกัน, รุ่น A และรุ่นบี
: X 1 , ... , X n IID N ( μ , σ 2 = 1 ) , μ ∈ RX1, … , Xnยังไม่มีข้อความ( μ = 10 , σ2= 1 )
คุณสามารถตรวจสอบที่เกิดขึ้นพร้อมนี้ได้ μ = 10
A : X1, … , Xn iid N ( μ , σ2= 1 ) , μ ∈ RB : X1, … , Xn iid N ( μ , μ / 10 ) , μ > 0
μ = 10
ฟังก์ชั่น loglikelihood กลายเป็น
ℓA( μ ) = - n2เข้าสู่ระบบ( 2 π) - 12Σผม( xผม- μ )2ℓB( μ ) = - n2เข้าสู่ระบบ( 2 π) - n2เข้าสู่ระบบ( μ / 10 ) - 102Σผม( xผม- μ )2μ
ฟังก์ชั่นคะแนน: (loglikelihood อนุพันธ์):
และโค้ง
¨ ℓ (μ)=-n
ℓ˙A( μ ) = n ( x¯- μ )ℓ˙B( μ ) = - n2 μ- 102Σผม( xผมμ)2- 15 n
ดังนั้นข้อมูลฟิชเชอร์จะขึ้นอยู่กับการฝังตัว ตอนนี้เราคำนวณข้อมูลฟิชเชอร์ที่ค่าจริง
μ=10,
IA(μ=10)=n,ℓ¨A( μ ) = - nℓ¨B( μ ) = n2 μ2+ 102Σผม2 x2ผมμ3
μ = 10
ดังนั้นข้อมูล Fisher เกี่ยวกับพารามิเตอร์จึงค่อนข้างใหญ่กว่าในรุ่น B
ผมA( μ = 10 ) = n ,ผมB( μ = 10 ) = n ⋅ ( 1)200+ 20202000) > n
μ
ตัวอย่างนี้แสดงให้เห็นว่าเราจำเป็นต้องมีทฤษฎีบางอย่างที่ช่วยเราในการสร้างตระกูลแบบจำลอง