ข้อมูลฟิชเชอร์เป็นข้อมูลประเภทใด?


29

สมมติว่าเรามีตัวแปรสุ่มtheta) ถ้าเป็นพารามิเตอร์จริงฟังก์ชันความน่าจะเป็นควรขยายให้ใหญ่สุดและอนุพันธ์เท่ากับศูนย์ นี่คือหลักการพื้นฐานที่อยู่เบื้องหลังตัวประมาณค่าความน่าจะเป็นสูงสุดX~(x|θ)θ0

ตามที่ฉันเข้าใจแล้วข้อมูลฟิชเชอร์ถูกกำหนดให้เป็น

ผม(θ)=E[(θ(X|θ))2]

ดังนั้นหากเป็นพารามิเตอร์ที่จริง0 แต่ถ้ามันไม่ใช่พารามิเตอร์จริงเราจะมีข้อมูลฟิชเชอร์จำนวนมากขึ้นθ0ผม(θ)=0θ0

คำถามของฉัน

  1. ข้อมูล Fisher ทำการวัด "ข้อผิดพลาด" ของ MLE ที่กำหนดหรือไม่ กล่าวอีกนัยหนึ่งการมีอยู่ของข้อมูลฟิชเชอร์ในเชิงบวกไม่ได้หมายความว่า MLE ของฉันไม่เหมาะอย่างยิ่งหรือ
  2. คำจำกัดความของ "ข้อมูล" นี้แตกต่างจากที่ Shannon ใช้อย่างไร ทำไมเราถึงเรียกมันว่าข้อมูล?

ทำไมคุณเขียนมัน ? ความคาดหวังที่มีมากกว่าค่าของกระจายราวกับว่าพวกเขามาจากการกระจายของคุณกับพารามิเตอร์\ X θEθXθ
Neil G

3
นอกจากนี้ไม่ได้เป็นศูนย์ที่พารามิเตอร์จริง I(θ)
Neil G

E (S) เป็นศูนย์ (เช่น: ความคาดหวังของฟังก์ชันคะแนน) แต่ตามที่ Neil G เขียนไว้ - ข้อมูลการตกปลา (V (S)) ไม่ใช่ศูนย์ (ปกติ)
Tal Galili

คำตอบ:


15

พยายามเติมเต็มคำตอบอื่น ๆ ... ข้อมูลประเภทใดคือข้อมูลฟิชเชอร์ เริ่มต้นด้วยฟังก์ชั่น loglikelihood เป็นฟังก์ชั่นของθสำหรับθ Θพื้นที่พารามิเตอร์ สมมติว่ามีเงื่อนไขปกติที่เราไม่ได้กล่าวถึงที่นี่เรามี E

(θ)=เข้าสู่ระบบ(x;θ)
θθΘ(เราจะเขียนสัญญาซื้อขายล่วงหน้าที่เกี่ยวกับพารามิเตอร์เป็นจุดเป็นที่นี่) ความแปรปรวนเป็นข้อมูลที่ฟิชเชอร์ ผม(θ)=Eθ( ˙ (θ))2=-Eθ ¨ (θ) สูตรล่าสุดแสดงให้เห็นว่ามันเป็น (ลบ) ความโค้งของฟังก์ชั่น loglikelihood หนึ่งมักจะพบตัวประมาณโอกาสสูงสุด (mle) ของEθ(θ)=Eθ˙(θ)=0
ผม(θ)=Eθ(˙(θ))2=-Eθ¨(θ)
โดยการแก้สมการความน่าจะเป็น ˙ ( θ ) = 0เมื่อข้อมูลฟิชเชอร์เป็นความแปรปรวนของคะแนน ˙ ( θ )ที่มีขนาดใหญ่แล้ววิธีการแก้สมการที่จะมีความสำคัญมากกับข้อมูลที่ให้ความหวังสำหรับสูง ความแม่นยำของ mle นั่นคือการยืนยันอย่างน้อย asymptotically ความแปรปรวนของ asymptotic mle เป็นสิ่งที่ตรงกันข้ามกับข้อมูลฟิชเชอร์θ˙(θ)=0˙(θ)

เราจะตีความสิ่งนี้ได้อย่างไร เป็นข้อมูลความน่าจะเป็นเกี่ยวกับพารามิเตอร์θจากตัวอย่าง นี้สามารถจริงๆจะตีความเพียง แต่ในความรู้สึกของญาติเช่นเมื่อเราใช้มันเพื่อเปรียบเทียบ plausibilities สองค่าพารามิเตอร์ที่เป็นไปได้ที่แตกต่างผ่านการทดสอบอัตราส่วนโอกาส( θ 0 ) - ( θ 1 ) อัตราการเปลี่ยนแปลงของ loglikelihood คือฟังก์ชั่นคะแนน˙ ( θ )บอกเราวิธีการที่รวดเร็วการเปลี่ยนแปลงโอกาสและความแปรปรวนของฉัน( θ )(θ)θ(θ0)-(θ1)˙(θ)ผม(θ)วิธีการที่แตกต่างกันมากนี้จากตัวอย่างตัวอย่างที่คุ้มค่า paramiter ให้พูด 0 สมการ (ซึ่งจริงๆน่าแปลกใจ!) ฉัน( θ ) = - E θ ¨ ( θ ) บอกเรามี relationsship (ความเสมอภาค) ระหว่างความแปรปรวนในข้อมูลที่ (น่าจะ) สำหรับค่าพารามิเตอร์ที่กำหนดθ 0และ ความโค้งของฟังก์ชันความน่าจะเป็นสำหรับค่าพารามิเตอร์นั้น นี่คือความสัมพันธ์ที่น่าแปลกใจระหว่างแปรปรวน (แปรปรวน) ของ ths สถิติ˙ ( θ ) | θ = θ 0θ0

ผม(θ)=-Eθ¨(θ)
θ0˙(θ)|θ=θ0และการเปลี่ยนแปลงที่คาดหวังในความชอบเมื่อเราเปลี่ยนแปลงพารามิเตอร์ในบางช่วงประมาณθ 0 (สำหรับข้อมูลเดียวกัน) นี่คือทั้งแปลกประหลาดและทรงพลัง!θθ0

ฟังก์ชั่นความน่าจะเป็นคืออะไร? เรามักจะคิดว่าของแบบจำลองทางสถิติเป็นครอบครัวของดิน่าจะเป็นข้อมูลที่x , ดัชนีโดยพารามิเตอร์θองค์ประกอบบางอย่างในพารามิเตอร์พื้นที่Θ เราคิดว่าของรุ่นนี้เป็นจริงถ้ามีอยู่ค่าบางθ 0Θดังกล่าวว่าข้อมูลที่xจริงมีความน่าจะเป็นการกระจายF ( x ; θ 0 ){(x;θ),θΘ}xθΘθ0Θx(x;θ0). ดังนั้นเราจึงได้แบบจำลองทางสถิติโดยการใส่การกระจายความน่าจะเป็นที่แท้จริงของการแจกแจงในตระกูลการแจกแจงความน่าจะเป็น แต่เป็นที่ชัดเจนว่าการฝังดังกล่าวสามารถทำได้หลายวิธีและการฝังดังกล่าวจะเป็นรูปแบบ "ของจริง" และพวกเขาจะให้โอกาสในการทำงานที่แตกต่างกัน และหากปราศจากการฝังลึกเช่นนี้ก็จะไม่มีหน้าที่เป็นไปได้ ดูเหมือนว่าเราต้องการความช่วยเหลือจริง ๆ มีหลักการบางอย่างสำหรับวิธีการเลือกการฝังอย่างชาญฉลาด!(x;θ0)

ดังนั้นสิ่งนี้หมายความว่าอย่างไร หมายความว่าตัวเลือกของฟังก์ชั่นความน่าจะเป็นบอกเราว่าเราคาดหวังว่าข้อมูลจะเปลี่ยนแปลงอย่างไรถ้าความจริงเปลี่ยนไปเล็กน้อย แต่ข้อมูลนี้ไม่สามารถตรวจสอบได้จริงเนื่องจากข้อมูลให้เฉพาะข้อมูลเกี่ยวกับฟังก์ชั่นตัวแบบที่แท้จริงซึ่งสร้างข้อมูลจริงและไม่เกี่ยวกับองค์ประกอบอื่น ๆ ในรูปแบบที่เลือก วิธีนี้เราจะเห็นว่าทางเลือกของฟังก์ชั่นความน่าจะเป็นคล้ายกับทางเลือกก่อนหน้านี้ในการวิเคราะห์แบบเบย์มันจะอัดข้อมูลที่ไม่ใช่ข้อมูลลงในการวิเคราะห์ ให้เราดูสิ่งนี้ในตัวอย่างง่าย ๆ (ค่อนข้างจะประดิษฐ์) และดูผลของการฝังf ( x ; θ 0 )(x;θ0)(x;θ0) ในรูปแบบที่แตกต่างกัน

ให้เราสมมติว่าจะ IID เป็นN ( μ = 10 , σ 2 = 1 ) นั่นคือการกระจายที่สร้างข้อมูลจริง ตอนนี้ให้เราฝังในรูปแบบในสองวิธีที่แตกต่างกัน, รุ่น A และรุ่นบี : X 1 , ... , X n IID N ( μ , σ 2 = 1 ) , μ RX1,...,Xnยังไม่มีข้อความ(μ=10,σ2=1) คุณสามารถตรวจสอบที่เกิดขึ้นพร้อมนี้ได้ μ = 10

A:X1,...,Xn IID ยังไม่มีข้อความ(μ,σ2=1),μRB:X1,...,Xn IID ยังไม่มีข้อความ(μ,μ/10),μ>0
μ=10

ฟังก์ชั่น loglikelihood กลายเป็น

A(μ)=-n2เข้าสู่ระบบ(2π)-12Σผม(xผม-μ)2B(μ)=-n2เข้าสู่ระบบ(2π)-n2เข้าสู่ระบบ(μ/10)-102Σผม(xผม-μ)2μ

ฟังก์ชั่นคะแนน: (loglikelihood อนุพันธ์): และโค้ง ¨ (μ)=-n

˙A(μ)=n(x¯-μ)˙B(μ)=-n2μ-102Σผม(xผมμ)2-15n
ดังนั้นข้อมูลฟิชเชอร์จะขึ้นอยู่กับการฝังตัว ตอนนี้เราคำนวณข้อมูลฟิชเชอร์ที่ค่าจริงμ=10, IA(μ=10)=n,
¨A(μ)=-n¨B(μ)=n2μ2+102Σผม2xผม2μ3
μ=10 ดังนั้นข้อมูล Fisher เกี่ยวกับพารามิเตอร์จึงค่อนข้างใหญ่กว่าในรุ่น B
ผมA(μ=10)=n,ผมB(μ=10)=n(1200+20202000)>n

μ

ตัวอย่างนี้แสดงให้เห็นว่าเราจำเป็นต้องมีทฤษฎีบางอย่างที่ช่วยเราในการสร้างตระกูลแบบจำลอง


1
\ Eθ˙(θ)=0θθ0

1
ใช่สิ่งที่คุณพูดว่าเป็นจริง @idadanny มันเป็นศูนย์เมื่อประเมินที่ค่าพารามิเตอร์ที่แท้จริง
kjetil b halvorsen

θθ0

θ^

θ0θม.ล.อีθ0θ1

31

θθ

พิจารณาว่าคุณมีโมเดลขนาดใหญ่ที่มีพารามิเตอร์นับล้าน และคุณมี thumb drive เล็ก ๆ สำหรับเก็บโมเดลของคุณ คุณควรจัดลำดับความสำคัญของจำนวนพารามิเตอร์แต่ละตัวที่จะจัดเก็บอย่างไร คำตอบที่ถูกต้องคือการจัดสรรบิตตามข้อมูลฟิชเชอร์ (Rissanen เขียนเกี่ยวกับเรื่องนี้) หากข้อมูล Fisher ของพารามิเตอร์เป็นศูนย์พารามิเตอร์นั้นจะไม่สำคัญ

เราเรียกมันว่า "ข้อมูล" เพราะข้อมูลฟิชเชอร์วัดว่าพารามิเตอร์นี้บอกเราเกี่ยวกับข้อมูลมากแค่ไหน


วิธีคิดที่เป็นภาษาพูดคือ: สมมติว่าพารามิเตอร์กำลังขับรถและข้อมูลอยู่ในเบาะหลังเพื่อแก้ไขไดรเวอร์ ความน่ารำคาญของข้อมูลคือข้อมูลของชาวประมง หากข้อมูลทำให้ผู้ขับขี่ขับข้อมูลฟิชเชอร์จะเป็นศูนย์ ถ้าข้อมูลทำการแก้ไขอยู่ตลอดเวลามันก็ใหญ่ ในแง่นี้ข้อมูลฟิชเชอร์คือจำนวนข้อมูลที่ไปจากข้อมูลไปยังพารามิเตอร์

พิจารณาสิ่งที่เกิดขึ้นหากคุณทำให้พวงมาลัยละเอียดอ่อนมากขึ้น นี่เทียบเท่ากับ reparametrization ในกรณีนี้ข้อมูลไม่ต้องการดังเกินไปเพราะกลัวว่าจะมีรถมากเกินไป reparametrization ชนิดนี้ลดข้อมูลชาวประมง


20

ทำตามคำตอบที่ดีของ @ NeilG (+1) และตอบคำถามเฉพาะของคุณ:

  1. ฉันจะบอกว่ามันนับ "ความแม่นยำ" มากกว่า "ข้อผิดพลาด" ของตัวเอง

ผมผมJ,Jเสื้อR(ผม)จะต้องเป็นบวก ซึ่งหมายความว่าคุณสามารถมีเครื่องมือประมาณค่า "ไม่เหมาะ" ตามการยืนยันของคุณ ดังนั้นไม่ข้อมูลฟิชเชอร์เชิงบวกไม่เกี่ยวข้องกับ MLE ในอุดมคติของคุณ

  1. คำจำกัดความแตกต่างกันในวิธีที่เราตีความความคิดของข้อมูลในทั้งสองกรณี ต้องบอกว่าทั้งสองวัดมีความสัมพันธ์กันอย่างใกล้ชิด

-พี·ล.โอก.2(พี)พีคือความน่าจะเป็นของตัวแปรที่ใช้กับค่า ทั้งสองเป็นการวัดว่าตัวแปร "ให้ข้อมูล" นั้นเป็นอย่างไร ในกรณีแรกแม้ว่าคุณจะตัดสินข้อมูลนี้ในแง่ของความแม่นยำในขณะที่ในกรณีที่สองในแง่ของความผิดปกติ; ด้านที่แตกต่างกันเหรียญเดียวกัน! : D

ผม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.