ตัวกำหนดข้อมูลเมทริกซ์ฟิชเชอร์สำหรับแบบจำลองที่มีพารามิเตอร์มากเกินไป


10

พิจารณาตัวแปรสุ่ม Bernoulliพร้อมพารามิเตอร์ (ความน่าจะเป็นของความสำเร็จ) ฟังก์ชันโอกาสและข้อมูลฟิชเชอร์ ( เมทริกซ์คูณ ) คือ:X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

ตอนนี้พิจารณาเป็น "มากกว่าแปร" รุ่นที่มีสองพารามิเตอร์: ความน่าจะเป็นของความสำเร็จθ1และความน่าจะเป็นของความล้มเหลว\θ0(โปรดทราบว่าθ1+θ0=1และข้อ จำกัด นี้บอกเป็นนัยว่าหนึ่งในพารามิเตอร์นั้นซ้ำซ้อน) ในกรณีนี้ฟังก์ชันโอกาสและเมทริกซ์ข้อมูลฟิชเชอร์ (FIM) คือ:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

ขอให้สังเกตว่าดีเทอร์มิแนนต์ของ FIM ทั้งสองนี้เหมือนกัน นอกจากนี้คุณสมบัตินี้ขยายไปถึงกรณีทั่วไปมากขึ้นของตัวแบบเด็ดขาด (เช่นมากกว่าสองสถานะ) นอกจากนี้ยังปรากฏขึ้นเพื่อขยายไปยังโมเดลเชิงเส้นล็อกด้วยชุดย่อยของพารามิเตอร์ต่างๆที่ จำกัด ให้เป็นศูนย์ ในกรณีนี้พารามิเตอร์พิเศษ "ซ้ำซ้อน" สอดคล้องกับฟังก์ชั่นบันทึกพาร์ทิชันและความเท่าเทียมกันของสองปัจจัย FIM ที่สามารถแสดงตามSchur ส่วนประกอบของ FIM ที่มีขนาดใหญ่ (ที่จริงแล้วสำหรับโมเดลบันทึกเชิงเส้น FIM ที่เล็กกว่านั้นเป็นเพียงส่วนเสริมของ Schur ของ FIM ที่ใหญ่กว่า)

บางคนสามารถอธิบายได้หรือไม่ว่าคุณสมบัตินี้ขยายไปถึงโมเดลพาราเมตริกที่มีขนาดใหญ่ขึ้น (เช่นกับตระกูลเอ็กซ์โปเนนเชียลทุกตระกูล) ช่วยให้มีตัวเลือกในการหาดีเทอร์มิแนนต์ FIM คือสมมติว่าตัวแบบทางสถิติใด ๆ ที่กำหนดด้วยพารามิเตอร์ซึ่งอยู่บน -dimensional manifold ที่ฝังอยู่ในพื้นที่ -dimensional ตอนนี้ถ้าเราขยายชุดของพารามิเตอร์เพื่อรวมอีกหนึ่งมิติ (ซึ่งถูก จำกัด โดยสิ้นเชิงตามที่คนอื่น ๆ ) และคำนวณ FIM ตามพารามิเตอร์เหล่านั้นเราจะได้รับดีเทอร์มิแนนต์เดิมตามเดิมพารามิเตอร์ (อิสระ)? นอกจากนี้ FIM ทั้งสองนี้เกี่ยวข้องกันอย่างไรnn(n+1)(n+1)n

เหตุผลที่ฉันถามคำถามนี้ก็คือ FIM พร้อมพารามิเตอร์พิเศษมักจะดูง่ายกว่า ความคิดแรกของฉันคือสิ่งนี้ไม่ควรทำงานโดยทั่วไป FIM เกี่ยวข้องกับการคำนวณอนุพันธ์บางส่วนของความน่าจะเป็นบันทึกซึ่งแต่ละพารามิเตอร์ อนุพันธ์บางส่วนเหล่านี้สันนิษฐานว่าในขณะที่พารามิเตอร์ในคำถามมีการเปลี่ยนแปลงพารามิเตอร์อื่น ๆ ทั้งหมดจะคงที่ซึ่งไม่เป็นความจริงเมื่อเราเกี่ยวข้องกับพารามิเตอร์พิเศษ (จำกัด ) ในกรณีนี้ดูเหมือนว่าอนุพันธ์บางส่วนจะไม่สามารถใช้งานได้อีกต่อไปเพราะเราไม่สามารถสันนิษฐานได้ว่าตัวแปรอื่น ๆ นั้นมีค่าคงที่ อย่างไรก็ตามฉันยังไม่พบหลักฐานว่านี่เป็นปัญหาจริง (หากตราสารอนุพันธ์บางส่วนมีปัญหาในกรณีที่มีพารามิเตอร์ที่ต้องพึ่งพาเป็นอนุพันธ์ทั้งหมด(n+1)×(n+1)จำเป็นต้องใช้แทนไหม ฉันยังไม่เห็นตัวอย่างของการคำนวณ FIM ด้วยอนุพันธ์ทั้งหมด แต่อาจเป็นวิธีแก้ปัญหา ... )

ตัวอย่างเดียวที่ฉันสามารถหาทางออนไลน์ซึ่งคำนวณ FIM ตามชุดพารามิเตอร์ "แบบขยาย" ดังต่อไปนี้: หมายเหตุเหล่านี้มีตัวอย่างสำหรับการแจกแจงแบบแบ่งหมวดหมู่คำนวณอนุพันธ์ย่อยบางส่วนที่ต้องการตามปกติ (เช่นราวกับว่าแต่ละพารามิเตอร์เป็นอิสระ แม้ว่าจะมีข้อ จำกัด อยู่ท่ามกลางพารามิเตอร์)


1
คำถามที่ดี! ฉันคิดว่าสเปคสองพารามิเตอร์ของตัวแปรสุ่มของ Bernoulli เป็นตัวอย่างที่ค่อนข้างโชคร้ายเพราะไม่มีข้อ จำกัดไม่มีความหนาแน่นอีกต่อไป คุณสามารถจำลองการสังเกตของคุณสำหรับตระกูลเอ็กซ์โพเนนเชียลแบบโค้งได้หรือไม่? p(X|θ1,θ0)=θ1Xθ01X
Khashaa

@Khashaa ฉันสมมติว่าข้อ จำกัดใช้กับกรณีสองพารามิเตอร์ (อันที่คุณพูดถึง) ดังนั้นฟังก์ชันโอกาสจะยังคงมีความหนาแน่นที่ถูกต้อง นอกจากนี้ใช่ฉันสามารถสร้างข้อสังเกตนี้อีกครั้งเช่นสำหรับโมเดลเชิงเส้นล็อกด้วยชุดย่อยของพารามิเตอร์ต่างๆที่ จำกัด ให้เป็นศูนย์ ในกรณีนี้พารามิเตอร์ "ซ้ำซ้อน" สอดคล้องกับฟังก์ชั่นบันทึกพาร์ทิชัน θ1+θ2=1
Tyler Streeter

1
แล้วล่ะ? N(μ,μ2)
Khashaa

คำตอบ:


4

สำหรับเมทริกซ์ข้อมูลคือ สำหรับการโค้งปกติดังนั้นการสังเกตของคุณว่าปัจจัยที่เท่ากันนั้นไม่ใช่สากล แต่นั่นไม่ใช่ทั้งหมดXN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

โดยทั่วไปถ้าเป็นเมทริกซ์ข้อมูลภายใต้ reparametrizationดังนั้นจึงไม่ยากที่จะเห็นว่า เมทริกซ์ข้อมูลสำหรับพารามิเตอร์เดิมคือที่คือจาโคเบียนของการเปลี่ยนแปลงtheta)Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

สำหรับ Bernoulli ตัวอย่างเช่นและP) ดังนั้น Jacobian คือและ (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

สำหรับตัวอย่างของโค้งปกติ

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

ฉันคิดว่าตอนนี้คุณสามารถเชื่อมโยงปัจจัยได้อย่างง่ายดาย

ติดตามความคิดเห็น

ถ้าฉันเข้าใจคุณอย่างถูกต้อง FIM นั้นใช้ได้ตราบใดที่คุณขยายพารามิเตอร์ด้วยวิธีที่มีความหมายความน่าจะเป็นที่จะเกิดจากการ parametrization ใหม่ควรเป็นความหนาแน่นที่ถูกต้อง ดังนั้นฉันจึงเรียกตัวอย่าง Bernoulli เป็นคนที่โชคร้าย

ฉันคิดว่าลิงก์ที่คุณให้มีข้อบกพร่องร้ายแรงในการได้รับ FIM สำหรับตัวแปรเด็ดขาดเนื่องจากเรามีและ0 ความคาดหวังของลบ Hessian ให้แต่ไม่ใช่เพราะความแปรปรวนร่วมของคะแนนเวกเตอร์ หากคุณละเลยข้อ จำกัด ความเท่าเทียมกันของเมทริกซ์ข้อมูลจะไม่ถือ E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


ขอบคุณที่กล่าวถึงแนวทางการเปลี่ยนแปลงของยาโคเบียนและเป็นตัวอย่างที่ชัดเจนและชัดเจน คุณสามารถ (หรือคนอื่น ๆ ) แสดงความคิดเห็นในประเด็นต่อไปนี้ซึ่งยังคงเกี่ยวข้องกับฉัน: เมื่อขยายชุดพารามิเตอร์ตามมิติเดียวอย่างที่เราทำที่นี่เราแนะนำข้อ จำกัด ระหว่างพารามิเตอร์ต่างๆเช่นอนุพันธ์ย่อยบางส่วน (ตามที่กำหนดโดย FIM) ควรจะไม่ถูกต้องเพราะตอนนี้เมื่อเราเปลี่ยนแปลงพารามิเตอร์หนึ่งพารามิเตอร์อื่น ๆ จะไม่คงที่อีกต่อไป FIM นั้นใช้ได้กับชุดพารามิเตอร์เพิ่มเติมเนื่องจากอนุพันธ์ย่อยบางส่วนไม่ถูกต้องเนื่องจากข้อ จำกัด พิเศษหรือไม่
Tyler Streeter

@TylerStreeter ฉันได้อัปเดตคำตอบเพื่อแก้ไขปัญหาของคุณแล้ว
Khashaa

3

ปรากฏว่าผลลัพธ์มีความสัมพันธ์เฉพาะระหว่างพารามิเตอร์

โดยไม่อ้างสิทธิ์ทั่วไปเต็มรูปแบบสำหรับผลลัพธ์ด้านล่างฉันยึดติดกับกรณี "หนึ่งถึงสองพารามิเตอร์" แสดงว่าสมการทางที่แสดงถึงความสัมพันธ์ที่ต้องเก็บระหว่างพารามิเตอร์ทั้งสอง จากนั้นบันทึกความน่าจะเป็น "ถูกต้องเพิ่มเติม", "สองพารามิเตอร์" (ไม่ใช่สิ่งที่ OP คำนวณ - เราจะไปถึงที่นั่น)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
เทียบเท่ากับโอกาสที่แท้จริงเนื่องจาก , (เป็น ตัวทวีคูณ) และเราสามารถถือว่าพารามิเตอร์ทั้งสองเป็นอิสระในขณะที่เราแยกความแตกต่างLg(θ0,θ1)=0λ

การใช้ตัวห้อยเพื่อแสดงอนุพันธ์ที่เกี่ยวกับพารามิเตอร์ (ตัวย่อตัวแรกตัวต่อเนื่องตัวที่สองตัวที่สองตัวดัดแปลง) ตัวกำหนดของ Hessian ของความน่าจะเป็นบันทึกการขยายที่ถูกต้อง

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

OP กำลังทำอะไรแทน

เขาคิดผิดน่าจะเป็น "ไม่สนใจ" ความสัมพันธ์ระหว่างทั้งสองพารามิเตอร์และไม่คำนึงถึงข้อ จำกัดtheta_1) จากนั้นเขาก็ดำเนินการกับความแตกต่างและได้รับL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

จะเห็นว่าไม่ได้อยู่ในทั่วไปเท่ากับ(1)(2)(1)

แต่ถ้า ดังนั้นg00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

ดังนั้นหากความสัมพันธ์ระหว่างพารามิเตอร์ที่แท้จริงและพารามิเตอร์ที่ซ้ำซ้อนเป็นเช่นนั้นอนุพันธ์อันดับสองของฟังก์ชันโดยปริยายที่เชื่อมโยงพวกเขาเป็นศูนย์ทั้งหมดดังนั้นแนวทางที่ผิดขั้นพื้นฐานจะกลายเป็น "ถูกต้อง"

สำหรับกรณีของ Bernoulli เรามีแน่นอน

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

ADDENDUM
เพื่อตอบคำถาม @Khashaa และแสดงกลไกที่นี่เราพิจารณาถึงความน่าจะเป็นที่ระบุด้วยพารามิเตอร์ที่ซ้ำซ้อน แต่ยังอยู่ภายใต้ข้อ จำกัด ที่เชื่อมโยงพารามิเตอร์ที่ซ้ำซ้อนกับความจริง สิ่งที่เราทำกับความน่าจะเป็นบันทึกคือเพิ่มพวกมันให้มากที่สุด - ที่นี่เรามีกรณีของการทำให้เกิดข้อ จำกัด สูงสุด สมมติตัวอย่างขนาด :n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

ปัญหานี้มีภาษา Langrangean (สิ่งที่ฉันเรียกอย่างไม่เป็นทางการว่า "โอกาสขยายที่ถูกต้อง" ด้านบน)

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

เงื่อนไขการสั่งซื้อครั้งแรกสำหรับจำนวนสูงสุดคือ

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

ซึ่งเราได้รับความสัมพันธ์

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

การใช้ข้อ จำกัด ที่ถูกต้องข้างต้นเราได้รับθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

อย่างที่เราควร

ยิ่งกว่านั้นเนื่องจากข้อ จำกัด นั้นเป็นแบบเส้นตรงในพารามิเตอร์ทั้งหมดอนุพันธ์อันดับสองของมันจะเป็นศูนย์ สิ่งนี้สะท้อนให้เห็นในความจริงที่ว่าในอนุพันธ์อันดับหนึ่งของลากรองจ์ตัวคูณ "ยืนอยู่คนเดียว" และมันจะถูกกำจัดเมื่อเราจะใช้อนุพันธ์อันดับสองของลากรองจ์ ซึ่งในทางกลับกันจะนำเราไปสู่ ​​Hessian ซึ่งปัจจัยจะเท่ากับอนุพันธ์อันดับสอง (หนึ่งมิติ) ของบันทึกความน่าจะเป็นหนึ่งพารามิเตอร์ดั้งเดิมหลังจากการจัดเก็บภาษียัง จำกัด (ซึ่งเป็นสิ่งที่ OP ทำ) จากนั้นนำค่าลบของค่าที่คาดหวังในทั้งสองกรณีไม่เปลี่ยนความเท่าเทียมกันทางคณิตศาสตร์นี้และเรามาถึงความสัมพันธ์ "ข้อมูลหนึ่งมิติของชาวประมง = ปัจจัยของสองมิติข้อมูลชาวประมง" ตอนนี้λเนื่องจากข้อ จำกัด นั้นเป็นแบบเส้นตรงในพารามิเตอร์ทั้งหมด OP ได้ผลลัพธ์เดียวกัน (ที่ระดับอนุพันธ์อันดับสอง) โดยไม่ต้องแนะนำข้อ จำกัด ที่มีตัวคูณในฟังก์ชันที่จะขยายให้ใหญ่สุดเพราะในระดับอนุพันธ์อันดับสองสถานะ / ผลกระทบของ ข้อ จำกัด จะหายไปในกรณีเช่นนี้

สิ่งเหล่านี้เกี่ยวข้องกับแคลคูลัสไม่ใช่แนวคิดเชิงสถิติ


ฉันดูเหมือนจะไม่ทำตามตรรกะของคุณ คุณช่วยอธิบายได้ไหมว่าเหตุใด Languเหมือนลากรองจ์ถือว่าเป็น "ความถูกต้องที่ขยายเพิ่ม", "สองพารามิเตอร์" บันทึก? นอกจากนี้ Hessian ยังเป็นปริศนาสำหรับฉันอย่างสมบูรณ์ คุณกำลังคำนวณเมทริกซ์ข้อมูลที่สังเกตได้หรือไม่? Le
Khashaa

@Khashaa มีการสร้างคำศัพท์ที่ "Hessian" เป็นเมทริกซ์ของอนุพันธ์อันดับสองของฟังก์ชันหลายตัวแปร
Alecos Papadopoulos

มันจะมีประโยชน์ถ้า downvoters ที่นี่โพสต์คำตอบ - เนื่องจากมีตัวอย่างเฉพาะของ OP อยู่ - และต้องการคำอธิบาย
Alecos Papadopoulos

ขออภัยถ้าคำถามของฉันไม่ชัดเจน คำถามของฉันเกี่ยวกับวิธีที่คุณเชื่อมโยง Hessian เข้ากับเมทริกซ์ข้อมูลเนื่องจากฉันไม่เห็นความคาดหวังใด ๆ เกิดขึ้นกับมันและผลลัพธ์ดูเหมือนเมทริกซ์ข้อมูลที่สังเกตได้ นอกจากนี้คุณสามารถอธิบายได้หรือไม่ว่าเหตุใดจึงถูกต้อง ฉันเดาว่าคุณกำลังใช้วิธีการบางอย่างในการประเมินความเป็นไปได้ที่ถูก จำกัด แต่ฉันไม่เข้าใจว่ามันทำงานอย่างไร Le
Khashaa

@Khashaa ฉันเพิ่มการแสดงออกโดยใช้ตัวอย่างของ OP
Alecos Papadopoulos
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.