การประมาณค่าความน่าจะเป็นสูงสุด
สมมติว่าเรามีเวกเตอร์สุ่มแต่ละขนาด :ซึ่งแต่ละเวกเตอร์สุ่มสามารถ ตีความว่าเป็นการสังเกต (จุดข้อมูล) ข้ามตัวแปรหากแต่ละเป็น iid ที่มีหลายตัวแปรเวกเตอร์เกาส์:พีX ( 1 ) , X ( 2 ) , . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)
X(i)∼Np(μ,Σ)
ที่ไหนพารามิเตอร์ไม่เป็นที่รู้จัก เพื่อให้ได้ค่าประมาณเราสามารถใช้วิธีการโอกาสสูงสุดและเพิ่มฟังก์ชั่นโอกาสในการบันทึกμ,Σ
โปรดสังเกตว่าโดยความเป็นอิสระของเวกเตอร์สุ่มความหนาแน่นของข้อมูลเป็นผลมาจากความหนาแน่นของแต่ละบุคคล นั่นคือSigma}) การใช้ลอการิทึมให้ฟังก์ชัน log-likelihood∏ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}∏mi=1fX(i)(x(i);μ,Σ)
l ( μ , Σ | x( i ))= บันทึกΠi = 1ม.ฉX( i )( x( i )| μ,Σ)= บันทึก Πi = 1ม.1( 2 π)หน้า/ 2| Σ |1 / 2ประสบการณ์( - 12( x( i )- μ )TΣ- 1( x( i )- μ ) )= ∑i = 1ม.( - p2เข้าสู่ระบบ( 2 π) - 12เข้าสู่ระบบ| Σ | - 12( x( i )- μ )TΣ- 1( x( i )- μ ) )
l ( μ , Σ ; )= - m p2เข้าสู่ระบบ( 2 π) - ม2เข้าสู่ระบบ| Σ | - 12Σi = 1ม.( x( i )- μ )TΣ- 1( x( i )- μ )
ได้รับμ^
การหาอนุพันธ์ด้วยความเคารพและเท่ากับศูนย์เราจะใช้เมทริกซ์แคลคูลัสเอกลักษณ์ต่อไปนี้:μ
W∂wTAw∂w=2Awถ้า
ไม่ได้ขึ้นอยู่กับและเป็นสมมาตรwAA
∂∂μl(μ,Σ|x(i))0μ^=∑i=1mΣ−1(μ−x(i))=0Since Σ is positive definite=mμ−∑i=1mx(i)=1m∑i=1mx(i)=x¯
ซึ่งมักเรียกว่าเวกเตอร์ค่าเฉลี่ยตัวอย่าง
ได้รับΣ^
การรับ MLE สำหรับเมทริกซ์ความแปรปรวนร่วมนั้นต้องการงานมากขึ้นและการใช้คุณสมบัติพีชคณิตเชิงเส้นและแคลคูลัสดังต่อไปนี้:
- การติดตามนั้นไม่เปลี่ยนแปลงภายใต้พีชคณิตเปลี่ยนรูปแบบของผลิตภัณฑ์เมทริกซ์:tr[ACB]=tr[CAB]=tr[BCA]
- เนื่องจากเป็นสเกลาร์เราจึงสามารถติดตามและรับค่าเดียวกัน:x T A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
- ∂∂Atr[AB]=BT
- ∂∂Alog|A|=A−T
การรวมคุณสมบัติเหล่านี้ทำให้เราสามารถคำนวณได้
∂∂AxtAx=∂∂Atr[xTxA]=[xxt]T=xTTxT=xxT
ซึ่งเป็นผลิตภัณฑ์ชั้นนอกของเวกเตอร์ด้วยตัวมันเองx
ตอนนี้เราสามารถเขียนฟังก์ชันบันทึกความน่าจะเป็นอีกครั้งและคำนวณหาอนุพันธ์ wrt (โน้ตเป็นค่าคงที่)Σ−1C
l(μ,Σ|x(i))∂∂Σ−1l(μ,Σ|x(i))=C−m2log|Σ|−12∑i=1m(x(i)−μ)TΣ−1(x(i)−μ)=C+m2log|Σ−1|−12∑i=1mtr[(x(i)−μ)(x(i)−μ)TΣ−1]=m2Σ−12∑i=1m(x(i)−μ)(x(i)−μ)T Since ΣT=Σ
เท่ากับศูนย์และแก้หาΣ
0Σ^=mΣ−∑i=1m(x(i)−μ)(x(i)−μ)T=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T
แหล่งที่มา