เครื่องมือประมาณค่าความน่าจะเป็นสูงสุด - แบบเกาส์หลายตัวแปร


20

บริบท

Multivariate Gaussian ปรากฏขึ้นบ่อยครั้งในการเรียนรู้ของเครื่องและผลลัพธ์ต่อไปนี้จะใช้ในหนังสือและหลักสูตร ML หลายหลักสูตรโดยไม่มีการสืบทอด

ข้อมูลที่ได้รับในรูปของเมทริกซ์ของมิติ ถ้าเราคิดว่าข้อมูลตามตัวแปรแบบเกาส์ กระจายด้วยพารามิเตอร์หมายถึง ( ) และความแปรปรวนร่วมเมทริกซ์ ( ) เครื่องมือประมาณการความน่าจะเป็นสูงสุดจะได้รับจาก:Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

ฉันเข้าใจว่าความรู้ของหลายตัวแปรเกาส์เซียนนั้นเป็นสิ่งที่จำเป็นสำหรับหลักสูตร ML หลาย ๆ หลักสูตร แต่มันจะมีประโยชน์มากหากได้คำตอบที่ครบถ้วนในตัวเองทันทีและสำหรับทุกคนเพราะฉันรู้สึกว่าผู้เรียนรู้ด้วยตนเองหลายคนกระเด้งไปรอบ ๆ เว็บไซต์ stackexchange และ math.stackexchange มองหาคำตอบ


คำถาม

อะไรคือผลมาจากการประมาณความน่าจะเป็นสูงสุดสำหรับ Gaussian หลายตัวแปร


ตัวอย่าง:

บันทึกการบรรยายเหล่านี้ (หน้า 11) เกี่ยวกับการวิเคราะห์จำแนกเชิงเส้นหรือสิ่งเหล่านี้ใช้ประโยชน์จากผลลัพธ์และใช้ความรู้ก่อนหน้านี้

นอกจากนี้ยังมีโพสต์บางส่วนที่ตอบหรือปิดบางส่วน:

คำตอบ:


24

การประมาณค่าความน่าจะเป็นสูงสุด

สมมติว่าเรามีเวกเตอร์สุ่มแต่ละขนาด :ซึ่งแต่ละเวกเตอร์สุ่มสามารถ ตีความว่าเป็นการสังเกต (จุดข้อมูล) ข้ามตัวแปรหากแต่ละเป็น iid ที่มีหลายตัวแปรเวกเตอร์เกาส์:พีX ( 1 ) , X ( 2 ) , . . , X ( m ) p X ( i )mpX(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

ที่ไหนพารามิเตอร์ไม่เป็นที่รู้จัก เพื่อให้ได้ค่าประมาณเราสามารถใช้วิธีการโอกาสสูงสุดและเพิ่มฟังก์ชั่นโอกาสในการบันทึกμ,Σ

โปรดสังเกตว่าโดยความเป็นอิสระของเวกเตอร์สุ่มความหนาแน่นของข้อมูลเป็นผลมาจากความหนาแน่นของแต่ละบุคคล นั่นคือSigma}) การใช้ลอการิทึมให้ฟังก์ชัน log-likelihoodm i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

ล.(μ,Σ|x(ผม))=เข้าสู่ระบบΠผม=1ม.X(ผม)(x(ผม)|μ,Σ)=เข้าสู่ระบบ Πผม=1ม.1(2π)พี/2|Σ|1/2ประสบการณ์(-12(x(ผม)-μ)TΣ-1(x(ผม)-μ))=Σผม=1ม.(-พี2เข้าสู่ระบบ(2π)-12เข้าสู่ระบบ|Σ|-12(x(ผม)-μ)TΣ-1(x(ผม)-μ))

ล.(μ,Σ;)=-ม.พี2เข้าสู่ระบบ(2π)-ม.2เข้าสู่ระบบ|Σ|-12Σผม=1ม.(x(ผม)-μ)TΣ-1(x(ผม)-μ)

ได้รับμ^

การหาอนุพันธ์ด้วยความเคารพและเท่ากับศูนย์เราจะใช้เมทริกซ์แคลคูลัสเอกลักษณ์ต่อไปนี้:μ

WwTAww=2Awถ้า ไม่ได้ขึ้นอยู่กับและเป็นสมมาตรwAA

μl(μ,Σ|x(i))=i=1mΣ1(μx(i))=0Since Σ is positive definite0=mμi=1mx(i)μ^=1mi=1mx(i)=x¯

ซึ่งมักเรียกว่าเวกเตอร์ค่าเฉลี่ยตัวอย่าง

ได้รับΣ^

การรับ MLE สำหรับเมทริกซ์ความแปรปรวนร่วมนั้นต้องการงานมากขึ้นและการใช้คุณสมบัติพีชคณิตเชิงเส้นและแคลคูลัสดังต่อไปนี้:

  • การติดตามนั้นไม่เปลี่ยนแปลงภายใต้พีชคณิตเปลี่ยนรูปแบบของผลิตภัณฑ์เมทริกซ์:tr[ACB]=tr[CAB]=tr[BCA]
  • เนื่องจากเป็นสเกลาร์เราจึงสามารถติดตามและรับค่าเดียวกัน:x T A x = t r [ x T A x ] = t r [ x t x A ]xTAxxtAx=tr[xTAx]=tr[xtxA]
  • Atr[AB]=BT
  • Alog|A|=AT

การรวมคุณสมบัติเหล่านี้ทำให้เราสามารถคำนวณได้

AxtAx=Atr[xTxA]=[xxt]T=xTTxT=xxT

ซึ่งเป็นผลิตภัณฑ์ชั้นนอกของเวกเตอร์ด้วยตัวมันเองx

ตอนนี้เราสามารถเขียนฟังก์ชันบันทึกความน่าจะเป็นอีกครั้งและคำนวณหาอนุพันธ์ wrt (โน้ตเป็นค่าคงที่)Σ1C

l(μ,Σ|x(i))=Cm2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)=C+m2log|Σ1|12i=1mtr[(x(i)μ)(x(i)μ)TΣ1]Σ1l(μ,Σ|x(i))=m2Σ12i=1m(x(i)μ)(x(i)μ)T  Since ΣT=Σ

เท่ากับศูนย์และแก้หาΣ

0=mΣi=1m(x(i)μ)(x(i)μ)TΣ^=1mi=1m(x(i)μ^)(x(i)μ^)T

แหล่งที่มา


เรายินดีต้อนรับการพิสูจน์ทางเลือกรูปแบบกะทัดรัดหรือการตีความที่เข้าใจง่าย!
Xavier Bourret Sicotte

ในการสืบหาทำไมต้องต้องเป็นบวกแน่นอน? ดูเหมือนว่าจะกลับด้านได้หรือไม่ สำหรับ invertible เมทริกซ์,เฉพาะเมื่อ ? μΣΣAAx=0x=0
Tom Bennett

เพื่อชี้แจง,เป็นเมทริกซ์ที่อาจมีองค์ประกอบที่เป็นเส้นทแยงมุมและไม่มีเส้นทแยงมุมซึ่งมีค่า จำกัด แสดงความสัมพันธ์ระหว่างเวกเตอร์ถูกต้องหรือไม่ หากเป็นเช่นนั้นเวกเตอร์เหล่านี้มีความเป็นอิสระในแง่ใด นอกจากนี้ทำไมฟังก์ชั่นความน่าจะเป็นร่วมมีค่าเท่ากับโอกาส? ความหนาแน่นของรอยต่อร่วมไม่ควรเท่ากับความน่าจะเป็นคูณด้วยก่อนหน้านี้เช่นหรือไม่ Σm×mf(x,y)f(x|y)f(y)
Mathews24

1
@ TomBennett sigma matrix นั้นเป็นผลบวกแน่นอนโดยนิยาม - ดูstats.stackexchange.com/questions/52976/…เพื่อดูหลักฐาน เมทริกซ์แคลคูลัสเอกลักษณ์ต้องเมทริกซ์ที่จะสมมาตรไม่ใช่บวกแน่นอน แต่เนื่องจากเมทริกซ์เชิงบวกที่แน่นอนนั้นมีความสมมาตรอยู่เสมอ
Xavier Bourret Sicotte

1
ใช่แน่นอน - ความเป็นอิสระระหว่างการสังเกตช่วยให้ได้รับโอกาส - ถ้อยคำอาจไม่ชัดเจนพอ - นี่คือความน่าจะเป็นแบบหลายตัวแปร ก่อนหน้านี้ยังคงไม่เกี่ยวข้องโดยไม่คำนึงถึง
Xavier Bourret Sicotte

5

หลักฐานสำรองสำหรับที่รับอนุพันธ์ด้วยความเคารพโดยตรง:Σ^Σ

ยกขึ้นมาพร้อมกับบันทึกความน่าจะเป็นข้างต้น: โดยที่และเราได้ใช้คุณสมบัติที่เป็นวงกลมและเส้น{} เพื่อคำนวณก่อนอื่นเราจะสังเกตเห็นว่า

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σlog|Σ|=ΣT=Σ1
โดยคุณสมบัติที่สี่ด้านบน ในการหาอนุพันธ์ของเทอมที่สองเราจะต้องใช้คุณสมบัติที่ (จากตำราอาหารเดอะเมทริกซ์สมการที่ 63) การใช้สิ่งนี้กับได้รับ เพราะทั้งและมีความสมมาตร แล้วก็
Xtr(AX1B)=(X1BAX1)T.
B=I
Σtr[SμΣ1]=(Σ1SμΣ1)T=Σ1SμΣ1
ΣSμ
Σ(μ,Σ)mΣ1Σ1SμΣ1.
การตั้งค่านี้เป็น 0 และจัดเรียงใหม่ให้
Σ^=1mSμ.

วิธีการนี้ทำงานได้ดีกว่ามาตรฐานที่ใช้อนุพันธ์ที่เกี่ยวข้องกับและต้องการข้อมูลเฉพาะตัวที่ซับซ้อนยิ่งขึ้น ผมพบว่ามันมีประโยชน์เพียงเพราะฉันยังต้องใช้อนุพันธ์ของฟังก์ชั่นการปรับเปลี่ยนโอกาสที่ดูเหมือนยากมากที่จะใช้กว่า\Λ=Σ1/Σ1/Σ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.