การเชื่อมต่อระหว่าง MLE และความหมายของเอนโทรปีในการเรียนรู้ลึกเป็นอย่างไร
ผมเข้าใจว่าได้รับชุดของอิสระสังเกต ตัวประมาณความน่าจะเป็นสูงสุด (หรือที่เท่ากันคือ MAP ที่มี flat / uniform มาก่อน) ซึ่งระบุพารามิเตอร์ที่สร้างแบบจำลองการกระจาย p_ {model} \ ซ้าย (\, \ cdot \,; \ mathbf {θ} \ right) ที่ตรงกับข้อสังเกตเหล่านั้นมากที่สุดmmmO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=argmaxθ∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) หรือสะดวกยิ่งขึ้น θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)θML(O)=argminθ∑i=1m−logpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= \underset{\mathbf{θ}}{\arg\min}\sum_{i=1}^{m} -\log p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) และดูบทบาทที่θMLθML\mathbf{θ}_{ML}สามารถเล่นในการกำหนดฟังก์ชั่นการสูญเสียสำหรับเครือข่ายนิวรัลลึกหลายระดับซึ่งθθ\mathbf{θ}สอดคล้องกับพารามิเตอร์ที่ฝึกอบรมของเครือข่าย (เช่นθ={W,b})θ={W,b})\mathbf{θ} = \{\mathbf{W}, \mathbf{b}\} )และการสังเกตเป็นคู่ของการเปิดใช้งานอินพุตxx\mathbf{x}และการแก้ไขเลเบลคลาสที่ถูกต้องy∈[1,k]y∈[1,k]y …