การเชื่อมต่อระหว่าง MLE และความหมายของเอนโทรปีในการเรียนรู้ลึกเป็นอย่างไร


12

ผมเข้าใจว่าได้รับชุดของอิสระสังเกต ตัวประมาณความน่าจะเป็นสูงสุด (หรือที่เท่ากันคือ MAP ที่มี flat / uniform มาก่อน) ซึ่งระบุพารามิเตอร์ที่สร้างแบบจำลองการกระจาย p_ {model} \ ซ้าย (\, \ cdot \,; \ mathbf {θ} \ right) ที่ตรงกับข้อสังเกตเหล่านั้นมากที่สุดmO={o(1),...,o(m)}θpmodel(;θ)

θML(O)=pmodel(O;θ)=argmaxθi=1mpmodel(o(i);θ)

หรือสะดวกยิ่งขึ้น

θML(O)=argminθi=1mlogpmodel(o(i);θ)

และดูบทบาทที่θMLสามารถเล่นในการกำหนดฟังก์ชั่นการสูญเสียสำหรับเครือข่ายนิวรัลลึกหลายระดับซึ่งθสอดคล้องกับพารามิเตอร์ที่ฝึกอบรมของเครือข่าย (เช่นθ={W,b})และการสังเกตเป็นคู่ของการเปิดใช้งานอินพุตxและการแก้ไขเลเบลคลาสที่ถูกต้องy[1,k] , o(i) = { x(i),y(i) } โดยใช้

pmodel(o(i);θ)pmodel(y(i)|x(i);θ)


สิ่งที่ฉันไม่เข้าใจคือสิ่งนี้เกี่ยวข้องกับ "cross entropy" ของเอาต์พุตที่ถูกต้อง (vectorized), , และการเปิดใช้งานเอาต์พุตที่สอดคล้องกันของเครือข่าย ที่ใช้ในการปฏิบัติเมื่อวัดผิดพลาด / การสูญเสียระหว่างการฝึกอบรม . มีปัญหาที่เกี่ยวข้องหลายประการ:y(i)a(x(i);θ)

H(o(i);θ)=y(i)loga(x(i);θ)


การเปิดใช้งาน "เป็นความน่าจะเป็น"

หนึ่งในขั้นตอนในการสร้างความสัมพันธ์ระหว่าง MLE และข้ามเอนโทรปีคือการใช้การเปิดใช้งานเอาต์พุต "ราวกับว่า" เป็นความน่าจะเป็น แต่ฉันไม่เห็นชัดเจนว่าพวกเขาเป็นหรืออย่างน้อยพวกเขาเป็นall

ในการคำนวณข้อผิดพลาดการฝึกอบรม - โดยเฉพาะอย่างยิ่งในการเรียกมันว่า "การสูญเสียเอนโทรปีข้าม" - มันจะสันนิษฐานว่า (หลังจาก normalizing การเปิดใช้งานเพื่อรวมถึง 1)

(1)pmodel(o(i);θ)ay(i)(x(i);θ)

หรือ

logpmodel(o(i);θ)=logay(i)(x(i);θ)

เพื่อให้เราสามารถเขียน

(3)logpmodel(o(i);θ)=y(i)loga(x(i);θ)

และดังนั้น

θML(O)=argminθi=1mH(o(i);θ)

แต่ในขณะที่สิ่งนี้ทำให้ความน่าจะเป็น (เท่าที่มันคืออะไร) มัน ไม่มีข้อ จำกัด ในการเปิดใช้งานอื่น ๆay(i)(x(i);θML)

สามารถว่าเป็น PMFs จริงหรือไม่? มีอะไรที่ทำให้ไม่ใช่ความเป็นจริงในความเป็นจริง (และเพียง "ชอบ" พวกเขา )?ay(i)(x(i);θML)ay(i)(x(i);θML)


ข้อ จำกัด ในการจัดหมวดหมู่

ขั้นตอนที่สำคัญข้างต้นในการเทียบเคียง MLE กับ cross-entropy นั้นอาศัยทั้งหมดในโครงสร้าง "one-hot" ของที่กำหนดปัญหาการเรียนรู้แบบหลายชั้น (single-label) ใด ๆ โครงสร้างอื่น ๆ สำหรับจะทำให้มันเป็นไปไม่ได้ที่จะได้รับจากจะ{3}y(i)y(i)(1)(3)

สมการของ MLE และการย่อตัวแบบข้ามเอนโทรปี จำกัด เฉพาะกรณีที่เป็น "หนึ่งร้อน" หรือไม่ y(i)


การฝึกอบรมและการทำนายความน่าจะเป็นต่าง ๆ

ในระหว่างการคาดการณ์ก็มักจะเป็นกรณีที่

(2)pmodel(y(i)|x(i);θ)P(argmaxj[1,k]aj(x(i);θ)=y(i))

ซึ่งผลลัพธ์ในการทำนายความน่าจะเป็นที่ถูกต้องซึ่งแตกต่างจากความน่าจะเป็นที่ได้เรียนรู้ระหว่างการฝึกอบรมเว้นแต่ว่าจะเป็นกรณีที่เชื่อถือได้

ay(i)(x(i);θML)=P(argmaxj[1,k]aj(x(i);θML)=y(i))

นี่เป็นกรณีที่เชื่อถือได้หรือไม่? อย่างน้อยก็น่าจะประมาณจริงหรือไม่? หรือมีข้อโต้แย้งอื่น ๆ ที่แสดงให้เห็นถึงสมการของค่าของการกระตุ้นการเรียนรู้ที่ตำแหน่งฉลากด้วยความน่าจะเป็นที่ค่าสูงสุดของการเปิดใช้งานที่เรียนรู้เกิดขึ้นที่นั่นหรือไม่


ทฤษฎีเอนโทรปีและสารสนเทศ

แม้จะสมมติว่าข้อกังวลข้างต้นได้รับการแก้ไขและการเปิดใช้งานนั้นเป็น PMF ที่ถูกต้อง (หรือสามารถได้รับการปฏิบัติอย่างมีความหมายเช่นนี้) ดังนั้นบทบาทที่เล่นโดยเอนโทรปีข้ามในการคำนวณ นั้นไม่มีปัญหา ฉันทำไมมันถึงมีประโยชน์หรือมีความหมายในการพูดคุยเกี่ยวกับเอนโทรปีของเนื่องจากเอนโทรปีของ Shanon มีผลเฉพาะ ชนิดของการเข้ารหัสซึ่งไม่ได้ใช้ในการฝึกอบรมเครือข่ายθMLa(x(i);θML)

ข้อมูลเอนโทรปีทางทฤษฎีมีบทบาทอย่างไรในการตีความฟังก์ชั่นค่าใช้จ่ายซึ่งตรงข้ามกับการให้เครื่องมือ (ในรูปแบบของเอนโทรปีข้าม) สำหรับการคำนวณหนึ่ง (ที่สอดคล้องกับ MLE)

คำตอบ:


5

โครงข่ายประสาทไม่จำเป็นต้องให้ความน่าจะเป็นเป็นผลลัพธ์ แต่สามารถออกแบบให้ทำเช่นนี้ได้ ในการตีความว่าน่าจะเป็นชุดของค่าจะต้องไม่เป็นค่าลบและรวมเป็นหนึ่ง โดยทั่วไปแล้วการออกแบบเครือข่ายไปยังผลลัพธ์ที่น่าจะเป็นจำนวนมากเพื่อเลือกเลเยอร์เอาท์พุทที่กำหนดข้อ จำกัด เหล่านี้ ตัวอย่างเช่นในปัญหาการจำแนกประเภทกับคลาสตัวเลือกทั่วไปคือเลเยอร์เอาต์พุตsoftmax ที่มีหน่วยฟังก์ชั่น softmax บังคับให้เอาต์พุตไม่เป็นค่าลบและรวมเป็นหนึ่ง TH หน่วยการส่งออกให้เป็นไปได้ว่าการเรียนเป็นเจสำหรับปัญหาการจำแนกเลขฐานสองตัวเลือกยอดนิยมอื่นคือใช้หน่วยเอาต์พุตเดียวที่มีโลจิสติกkkjjฟังก์ชั่นการเปิดใช้งาน เอาต์พุตของฟังก์ชันลอจิสติกอยู่ระหว่างศูนย์ถึงหนึ่งและให้ความน่าจะเป็นที่คลาสนั้นคือ 1 ความน่าจะเป็นที่คลาสนั้นเป็น 0 โดยปริยายหนึ่งลบด้วยค่านี้ หากเครือข่ายไม่มีเลเยอร์ที่ซ่อนอยู่ดังนั้นทั้งสองตัวอย่างจะเทียบเท่ากับการถดถอยโลจิสติกหลายระดับและการถดถอยโลจิสติกตามลำดับ

ครอสเอนโทรปี มีขนาดแตกต่างระหว่างสองแจกแจงความน่าจะเป็นและQเมื่อใช้เอนโทรปีไขว้เป็นฟังก์ชั่นการสูญเสียสำหรับตัวแยกประเภท discriminative,และคือการกระจายตัวเหนือคลาสเลเบล, รับอินพุต (เช่นจุดข้อมูลเฉพาะ) คือการแจกแจง 'จริง' และคือการกระจายที่ทำนายโดยตัวแบบ ในปัญหาการจำแนกประเภททั่วไปแต่ละอินพุตในชุดข้อมูลจะเชื่อมโยงกับป้ายชื่อเลขจำนวนเต็มที่แทนคลาสจริง ในกรณีนี้เราใช้การกระจายเชิงประจักษ์สำหรับH(p,q)pqpqpqp. สิ่งนี้จะกำหนดความน่าจะเป็น 1 ให้กับคลาสที่แท้จริงของจุดข้อมูลและความน่าจะเป็น 0 กับคลาสอื่นทั้งหมด คือการแจกแจงความน่าจะเป็นระดับที่เครือข่ายคาดการณ์ไว้ (เช่นที่อธิบายไว้ข้างต้น)q

สมมติว่าข้อมูลคือ iid,คือการกระจายเชิงประจักษ์และคือการแจกแจงแบบทำนาย (สำหรับจุดข้อมูลที่ ) จากนั้นการลดการสูญเสียเอนโทรปีของ cross (เช่นโดยเฉลี่ยที่จุดข้อมูล) เท่ากับการเพิ่มความเป็นไปได้สูงสุดของข้อมูล หลักฐานค่อนข้างตรงไปตรงมา แนวคิดพื้นฐานคือการแสดงให้เห็นว่าการสูญเสียเอนโทรปีข้ามเป็นสัดส่วนกับผลรวมของบันทึกเชิงลบที่คาดการณ์ความน่าจะเป็นของจุดข้อมูล สิ่งนี้หลุดออกมาอย่างเรียบร้อยเพราะรูปแบบของการกระจายเชิงประจักษ์piqiiH(pi,qi)

การสูญเสียเอนโทรปีข้ามสามารถนำไปใช้โดยทั่วไปได้มากขึ้น ตัวอย่างเช่นในปัญหา 'การจำแนกแบบนุ่มนวล' เราได้รับการแจกแจงมากกว่าเลเบลคลาสมากกว่าเลเบลระดับยาก (ดังนั้นเราจึงไม่ใช้การแจกแจงเชิงประจักษ์) ผมอธิบายวิธีการใช้การสูญเสียเอนโทรปีข้ามในกรณีที่ว่านี่

วิธีระบุที่อยู่อื่น ๆ ในคำถามของคุณ:

การฝึกอบรมและการทำนายความน่าจะเป็นต่าง ๆ

ดูเหมือนว่าคุณกำลังค้นหาหน่วยเอาท์พุทที่มีการเปิดใช้งานสูงสุดและเปรียบเทียบกับป้ายกำกับคลาส สิ่งนี้ไม่ได้ทำเพื่อการฝึกอบรมโดยใช้การสูญเสียเอนโทรปี แต่ความน่าจะเป็นผลลัพธ์ที่ได้จากแบบจำลองจะถูกนำไปเปรียบเทียบกับความน่าจะเป็นที่ 'จริง' (โดยทั่วไปแล้วจะเป็นการแจกแจงเชิงประจักษ์)

Shanon เอนโทรปีใช้กับการเข้ารหัสชนิดเฉพาะซึ่งไม่ใช่แบบที่ใช้ในการฝึกอบรมเครือข่าย

ครอสเอนโทรปีสามารถตีความได้ว่าจำนวนบิตต่อข้อความที่จำเป็น (โดยเฉลี่ย) กับเหตุการณ์เข้ารหัสดึงออกมาจากการจัดจำหน่ายที่แท้จริงถ้าใช้รหัสที่ดีที่สุดสำหรับการกระจายQเอนโทรปีครอสยิงค่าต่ำสุดของ (เอนโทรปีของแชนนอน ) เมื่อP การจับคู่ที่ดีกว่าระหว่างและH(p,q)pqH(p)pq=pqpความยาวของข้อความที่สั้นลง การฝึกอบรมรูปแบบการลดเอนโทรปีของการข้ามสามารถถูกมองว่าเป็นการฝึกอบรมให้ใกล้เคียงกับการกระจายที่แท้จริง ในปัญหาการเรียนรู้แบบมีผู้สอนเช่นเราได้พูดคุยกันโมเดลจะให้การแจกแจงความน่าจะเป็นมากกว่าผลลัพธ์ที่เป็นไปได้จากอินพุต การค้นหารหัสที่ดีที่สุดอย่างชัดเจนสำหรับการแจกจ่ายไม่ใช่ส่วนหนึ่งของกระบวนการ


"สิ่งนี้ไม่ได้ทำเพื่อการฝึกอบรมโดยใช้การสูญเสียเอนโทรปี" นี่คือสิ่งที่ APIs เช่น TensorFlow softmax_cross_entropy_with_logitsทำ: พวกเขาคำนวณ และซึ่งกำหนดเครือข่าย "ออกแบบมาเพื่อ" สร้างความน่าจะเป็น (อย่างน้อยก็ที่ตำแหน่งฉลาก) ไม่มี? argminθi=1mH(o(i);θ)θML(O)
orome

ใช่เอนโทรปีของการข้ามถูกย่อให้เล็กสุดและมีโอกาสมากที่สุด ในประโยคนั้นฉันอ้างถึงสมการในหัวข้อ "การฝึกอบรมและการทำนายที่แตกต่างกัน" ดูอีกครั้งมันไม่ชัดเจนสำหรับฉันอย่างที่คุณหมายถึงสมการเหล่านั้นดังนั้นฉันจะพูดแบบนี้:ถ้าคุณใช้เลเยอร์เอาต์พุตที่แต่ละหน่วยให้ความน่าจะเป็นของคลาส (เช่น softmax) ความน่าจะเป็นแบบจำลองนั้นเหมือนกันระหว่างการฝึกอบรมและการทำนาย pmodel(y(i)=jx(i);θ)=aj(x(i);θ)
user20160

ฉันเข้าใจว่ามีการใช้ค่าเดียวกันนั่นคือเรียนรู้ถูกใช้ในการทำนาย - แต่พวกมันถูกใช้ในวิธีที่ต่างกัน ความน่าจะเป็นที่โมเดลเรียนรู้สำหรับเป็นแน่นอนแต่ความน่าจะเป็นที่จะถูกทำนายโดยแบบจำลองที่ผ่านการฝึกอบรม ในการตอบสนองต่ออินพุตเดียวกันคือขวา) สิ่งเหล่านี้จะไม่เหมือนกันเว้นแต่ว่า (2) เป็นจริง apmodel(y(i)|x(i);θML)ay(i)(x(i);θML)y(i)x(i)P(argmaxj[1,k]aj(x(i);θML)=y(i))
orome

และ (คำถามแรก) ฉันเข้าใจว่าเพราะเพราะบทบาทที่กำหนดไว้ใน eq (1) เล่นโดยในการเพิ่ม ,ค่าความน่าจะเป็น (ไม่ใช่เพราะ ของ softmax ซึ่งยืนยันว่าพวกเขาจะเพิ่ม 1) เท่านั้น แต่นั่นก็ไม่มีข้อ จำกัด ในอื่น ๆ; (นอกเหนือจากนั้นรวมเป็น ) ดังนั้นฉันจึงไม่เห็นว่าในฐานะหลุมถือเป็น PMF ได้ ay(i)(x(i);θ)pmodel(O;θ)ay(i)(x(i);θML)ajjy(i)1ay(i)a(x(i);θML)
orome

อีกวิธีหนึ่งในการทำให้ประเด็นคำถามแรกคือมีเพียงที่เข้าร่วมในกระบวนการ ML และดังนั้นจึงถือว่ามีความน่าจะเป็นเท่านั้น และในขณะที่ฟังก์ชั่นการเปิดใช้งานที่เหมาะสม (เช่น softmax) ช่วยให้มั่นใจได้ว่าผลรวมของการเปิดใช้งานที่เหลือจะเป็นความน่าจะเป็นความสัมพันธ์ในหมู่พวกเขาไม่มีความหมาย ay(i)
orome

3

ฉันจะตอบจากมุมมองทั่วไปที่กว้างขึ้นเล็กน้อยเกี่ยวกับลักษณะของเวลาและทำไมเราสามารถพิจารณาเอาท์พุท NN ให้เป็นการแจกแจงความน่าจะเป็น

ในแง่ที่ว่า softmax enforces ความผลผลิตที่จะสรุป 1 และยังไม่เป็นลบ, การส่งออกของเครือข่ายคือการกระจายความน่าจะต่อเนื่องไปเรียนหรืออย่างน้อยสามารถตีความได้ว่าเป็นเช่นนั้น ดังนั้นจึงเหมาะสมอย่างยิ่งที่จะพูดคุยเกี่ยวกับการข้ามเอนโทรปีและความเป็นไปได้สูงสุด

แต่สิ่งที่ผมคิดว่าคุณจะเห็น (และถูกต้อง) คือการที่การส่งออก "ความน่าจะเป็น" อาจจะมีอะไรที่จะทำอย่างไรกับความน่าจะเป็นจริงของความถูกต้อง ปัญหานี้เป็นปัญหาที่รู้จักกันดีใน ML เรียกว่าการสอบเทียบ ตัวอย่างเช่นหากตัวจําแนกของคุณของสุนัขและแมวบอกว่าคุณจะคาดหวังว่าถ้าคุณเอาชุดตัวอย่างทั้งหมดที่มีจากนั้นประมาณ 30% ของอินพุตจะถูกจัดประเภทผิด ๆ (เนื่องจากมีความมั่นใจเพียง 70%)fθDCfθ(xi,C)=P(xi=C|θ)=0.7S={xj} P(xj=C|θ)=0.7

อย่างไรก็ตามปรากฎว่าวิธีการฝึกอบรมที่ทันสมัยนั้นไม่ได้บังคับใช้เลย! ดูกัวเอตอัลในการสอบเทียบเครือข่ายประสาทยุคใหม่เพื่อดูการสนทนาเกี่ยวกับเรื่องนี้

กล่าวอีกนัยหนึ่ง "ความน่าจะเป็น" ของผลลัพธ์จาก softmax อาจไม่มีส่วนเกี่ยวข้องกับความมั่นใจของแบบจำลองที่แท้จริง และนี่ไม่น่าแปลกใจ: เราแค่ต้องการเพิ่มความแม่นยำของเราให้สูงสุดและทุกตัวอย่างอินพุตมีความน่าจะเป็นที่ 1 ของการเป็นคลาสเป้าหมาย มีสิ่งจูงใจเล็กน้อยที่จะทำให้รุ่นนี้ถูกต้อง ถ้ามันไม่จำเป็นต้องประเมินความไม่แน่นอนทำไมล่ะ? การข้ามเอนโทรปีไม่ได้แก้ไขปัญหานี้ แน่นอนคุณกำลังบอกให้ไปฟังก์ชั่นเดลต้าทุกครั้ง!

งานล่าสุดจำนวนมากในเครือข่ายประสาท Bayesian พยายามแก้ไขปัญหานี้ แบบจำลองดังกล่าวใช้การกระจายตัวของพารามิเตอร์ตามข้อมูลซึ่งสามารถบูรณาการเพื่อให้ได้การแจกแจงความน่าจะเป็นจริง\, สิ่งนี้ช่วยรับประกันการวัดความไม่แน่นอนที่เป็นประโยชน์และการสอบเทียบที่ดีขึ้น อย่างไรก็ตามมันมีปัญหามากกว่าการคำนวณP(θ|X)=P(X|θ)P(θ)/P(X)P(yi|xi,X)=P(yi|θ,xi)P(θ|X)dθ

หวังว่าฉันจะไม่เข้าใจคำถามของคุณ!


งานที่เกี่ยวข้องดี: arxiv.org/abs/1711.01297
user3658307

0

เครือข่ายประสาท Feed-forward ประมาณความน่าจะเป็นของคลาสจริงเมื่อฝึกฝนอย่างเหมาะสม

ในปี 1991 Richard & Lippmann พิสูจน์แล้วว่าเครือข่ายประสาทส่งต่อเข้าใกล้ความน่าจะเป็นระดับหลังเมื่อได้รับการฝึกฝนด้วยรูปแบบเป้าหมายตัวบ่งชี้ระดับ {0,1} [ Richard MD, & Lippmann RP (1991) ลักษณนามของโครงข่ายประสาทเทียมเป็นการประมาณความน่าจะเป็นด้านหลัง การคำนวณทางประสาท, 3, 461– 483 ] ในการพิสูจน์พวกเขาใช้เครือข่ายประสาทส่งต่อเลเยอร์ที่ซ่อนอยู่

ในการเพิ่มความคิดเห็นทางคณิตศาสตร์ของ Duda & Hart [ Duda RO & Hart PE (1973) การจำแนกรูปแบบและการวิเคราะห์ฉาก Wiley ] กำหนดการแจกแจงคุณลักษณะที่มีให้เป็นเวกเตอร์อินพุตไปยังเครือข่ายประสาท feed-forward เป็นโดยที่ตัวอย่างเช่นเวกเตอร์ข้อมูลเท่ากับสำหรับงานการจำแนกที่มี 4 คุณลักษณะของตัวแปร ดัชนีบ่งชี้ที่เป็นไปได้เรียน\}P(xωi)x=(0.2,10.2,0,2)ini{1,,n}

ลักษณนามของโครงข่ายประสาทการป้อนข้อมูลไปข้างหน้าเรียนรู้ถึงความน่าจะเป็นด้านหลัง, , เมื่อฝึกอบรมโดยการไล่ระดับสี ที่ต้องการความต้องการรูปแบบการส่งออกเช่นจะเป็น , สำหรับปัญหาการจำแนกประเภทสองชั้น เครือข่ายนิวรัลไปข้างหน้ามีโหนดเอาต์พุตหนึ่งโหนดต่อคลาส เวกเตอร์บ่งชี้ว่าฟีเจอร์ - เวกเตอร์ที่สังเกตได้นั้นเป็นของคลาส 2'ndP^(ωix)o=(0,1)(0,1)


นั่นไม่ใช่คำถาม
orome

0

โอกาสในการบันทึกไม่ได้เชื่อมโยงโดยตรงกับเอนโทรปีในบริบทของคำถามของคุณ ความคล้ายคลึงกันนั้นเป็นเพียงผิวเผิน: ทั้งสองมีผลรวมของลอการิทึมของปริมาณความน่าจะเป็นเหมือน

ลอการิทึมในการบันทึกความน่าจะเป็น (MLE) นั้นทำเพื่อเหตุผลในการคำนวณเชิงตัวเลขอย่างหมดจด ความน่าจะเป็นของผลิตภัณฑ์อาจมีจำนวนน้อยมากโดยเฉพาะถ้าตัวอย่างของคุณมีขนาดใหญ่ จากนั้นช่วงความน่าจะเป็นจะเริ่มจาก 1 ถึงมูลค่าเล็กน้อยของผลิตภัณฑ์ เมื่อคุณได้รับบันทึกผลิตภัณฑ์จะกลายเป็นผลรวมและฟังก์ชันบันทึกจะบีบอัดช่วงของค่าไปยังโดเมนที่จัดการได้ง่ายกว่า ลอการิทึมเป็นฟังก์ชันที่ซ้ำซากดังนั้นค่าสูงสุด (นาที) ของความน่าจะเป็นในการบันทึกจะให้คำตอบเดียวกันกับความน่าจะเป็น ดังนั้นการมีล็อกในนิพจน์ MLE จึงไม่สำคัญในแง่คณิตศาสตร์และเป็นเรื่องของความสะดวกสบาย

การปรากฏตัวของฟังก์ชันลอการิทึมในเอนโทรปีมีความสำคัญมากกว่าและมีรากฐานในกลศาสตร์สถิติสาขาฟิสิกส์ มันเชื่อมโยงกับการกระจายBoltzmannซึ่งใช้ในทฤษฎีก๊าซ คุณสามารถได้รับแรงดันอากาศเป็นฟังก์ชันของระดับความสูงที่ใช้งาน


คุณสามารถเน้นส่วนใดของคำถามที่อยู่นี้ได้หรือไม่
orome

ดังที่ฉันพูดใน OP มันเป็นที่ชัดเจนว่าการใช้บันทึกในวิธีที่สองในการแสดง MLE นั้นเป็นเพียงความสะดวกสบาย (สองย่อหน้าแรกของคุณ) และย่อหน้าสุดท้ายของคุณดูเหมือนจะบอกว่าการมีอยู่ของบันทึกในการแสดงออกของเอนโทรปีนั้นมีความหมาย - ในบริบทของเอนโทรปี (โดยเฉพาะฟิสิกส์) แต่สิ่งที่ขาดหายไป (และนี่คือคำถาม) เป็นข้ออ้างสำหรับการเชื่อมโยงการสังเกตทั้งสอง (และจริง) ที่แตกต่างกัน ฉันไม่เห็นหนึ่งนอกเหนือจากสมการหลังจาก (3) เป็นวิธีที่มีประโยชน์ในการแสดงสมการที่สองสำหรับ MLE บางทีนั่นอาจเป็นสิ่งที่คุณพูด
orome

@ หรือคุณสามารถสร้าง NN เพื่อคำนวณเอนโทรปีได้ แต่นั่นไม่ใช่วิธีที่ฟังก์ชั่นการใช้เอนโทรปีของการใช้เอนโทรปีในกรณีส่วนใหญ่ คุณสามารถคิดว่ามันเป็นฟังก์ชั่นการคิดราคาอีกแบบนั่นคือทั้งหมดที่อยู่ที่นี่ ดูเหมือนว่าจะมีคุณสมบัติที่ต้องการและมีความสมมาตรกัน
Aksakal

ใช่แล้วเรียกมันว่าเอนโทรปีหรือบอกว่ามีความหมาย ศ์ (ซึ่ง "เอนโทรปี" ให้ข้อมูลเชิงลึกใด ๆ ) จะทำให้เข้าใจผิด ay(i)(x(i);θML)
orome

@ orome ฉันจะไม่หมกมุ่นกับชื่อ มันเหมือนกับฟังก์ชั่น "การสูญเสียบานพับ" มีส่วนเกี่ยวข้องกับบานพับเพียงเล็กน้อย พวกเขาเรียกสิ่งนี้ว่า "การสูญเสียเอนโทรปี" เพราะรูปแบบการทำงานของมันนั้นเหมือนกับสมการเอนโทรปีของข้อมูล
Aksakal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.