ผมเข้าใจว่าได้รับชุดของอิสระสังเกต ตัวประมาณความน่าจะเป็นสูงสุด (หรือที่เท่ากันคือ MAP ที่มี flat / uniform มาก่อน) ซึ่งระบุพารามิเตอร์ที่สร้างแบบจำลองการกระจาย p_ {model} \ ซ้าย (\, \ cdot \,; \ mathbf {θ} \ right) ที่ตรงกับข้อสังเกตเหล่านั้นมากที่สุด
หรือสะดวกยิ่งขึ้น
และดูบทบาทที่สามารถเล่นในการกำหนดฟังก์ชั่นการสูญเสียสำหรับเครือข่ายนิวรัลลึกหลายระดับซึ่งสอดคล้องกับพารามิเตอร์ที่ฝึกอบรมของเครือข่าย (เช่นและการสังเกตเป็นคู่ของการเปิดใช้งานอินพุตและการแก้ไขเลเบลคลาสที่ถูกต้อง , = { } โดยใช้
สิ่งที่ฉันไม่เข้าใจคือสิ่งนี้เกี่ยวข้องกับ "cross entropy" ของเอาต์พุตที่ถูกต้อง (vectorized), , และการเปิดใช้งานเอาต์พุตที่สอดคล้องกันของเครือข่าย ที่ใช้ในการปฏิบัติเมื่อวัดผิดพลาด / การสูญเสียระหว่างการฝึกอบรม . มีปัญหาที่เกี่ยวข้องหลายประการ:
การเปิดใช้งาน "เป็นความน่าจะเป็น"
หนึ่งในขั้นตอนในการสร้างความสัมพันธ์ระหว่าง MLE และข้ามเอนโทรปีคือการใช้การเปิดใช้งานเอาต์พุต "ราวกับว่า" เป็นความน่าจะเป็น แต่ฉันไม่เห็นชัดเจนว่าพวกเขาเป็นหรืออย่างน้อยพวกเขาเป็น
ในการคำนวณข้อผิดพลาดการฝึกอบรม - โดยเฉพาะอย่างยิ่งในการเรียกมันว่า "การสูญเสียเอนโทรปีข้าม" - มันจะสันนิษฐานว่า (หลังจาก normalizing การเปิดใช้งานเพื่อรวมถึง 1)
หรือ
เพื่อให้เราสามารถเขียน
และดังนั้น
แต่ในขณะที่สิ่งนี้ทำให้ความน่าจะเป็น (เท่าที่มันคืออะไร) มัน ไม่มีข้อ จำกัด ในการเปิดใช้งานอื่น ๆ
สามารถว่าเป็น PMFs จริงหรือไม่? มีอะไรที่ทำให้ไม่ใช่ความเป็นจริงในความเป็นจริง (และเพียง "ชอบ" พวกเขา )?
ข้อ จำกัด ในการจัดหมวดหมู่
ขั้นตอนที่สำคัญข้างต้นในการเทียบเคียง MLE กับ cross-entropy นั้นอาศัยทั้งหมดในโครงสร้าง "one-hot" ของที่กำหนดปัญหาการเรียนรู้แบบหลายชั้น (single-label) ใด ๆ โครงสร้างอื่น ๆ สำหรับจะทำให้มันเป็นไปไม่ได้ที่จะได้รับจากจะ{3}
สมการของ MLE และการย่อตัวแบบข้ามเอนโทรปี จำกัด เฉพาะกรณีที่เป็น "หนึ่งร้อน" หรือไม่
การฝึกอบรมและการทำนายความน่าจะเป็นต่าง ๆ
ในระหว่างการคาดการณ์ก็มักจะเป็นกรณีที่
ซึ่งผลลัพธ์ในการทำนายความน่าจะเป็นที่ถูกต้องซึ่งแตกต่างจากความน่าจะเป็นที่ได้เรียนรู้ระหว่างการฝึกอบรมเว้นแต่ว่าจะเป็นกรณีที่เชื่อถือได้
นี่เป็นกรณีที่เชื่อถือได้หรือไม่? อย่างน้อยก็น่าจะประมาณจริงหรือไม่? หรือมีข้อโต้แย้งอื่น ๆ ที่แสดงให้เห็นถึงสมการของค่าของการกระตุ้นการเรียนรู้ที่ตำแหน่งฉลากด้วยความน่าจะเป็นที่ค่าสูงสุดของการเปิดใช้งานที่เรียนรู้เกิดขึ้นที่นั่นหรือไม่
ทฤษฎีเอนโทรปีและสารสนเทศ
แม้จะสมมติว่าข้อกังวลข้างต้นได้รับการแก้ไขและการเปิดใช้งานนั้นเป็น PMF ที่ถูกต้อง (หรือสามารถได้รับการปฏิบัติอย่างมีความหมายเช่นนี้) ดังนั้นบทบาทที่เล่นโดยเอนโทรปีข้ามในการคำนวณ นั้นไม่มีปัญหา ฉันทำไมมันถึงมีประโยชน์หรือมีความหมายในการพูดคุยเกี่ยวกับเอนโทรปีของเนื่องจากเอนโทรปีของ Shanon มีผลเฉพาะ ชนิดของการเข้ารหัสซึ่งไม่ได้ใช้ในการฝึกอบรมเครือข่าย
ข้อมูลเอนโทรปีทางทฤษฎีมีบทบาทอย่างไรในการตีความฟังก์ชั่นค่าใช้จ่ายซึ่งตรงข้ามกับการให้เครื่องมือ (ในรูปแบบของเอนโทรปีข้าม) สำหรับการคำนวณหนึ่ง (ที่สอดคล้องกับ MLE)
softmax_cross_entropy_with_logits
ทำ: พวกเขาคำนวณ และซึ่งกำหนดเครือข่าย "ออกแบบมาเพื่อ" สร้างความน่าจะเป็น (อย่างน้อยก็ที่ตำแหน่งฉลาก) ไม่มี?