ฉันพยายามฝึกอบรมเครือข่ายประสาทเทียมเพื่อจัดหมวดหมู่ แต่ป้ายกำกับที่ฉันมีเสียงค่อนข้างดัง (ประมาณ 30% ของป้ายกำกับผิด)
การสูญเสียข้ามเอนโทรปีใช้งานได้จริง แต่ฉันสงสัยว่ามีทางเลือกอื่นที่มีประสิทธิภาพมากกว่าในกรณีนี้หรือไม่? หรือการสูญเสียข้ามเอนโทรปีเหมาะสมที่สุดหรือไม่
ฉันไม่แน่ใจ แต่ฉันคิดว่าค่อนข้าง "ตัด" การสูญเสียข้ามเอนโทรปีดังนั้นการสูญเสียจุดข้อมูลหนึ่งจุดจะไม่เกินขอบเขตบน
ขอบคุณ!
ปรับปรุง
ตามคำตอบของลูคัสผมได้ต่อไปนี้สำหรับสัญญาซื้อขายล่วงหน้าสำหรับการส่งออกการทำนายและใส่ของฟังก์ชัน softmax Zดังนั้นฉันเดาว่ามันคือการเพิ่มเทอมที่ราบรื่นลงในอนุพันธ์
สัญญาซื้อขายล่วงหน้าสำหรับการสูญเสียข้ามเอนโทรปีดั้งเดิม:
z 3 Pฉัน=0.3/N+0.7YฉันL=-Σทีฉันเข้าสู่ระบบ(Pฉัน)∂ลิตร
อัปเดต
ฉันเพิ่งอ่านบทความโดย Googleที่ใช้สูตรเดียวกันกับคำตอบของลูคัส แต่มีการตีความที่แตกต่างกัน
ในส่วนที่ 7 การทำให้เป็นมาตรฐานโมเดลผ่านการปรับให้เรียบของฉลาก
อย่างไรก็ตามการสูญเสียเอนโทรปีนี้อาจทำให้เกิดปัญหาสองประการ ขั้นแรกมันอาจส่งผลให้เกิดความกระชับมากเกินไป: ถ้าแบบจำลองเรียนรู้ที่จะกำหนดความน่าจะเป็นแบบเต็มให้กับป้ายชื่อจริงสำหรับแต่ละตัวอย่างการฝึกอบรมมันไม่รับประกันว่าจะพูดคุยกัน ประการที่สองมันกระตุ้นให้เกิดความแตกต่างระหว่าง logit ที่ใหญ่ที่สุดและอื่น ๆ ทั้งหมดที่จะกลายเป็นขนาดใหญ่และสิ่งนี้รวมกับการไล่ระดับสีล้อมรอบลดความสามารถของแบบจำลองในการปรับตัว สิ่งนี้เกิดขึ้นเพราะตัวแบบมีความมั่นใจในการทำนายมากเกินไป
แต่แทนที่จะเพิ่มคำที่ปรับให้เรียบลงในการทำนายพวกเขาเพิ่มเข้าไปในความจริงพื้นฐานซึ่งกลายเป็นประโยชน์
ในการทดสอบ ImageNet ด้วย K = 1,000 คลาสเราใช้ u (k) = 1/1000 และ = 0.1 สำหรับ ILSVRC 2012 เราพบว่ามีการปรับปรุงอย่างสม่ำเสมอประมาณ 0.2% แน่นอนสำหรับทั้งข้อผิดพลาดอันดับ 1 และข้อผิดพลาดอันดับ 5