ความแม่นยำที่ดีแม้จะมีค่าการสูญเสียสูง

15

ในระหว่างการฝึกตัวจําแนกไบนารีเครือข่ายประสาทอย่างง่ายฉันได้รับการสูญเสียสูงโดยใช้การข้ามเอนโทรปี แม้จะมีสิ่งนี้ค่าความถูกต้องของชุดการตรวจสอบจะค่อนข้างดี มันมีความหมายไหม? ไม่มีความสัมพันธ์ที่เข้มงวดระหว่างการสูญเสียและความถูกต้อง?

ฉันมีในการฝึกอบรมและการตรวจสอบค่าเหล่านี้: 0.4011 - ACC: 0.8224 - val_loss: 0.4577 - val_acc: 0.7826 นี่เป็นความพยายามครั้งแรกของฉันที่จะใช้ NN และฉันเพิ่งเข้าหาการเรียนรู้ของเครื่องดังนั้นฉันจึงไม่สามารถประเมินผลลัพธ์เหล่านี้ได้อย่างเหมาะสม

neural-networks accuracy

— user146655
แหล่งที่มา

3

คุณสังเกตเห็นค่าการสูญเสียสูงในชุดฝึกอบรมหรือการตรวจสอบความถูกต้องด้วยหรือไม่ มีความแม่นยำหรือการสูญเสียลดลงมากเมื่อเปรียบเทียบชุดฝึกอบรมกับชุดตรวจสอบหรือไม่ ตัวเลขบางอย่างน่าจะเป็นประโยชน์

— Hugh

20

ฉันมีปัญหาคล้ายกัน

ฉันได้ฝึกลักษณนามเครือข่ายประสาทของฉันด้วยการสูญเสียเอนโทรปี นี่คือผลลัพธ์ของเอนโทรปีของการข้ามเป็นฟังก์ชันของยุค สีแดงสำหรับชุดการฝึกอบรมและสีน้ำเงินสำหรับชุดการทดสอบ

ด้วยการแสดงความแม่นยำฉันมีความประหลาดใจที่ได้รับความแม่นยำที่ดีขึ้นสำหรับ epoch 1000 เมื่อเทียบกับ epoch 50 แม้สำหรับชุดทดสอบ!

เพื่อทำความเข้าใจความสัมพันธ์ระหว่างการข้ามเอนโทรปีและความถูกต้องฉันได้ขุดลงในแบบจำลองที่ง่ายกว่าการถดถอยโลจิสติก (ด้วยอินพุตหนึ่งและหนึ่งเอาต์พุต) ในต่อไปนี้ฉันเพิ่งแสดงความสัมพันธ์นี้ใน 3 กรณีพิเศษ

โดยทั่วไปแล้วพารามิเตอร์ที่เอนโทรปีไขว้มีค่าน้อยที่สุดไม่ใช่พารามิเตอร์ที่ความแม่นยำสูงสุด อย่างไรก็ตามเราอาจคาดหวังความสัมพันธ์ระหว่างเอนโทรปีของการข้ามและความแม่นยำ

[ในเรื่องต่อไปนี้ฉันคิดว่าคุณรู้ว่าอะไรคือเอนโทรปีของการไขว้เขวทำไมเราใช้มันแทนความแม่นยำในการฝึกจำลองเป็นต้นถ้าไม่โปรดอ่านสิ่งนี้ก่อน: ตีความคะแนนข้ามเอนโทรปีได้อย่างไร ]

ภาพประกอบที่ 1นี่คือการแสดงให้เห็นว่าพารามิเตอร์ที่เอนโทรปีของครอสเป็นขั้นต่ำไม่ใช่พารามิเตอร์ที่ความแม่นยำสูงสุดและเพื่อทำความเข้าใจว่าทำไม

นี่คือข้อมูลตัวอย่างของฉัน ฉันมี 5 คะแนนและตัวอย่างเช่นอินพุต -1 ได้นำไปสู่เอาต์พุต 0

ข้ามเอนโทรปี หลังจากการลดเอนโทรปีของการข้ามฉันได้รับความแม่นยำ 0.6 การตัดระหว่าง 0 ถึง 1 เสร็จสิ้นที่ x = 0.52 สำหรับ 5 ค่าฉันได้รับค่าเอนโทรปีของการข้าม: 0.14, 0.30, 1.07, 0.97, 0.43

ความถูกต้อง หลังจากเพิ่มความแม่นยำบนกริดให้ได้มากที่สุดแล้วฉันจะได้รับพารามิเตอร์ต่าง ๆ มากมายที่นำไปสู่ 0.8 สามารถแสดงได้โดยตรงโดยเลือกตัด x = -0.1 คุณสามารถเลือก x = 0.95 เพื่อตัดเซ็ตได้

ในกรณีแรกเอนโทรปีของกากบาทมีขนาดใหญ่ แท้จริงแล้วจุดที่สี่อยู่ไกลจากบาดแผลดังนั้นจึงมีเอนโทรปีของการข้ามขนาดใหญ่ กล่าวคือฉันได้รับเอนโทรปีของการข้ามคือ: 0.01, 0.31, 0.47, 5.01, 0.004

ในกรณีที่สองเอนโทรปีของกากบาทก็มีขนาดใหญ่เช่นกัน ในกรณีนี้จุดที่สามอยู่ห่างจากรอยตัดดังนั้นจึงมีการข้ามเอนโทรปีมาก ฉันได้รับเอนโทรปีของการข้าม: 5e-5, 2e-3, 4.81, 0.6, 0.6

$a$ $a$ $b$

$n=100$ $a=0.3$ $b=0.5$

$b$ $b$ $a$

$a$

$a=0.3$

$n=10000$ $a=1$ $b=0$

ฉันคิดว่าถ้าแบบจำลองมีความจุเพียงพอ (เพียงพอที่จะมีแบบจำลองที่แท้จริง) และถ้าข้อมูลมีขนาดใหญ่ (เช่นขนาดตัวอย่างไปถึงอนันต์) การข้ามเอนโทรปีอาจน้อยที่สุดเมื่อความแม่นยำสูงสุดอย่างน้อยที่สุดสำหรับโมเดลโลจิสติกส์ . ฉันไม่มีข้อพิสูจน์เรื่องนี้ถ้ามีคนมีการอ้างอิงโปรดแบ่งปัน

บรรณานุกรม:หัวเรื่องที่เชื่อมโยงข้ามเอนโทรปีและความถูกต้องน่าสนใจและซับซ้อน แต่ฉันไม่สามารถหาบทความที่เกี่ยวข้องกับเรื่องนี้ ... การศึกษาความถูกต้องน่าสนใจเพราะแม้จะเป็นกฎการให้คะแนนที่ไม่เหมาะสมทุกคนสามารถเข้าใจความหมายของมัน

หมายเหตุ:ก่อนอื่นผมอยากจะหาคำตอบได้ในเว็บไซต์นี้โพสต์ที่เกี่ยวข้องกับความสัมพันธ์ระหว่างความถูกต้องและเอนโทรปีข้ามเป็นจำนวนมาก แต่มีไม่กี่คำตอบดู: ฝึกเทียบเคียงและการทดสอบข้าม entropies ส่งผลให้เกิดความถูกต้องแตกต่างกันมาก ; การตรวจสอบการสูญเสียที่จะลง แต่ความถูกต้องของการตรวจสอบที่เลวร้าย ; สงสัยในฟังก์ชั่นการสูญเสียเอนโทรปีของเด็ดขาด ; ตีความการสูญเสียบันทึกเป็นเปอร์เซ็นต์ ...

— ahstat
แหล่งที่มา

ภาพประกอบที่ดีมาก แรงบันดาลใจจากภาพประกอบเหล่านี้ฉันสรุปได้ถึง 2 เหตุผลที่เป็นไปได้ 1. รุ่นง่ายเกินไปที่จะแยกคุณสมบัติที่จำเป็นสำหรับการทำนาย ในภาพประกอบ 1 ของคุณเป็นปัญหาที่หลากหลายและต้องการเลเยอร์เพิ่มอีกหนึ่งชั้นเพื่อให้ได้ความแม่นยำ 100%

— Diansheng

-1

ahstat ให้ภาพประกอบที่ดีมาก

แรงบันดาลใจจากภาพประกอบเหล่านี้ฉันสรุปได้ถึง 2 เหตุผลที่เป็นไปได้ 1. รุ่นง่ายเกินไปที่จะแยกคุณสมบัติที่จำเป็นสำหรับการทำนาย ในภาพประกอบ 1 ของคุณเป็นปัญหาที่หลากหลายและต้องการเลเยอร์เพิ่มอีกหนึ่งชั้นเพื่อให้ได้ความแม่นยำ 100% 2. ข้อมูลมีป้ายกำกับที่มีเสียงดังมากเกินไป (เปรียบเทียบภาพประกอบที่ 1 และ 3)

สำหรับภาพประกอบ 2 อธิบายว่าทำไมเราไม่สามารถเพิ่มการทำให้เป็นมาตรฐาน L1 / L2 มากเกินไปในโมเดล

— Diansheng
แหล่งที่มา