ฟังก์ชั่นการสูญเสียค่าสัมประสิทธิ์ลูกเต๋าเทียบกับเอนโทรปี


27

เมื่อทำการฝึกอบรมการแบ่งส่วนพิกเซลของโครงข่ายประสาทเทียมเช่นเครือข่าย convolutional ทั้งหมดคุณจะตัดสินใจใช้ฟังก์ชั่นการสูญเสียข้ามเอนโทรปีกับฟังก์ชันการสูญเสียค่าสัมประสิทธิ์ Dice ได้อย่างไร?

ฉันรู้ว่านี่เป็นคำถามสั้น ๆ แต่ไม่แน่ใจว่าจะให้ข้อมูลอื่นใดอีก ฉันดูเอกสารจำนวนมากเกี่ยวกับฟังก์ชั่นการสูญเสียสองอย่าง แต่ไม่สามารถเข้าใจได้ง่ายว่าจะใช้ฟังก์ชันใดฟังก์ชันหนึ่ง


ทำไมไม่ใช้วิธีการลงมือทำเพื่อใช้ทั้งสองอย่างและเปรียบเทียบผลลัพธ์ เมื่อมองไปที่การใช้งานที่แตกต่างกันมากมายการอภิปรายเรื่องฟังก์ชั่นการสูญเสียเป็นหัวข้อของการวิจัยเพิ่มเติม เนื่องจากเครือข่าย convolutional ยังคงเป็น 'หัวข้อยอดนิยม' ฉันเดาว่าเอกสารส่วนใหญ่จะยังคงเผยแพร่ในอนาคต
เครูบ

คำตอบ:


27

เหตุผลหนึ่งที่น่าสนใจสำหรับการใช้ข้ามเอนโทรปีมากกว่าค่าสัมประสิทธิ์ลูกเต๋าหรือตัวชี้วัด IoU ที่คล้ายกันคือการไล่ระดับสีนั้นดีกว่า

การไล่ระดับสีของการข้ามเอนโทรปี wrt logits เป็นบางสิ่งเช่นโดยที่คือเอาต์พุต softmax และคือเป้าหมาย ในขณะเดียวกันถ้าเราพยายามเขียนค่าสัมประสิทธิ์ลูกเต๋าในรูปแบบ differentiable:หรือผลการไล่ระดับสีของ wrtนั้นน่าเกลียดมาก :และ2} เป็นเรื่องง่ายที่จะจินตนาการถึงกรณีที่ทั้งและมีขนาดเล็กและการไล่ระดับสีทำให้เกิดมูลค่ามหาศาล โดยทั่วไปดูเหมือนว่าการฝึกอบรมจะไม่แน่นอนมากขึ้นพี-เสื้อพีเสื้อ2พีเสื้อพี2+เสื้อ22พีเสื้อพี+เสื้อพี2เสื้อ2(พี+เสื้อ)22เสื้อ(เสื้อ2-พี2)(พี2+เสื้อ2)2พีเสื้อ


เหตุผลหลักที่ผู้คนพยายามใช้สัมประสิทธิ์ลูกเต๋าหรือ IoU โดยตรงก็คือเป้าหมายที่แท้จริงคือการเพิ่มประสิทธิภาพของตัวชี้วัดเหล่านั้นและการข้ามเอนโทรปีเป็นเพียงพร็อกซีที่ง่ายต่อการเพิ่มการใช้แบ็คแพ็ค นอกจากนี้ค่าสัมประสิทธิ์ลูกเต๋าจะทำงานได้ดีขึ้นในปัญหาความไม่สมดุลของคลาสโดยการออกแบบ:

อย่างไรก็ตามความไม่สมดุลของคลาสมักจะได้รับการดูแลอย่างง่าย ๆ โดยการกำหนดตัวคูณการสูญเสียให้กับแต่ละชั้นเรียนเช่นเครือข่ายนั้นมีความสับสนอย่างมากที่จะเพิกเฉยต่อชั้นเรียนที่ปรากฏขึ้นไม่บ่อยนักดังนั้นจึงไม่มีความชัดเจนว่า


ฉันจะเริ่มต้นด้วยการสูญเสียข้ามเอนโทรปีซึ่งดูเหมือนว่าจะเป็นการสูญเสียมาตรฐานสำหรับเครือข่ายการแบ่งส่วนการฝึกอบรมเว้นแต่จะมีเหตุผลที่น่าสนใจจริงๆที่จะใช้สัมประสิทธิ์ Dice


พี-เสื้อ

3
เมื่อไหร่ที่ "เป้าหมายหลัก" จะทำให้สูญเสียลูกเต๋ามากที่สุด? ฉันตรวจสอบเอกสารต้นฉบับและสิ่งที่พวกเขาพูดคือ“ เราได้ผลลัพธ์ที่เราสังเกตจากการทดลองนั้นดีกว่าที่คำนวณผ่านเครือข่ายเดียวกันที่ฝึกการเพิ่มประสิทธิภาพการสูญเสียลอจิสติก multinomial ด้วยการชั่งน้ำหนักตัวอย่างอีกครั้ง”
Neil G

@shimao โดย "ugly" คุณแค่หมายความว่าการไล่ระดับสีสามารถระเบิดได้ถูกต้องหรือไม่
ข้อบกพร่อง

17

ดังที่สรุปโดย @shimao และ @cherub เราไม่สามารถพูด apriori ได้ว่าชุดข้อมูลใดจะทำงานได้ดีขึ้น วิธีที่ถูกต้องคือลองทั้งสองอย่างและเปรียบเทียบผลลัพธ์ นอกจากนี้โปรดทราบว่าเมื่อพูดถึงการแบ่งส่วนมันไม่ง่ายเลยที่จะ"เปรียบเทียบผลลัพธ์" : การวัดตาม IoU เช่นค่าสัมประสิทธิ์ลูกเต๋าครอบคลุมเฉพาะบางแง่มุมของคุณภาพการแบ่งส่วน; ในบางแอปพลิเคชันจำเป็นต้องใช้มาตรการที่แตกต่างกันเช่นระยะห่างเฉลี่ยของพื้นผิวหรือระยะห่างของพื้นผิว Hausdorff อย่างที่คุณเห็นไม่ใช่แม้แต่ตัวเลือกของตัวชี้วัดคุณภาพที่ถูกต้องเท่านั้น แต่ยังเป็นตัวเลือกที่ดีที่สุดสำหรับฟังก์ชั่นต้นทุน

โดยส่วนตัวฉันมีประสบการณ์ที่ดีมากกับสัมประสิทธิ์ลูกเต๋า มันมหัศจรรย์จริงๆเมื่อพูดถึงความไม่สมดุลของคลาส ในขณะที่เส้นโค้งข้อผิดพลาดการฝึกอบรมกลายเป็นความยุ่งเหยิงทั้งหมด: มันทำให้ฉันไม่มีข้อมูลเกี่ยวกับการบรรจบกันดังนั้นฉันจึงชนะการแข่งขันข้ามเอนโทรปี แน่นอนสิ่งนี้สามารถ / ควรข้ามโดยการตรวจสอบข้อผิดพลาดการตรวจสอบต่อไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.