อะไรจะเป็นตัวอย่างของเมื่อ L2 เป็นฟังก์ชั่นการสูญเสียที่ดีสำหรับการคำนวณการสูญเสียหลัง?


9

การสูญเสีย L2 พร้อมกับการสูญเสีย L0 และ L1 เป็นฟังก์ชั่นการสูญเสีย "เริ่มต้น" ที่ใช้กันโดยทั่วไปสามฟังก์ชั่นเมื่อใช้การสรุปหลังโดยการสูญเสียหลังขั้นต่ำที่คาดไว้ เหตุผลหนึ่งสำหรับเรื่องนี้อาจเป็นเพราะพวกเขาค่อนข้างง่ายต่อการคำนวณ (อย่างน้อยสำหรับการแจกแจงแบบ 1d), L0 ให้ผลลัพธ์ในโหมด, L1 ในค่ามัธยฐานและ L2 ให้ค่าเฉลี่ย เมื่อสอนฉันสามารถสร้างสถานการณ์ที่ L0 และ L1 เป็นฟังก์ชั่นการสูญเสียที่สมเหตุสมผล (ไม่ใช่แค่ "ค่าเริ่มต้น") แต่ฉันกำลังดิ้นรนกับสถานการณ์ที่ L2 จะเป็นฟังก์ชันการสูญเสียที่สมเหตุสมผล ดังนั้นคำถามของฉัน:

เพื่อจุดประสงค์ในการสอนสิ่งที่จะเป็นตัวอย่างของเมื่อ L2 เป็นฟังก์ชั่นการสูญเสียที่ดีสำหรับการคำนวณการสูญเสียหลังขั้นต่ำ?

สำหรับ L0 มันง่ายที่จะเกิดขึ้นกับสถานการณ์จากการเดิมพัน สมมติว่าคุณได้คำนวณส่วนหลังของจำนวนประตูทั้งหมดในเกมฟุตบอลที่กำลังจะมาถึงและคุณจะทำการเดิมพันที่คุณชนะ $$$ หากคุณเดาจำนวนประตูอย่างแม่นยำและแพ้อย่างอื่น จากนั้น L0 คือฟังก์ชันการสูญเสียที่สมเหตุสมผล

ตัวอย่าง L1 ของฉันมีการวางแผนเล็กน้อย คุณกำลังพบเพื่อนที่จะมาถึงหนึ่งในสนามบินหลายแห่งและจากนั้นเดินทางโดยรถยนต์ปัญหาคือคุณไม่รู้ว่าสนามบินใด (และไม่สามารถโทรหาเพื่อนของคุณได้เพราะเธออยู่ในอากาศ) เมื่อพิจารณาถึงสนามบินที่เธออาจจะลงจอดแล้วเป็นสถานที่ที่ดีที่จะวางตำแหน่งตัวเองเพื่อให้ระยะห่างระหว่างเธอกับคุณจะน้อยเมื่อเธอไปถึง ที่นี่จุดที่ลดการสูญเสีย L1 ที่คาดไว้ให้น้อยที่สุดนั้นสมเหตุสมผลถ้าทำการสันนิษฐานอย่างง่าย ๆ ว่ารถของเธอจะเดินทางด้วยความเร็วคงที่ไปยังตำแหน่งของคุณโดยตรง นั่นคือการรอหนึ่งชั่วโมงนั้นแย่กว่าสองเท่าเมื่อรอ 30 นาที


คำเตือน: L0 ไม่ส่งผลให้เกิดปัญหาอย่างต่อเนื่อง ....
ซีอาน

อืมใช่ฉันรู้ว่ามันค่อนข้างเลอะเทอะเล็กน้อยเมื่อพูดโหมด L0 ->
Rasmus Bååth

2
หากคุณมีแหล่งกำเนิดแสงหลายจุดเพื่อให้จุดใด ๆ ในอวกาศที่เราสามารถเลือกได้จะได้รับแสงที่ไม่สำคัญจากทั้งหมดยกเว้นแหล่งที่ใกล้ที่สุดการใช้การสูญเสีย L2 จะเทียบเท่ากับการลดขนาดพูด จำนวนวินาทีต่อลูเมนที่ได้รับ ฉันไม่สามารถนึกได้ว่าทำไมคุณถึงต้องการทำเช่นนั้นแทนที่จะเพิ่มลูเมนสูงสุดต่อวินาที
สถิติอุบัติเหตุเมื่อ

คำตอบ:


4
  1. L2 คือ "ง่าย" มันเป็นสิ่งที่คุณจะได้รับโดยปริยายถ้าคุณใช้วิธีเมทริกซ์มาตรฐานเช่นการถดถอยเชิงเส้น, SVD เป็นต้นจนกว่าเราจะมีคอมพิวเตอร์ L2 เป็นเกมเดียวในเมืองที่มีปัญหามากมายซึ่งเป็นเหตุผลว่า นอกจากนี้ยังง่ายกว่าที่จะได้คำตอบที่ถูกต้องโดยใช้การสูญเสีย L2 กับวิธีที่นักเล่นหลายคนชอบเช่นกระบวนการแบบเกาส์เซียนมากกว่าที่จะได้คำตอบที่แน่นอนโดยใช้ฟังก์ชั่นการสูญเสียอื่น ๆ

  2. ที่เกี่ยวข้องคุณสามารถได้รับการสูญเสีย L2 โดยใช้เทย์เลอร์ลำดับที่ 2 ซึ่งไม่ใช่กรณีของฟังก์ชั่นการสูญเสียส่วนใหญ่ (เช่น cross-entropy) สิ่งนี้ทำให้การเพิ่มประสิทธิภาพเป็นเรื่องง่ายด้วยวิธีการลำดับที่ 2 เช่นวิธีของนิวตัน มีวิธีการมากมายสำหรับการจัดการกับฟังก์ชั่นการสูญเสียอื่น ๆ ที่ยังคงใช้วิธีการสำหรับการสูญเสีย L2 ภายใต้ประทุนด้วยเหตุผลเดียวกัน

  3. L2 เกี่ยวข้องกับการแจกแจงแบบเกาส์และทฤษฎีขีด จำกัด กลางทำให้การแจกแจงแบบเกาส์เป็นเรื่องธรรมดา หากกระบวนการสร้างข้อมูลของคุณเป็นแบบเกาส์ (โดยมีเงื่อนไข) L2 จะเป็นตัวประมาณที่มีประสิทธิภาพที่สุด

  4. การสูญเสีย L2 สลายตัวได้อย่างดีเนื่องจากกฎความแปรปรวนทั้งหมด นั่นทำให้บางรุ่นกราฟิกที่มีตัวแปรแฝงง่ายพอดีโดยเฉพาะ

  5. L2 ลงโทษการคาดการณ์ที่แย่มากอย่างไม่เป็นสัดส่วน สิ่งนี้อาจดีหรือไม่ดี แต่มักจะสมเหตุสมผล การรอนานหนึ่งชั่วโมงอาจแย่กว่าการรอ 30 นาทีโดยเฉลี่ยสี่เท่าหากเป็นเหตุให้ผู้คนจำนวนมากพลาดการนัดหมาย


2
หืมมมสิ่งที่ฉันตามมาเป็นเหมือนสถานการณ์การตัดสินใจที่ L2 จะเป็นฟังก์ชั่นการสูญเสียที่สมเหตุสมผล เช่นเดียวกับสถานการณ์ที่คล้ายกับสองตัวอย่างในคำถามของฉัน แต่สำหรับ L2
Rasmus Bååth

1
@ RasmusBååthผมไม่แน่ใจว่าเกี่ยวกับการโต้แย้งสำหรับว่า squaring การสูญเสีย (นอกเหนือจากการเชื่อมต่อกับ Gaussian ข้อมูลที่ก่อให้เกิดกระบวนการใน # 3) แต่ # 5 เป็นอาร์กิวเมนต์สำหรับฟังก์ชั่นการสูญเสียการเร่งของบางชนิด ลำดับที่สองฟังก์ชั่นดังกล่าวจะจับคู่กับการสูญเสีย L2
เดวิดเจแฮร์ริสมี. ค.

@ DavidJ.Harris จริงๆแล้ว # 5 ไม่ถูกต้อง สิ่งที่คุณจะทำในกรณีนี้คือใช้ L1 abs (xy) loss เพื่อลดความไม่พอใจ = time² ใช้ (xy) ²สูญเสียเวลาตามที่คุณแนะนำจริง ๆ แล้วจะให้ผลลัพธ์ที่ไม่ดี
ÍhorMé

@ ÍhorMéฉันคิดว่าฉันต้องเข้าใจคุณผิด ดูเหมือนว่าคุณกำลังบอกว่าวิธีที่ดีที่สุดในการลดข้อผิดพลาดกำลังสองโดยการลดการสูญเสียแบบสัมบูรณ์และไม่ใช่มาตรฐาน L2
David J. Harris

@ DavidJ.Harris ใช่ฉันกำลังพยายามหาจุดว่านี่เป็นปัญหาของการลด "badness" (= time diff²) และไม่ใช่เวลาที่ใช้รอเป็นหลัก แต่ฉันคิดว่าฉันเข้าใจผิดการทดลองทางความคิด ตอนนี้ฉันกำลังอ่านใหม่ L2 เป็นวิธีที่ถูกต้องในการย้ายจากการลดความแตกต่างของเวลาให้เหลือน้อยที่สุดเพื่อลด "ความเลว" ลง แม้ว่าฉันต้องบอกว่ามันเป็นการดีที่สุดสำหรับโปรแกรมเมอร์ที่จะระบุสิ่งที่ "เลวร้าย" ที่เขาต้องการลดให้ถูกต้องจากนั้นรับค่านั้นแล้วย่อเล็กสุดผ่าน L1 ในกรณีนี้คุณจะได้รับ (เวลาต่างกัน) ²ก่อนจากนั้นจึงลดการสูญเสีย L1 ให้น้อยที่สุด ไปกับ L2 เฉพาะเมื่อคุณรู้ว่าคุณกำลังทำอะไร
ÍhorMé
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.