ฉันสงสัยว่าทำไมเราจึงใช้โอกาสในการลบ (บันทึก) ในบางครั้ง


46

คำถามนี้ทำให้ฉันงงงวยมานาน ฉันเข้าใจการใช้ 'บันทึก' เพื่อเพิ่มโอกาสในการเพิ่มดังนั้นฉันจึงไม่ถามเกี่ยวกับ 'บันทึก'

คำถามของฉันคือเนื่องจากการเพิ่มความน่าจะเป็นบันทึกเท่ากับการลด "ความน่าจะเป็นในการลบเชิงลบ" (NLL) ทำไมเราจึงประดิษฐ์ NLL นี้ ทำไมเราไม่ใช้ "โอกาสที่ดี" ตลอดเวลา? ได้รับการสนับสนุนในกรณีใดบ้าง

ฉันพบคำอธิบายเล็กน้อยที่นี่ https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/แต่ดูเหมือนว่าจะอธิบายการเทียบเท่าที่เห็นได้ชัดในส่วนลึก แต่ไม่ได้แก้ปัญหาความสับสนของฉัน

คำอธิบายใด ๆ ที่จะได้รับการชื่นชม


3
โอกาสในการบันทึกสูงสุดไม่ใช่ฟังก์ชันการสูญเสีย แต่เป็นค่าลบจะอธิบายในบทความในส่วนสุดท้าย มันเป็นเรื่องของความมั่นคง สมมติว่าคุณมีระบบการเรียนรู้ที่ชาญฉลาดซึ่งลองใช้ฟังก์ชันการสูญเสียที่แตกต่างกันสำหรับปัญหาที่กำหนด ชุดของฟังก์ชั่นการสูญเสียจะมีการสูญเสียกำลังสองการสูญเสียสัมบูรณ์และอื่น ๆ หากต้องการมีรายการที่สอดคล้องกัน
Cagdas Ozgenc

คำตอบ:


41

นี่คือคำตอบอื่น : เครื่องมือเพิ่มประสิทธิภาพในแพ็คเกจทางสถิติมักจะทำงานได้โดยการลดผลลัพธ์ของฟังก์ชั่น หากฟังก์ชันของคุณให้ค่าความน่าจะเป็นอันดับแรกจะสะดวกกว่าในการใช้ลอการิทึมเพื่อลดค่าที่ส่งกลับโดยฟังก์ชันความน่าจะเป็น จากนั้นเนื่องจากความน่าจะเป็นของบันทึกและฟังก์ชันความน่าจะเป็นมีแนวโน้มเพิ่มขึ้นหรือลดลงเหมือนกันคุณสามารถลดโอกาสในการลบเชิงลบเพื่อที่จะทำการประเมินความน่าจะเป็นสูงสุดของฟังก์ชันที่คุณกำลังทดสอบ ดูตัวอย่างnlminbฟังก์ชันใน R ที่นี่


10
ฉันจะบอกว่าสิ่งนี้ยิ่งไปกว่าตัวเพิ่มประสิทธิภาพและฝังอยู่ในอนุสัญญาในทฤษฎีการปรับให้เหมาะสม ดูเหมือนว่าการย่อขนาดมักจะถูกพิจารณาว่าเป็นการปรับให้เหมาะสมที่สุด ตัวอย่างเช่นพิจารณาชื่อ "การเพิ่มประสิทธิภาพนูน" ซึ่งไปพร้อมกับการย่อขนาด แต่อาจเรียกง่ายๆว่า "การปรับให้เหมาะสมกับเว้า" ได้อย่างง่ายดาย
Bitwise

47

โดยทั่วไปแล้วเครื่องมือเพิ่มประสิทธิภาพจะลดฟังก์ชั่นดังนั้นเราจึงใช้ความน่าจะเป็นบันทึกเชิงลบเพื่อลดขนาดที่เทียบเท่ากับการเพิ่มความเป็นไปได้ในการบันทึกหรือความน่าจะเป็นสูงสุด

เพื่อความสมบูรณ์ฉันจะพูดถึงว่าลอการิทึมเป็นฟังก์ชันแบบโมโนโทนิกดังนั้นการปรับฟังก์ชั่นให้เหมือนกับการปรับลอการิทึมของมันให้ได้ผลดีที่สุด การทำบันทึกการเปลี่ยนแปลงของฟังก์ชั่นความน่าจะเป็นทำให้ง่ายต่อการจัดการ (การคูณกลายเป็นผลรวม) และนี่ก็เป็นตัวเลขที่มีเสถียรภาพมากขึ้น นี่เป็นเพราะขนาดของโอกาสที่จะมีขนาดเล็กมาก การทำบันทึกการแปลงจะแปลงตัวเลขเล็ก ๆ เหล่านี้ให้เป็นค่าลบที่มากขึ้นซึ่งเครื่องจักรความแม่นยำ จำกัด สามารถจัดการได้ดีกว่า


4
ตัวอย่างเช่นฉันมักจะพบกับบันทึกความน่าจะเป็นของคำสั่ง -40,000 ในงานของฉัน ในระบอบการปกครองนี้มันเป็นไปไม่ได้ที่จะทำงานด้วยความเป็นไปได้เชิงตัวเลข
Will Vousden

3

การย่อขนาดที่นี่หมายถึงลดระยะห่างของการแจกแจงสองแบบให้อยู่ในระดับต่ำสุด: การกระจาย Bernoulli เป้าหมายและการกระจายผลลัพธ์ที่สร้างขึ้น เราวัดระยะห่างของทั้งสองกระจายใช้ Kullback-Leibler แตกต่าง (เรียกว่าญาติเอนโทรปี) และเนื่องจากทฤษฎีจำนวนมากการลด KL แตกต่างคือจำนวนเงินที่จะลดการเอนโทรปีข้าม (เอนโทรปีทั้ง multiclass ข้ามดูที่นี่หรือจำแนกไบนารีดูที่นี่และที่นี่ )

ดังนั้น

การเพิ่มโอกาสในการบันทึกให้มากที่สุดเทียบเท่ากับการลด "โอกาสในการบันทึกเชิงลบ" ให้น้อยที่สุด

สามารถแปลเป็น

การเพิ่มความเป็นไปได้ของการบันทึกนั้นเทียบเท่ากับการลดระยะห่างระหว่างการแจกแจงสองแบบซึ่งเท่ากับการลดการเบี่ยงเบน KL และการข้ามเอนโทรปี

ฉันคิดว่ามันใช้งานง่ายมาก


0

คำตอบนั้นง่ายกว่าที่คุณคิด เป็นแบบแผนที่เราเรียกว่าฟังก์ชันวัตถุประสงค์การเพิ่มประสิทธิภาพเป็น "ฟังก์ชั่นต้นทุน" หรือ "ฟังก์ชั่นการสูญเสีย" ดังนั้นเราต้องการลดให้น้อยที่สุดแทนที่จะขยายให้ใหญ่สุดและทำให้โอกาสในการลบเกิดขึ้นมากกว่าที่จะเป็นไปได้ คำ. ทางเทคนิคทั้งสองถูกต้องว่า โดยวิธีการถ้าเราต้องการเพิ่มบางสิ่งบางอย่างเรามักจะเรียกมันว่า "ฟังก์ชั่นยูทิลิตี้" และด้วยเหตุนี้เป้าหมายคือการเพิ่มพวกเขา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.