อะไรคือผลกระทบของการเลือกฟังก์ชั่นการสูญเสียที่แตกต่างกันในการจัดประเภทเป็นประมาณ 0-1 การสูญเสีย


27

เรารู้ว่าฟังก์ชันวัตถุประสงค์บางอย่างนั้นง่ายต่อการปรับให้เหมาะสมและบางฟังก์ชันก็ยาก และมีฟังก์ชั่นการสูญเสียมากมายที่เราต้องการใช้ แต่ยากที่จะใช้เช่นการสูญเสีย 0-1 ดังนั้นเราจึงหาฟังก์ชั่นการสูญเสียพร็อกซีเพื่อทำงาน ตัวอย่างเช่นเราใช้การสูญเสียบานพับหรือการสูญเสียโลจิสติกเพื่อ "การสูญเสีย" โดยประมาณ 0-1

ต่อไปนี้พล็อตมาจากหนังสือ PRML คริสบิชอป การสูญเสียบานพับถูกพล็อตเป็นสีน้ำเงินบันทึกการสูญเสียในสีแดง, การสูญเสียสแควร์ในสีเขียวและข้อผิดพลาด 0/1 ในสีดำ

ป้อนคำอธิบายรูปภาพที่นี่

ฉันเข้าใจว่าเหตุผลที่เรามีการออกแบบ (สำหรับบานพับและการสูญเสียโลจิสติก) คือเราต้องการให้ฟังก์ชันวัตถุประสงค์นูนออกมา

โดยดูที่การสูญเสียและการสูญเสียบานพับโลจิสติกก็ลงโทษเพิ่มเติมเกี่ยวกับกรณีแบ่งอย่างยิ่งและที่น่าสนใจก็ยังจัดได้อย่างถูกต้องลงโทษกรณีถ้าพวกเขาจะจัดอย่างอ่อน มันเป็นการออกแบบที่แปลกจริงๆ

คำถามของฉันคือราคาที่เราต้องจ่ายโดยใช้ "ฟังก์ชั่นการสูญเสียพร็อกซี" ที่แตกต่างกันเช่นการสูญเสียบานพับและการสูญเสียโลจิสติกคืออะไร?


ในการถดถอยการเลือกการสูญเสียกำลังสองนั้นง่ายกว่าการเพิ่มประสิทธิภาพเมื่อเปรียบเทียบกับการสูญเสียค่าสัมบูรณ์ แต่การสูญเสียกำลังสองมีความอ่อนไหวต่อค่าผิดปกติมากกว่า ดังนั้นควรมีความอ่อนไหวต่อข้อมูลบางประเภทด้วยหรือไม่
Haitao Du

4
ทางออกที่ง่ายกว่าคือการพัฒนาความน่าจะเป็นที่คาดการณ์ได้อย่างเหมาะสมซึ่งไม่ต้องการฟังก์ชั่นยูทิลิตี้ ฟังก์ชั่นยูทิลิตี้ / การสูญเสียสามารถนำมาใช้ในภายหลังโดยผู้มีอำนาจตัดสินใจที่แท้จริง การจำแนกประเภทนั้นเทียบเท่ากับการตัดสินใจของผู้มีอำนาจตัดสินใจและต้องการความรู้มากเกินไป
Frank Harrell

@ FrankHarrell ขอบคุณและฉันใช้วิธีการที่คุณกล่าวถึงในที่ทำงานซึ่งเราแยกการทำนายและการดำเนินธุรกิจ อย่างไรก็ตามสิ่งนี้ยังไม่ได้รับการปรับให้เหมาะสมในภาพรวม แต่เป็นวิธีแก้ปัญหาในพื้นที่ที่โลภมากใช่ไหม? มันเป็น "นโยบายนกกระจอกเทศ" หรือไม่?
Haitao Du

2
มันอาจไม่นำไปสู่การตัดสินใจที่ดีที่สุด ฟังก์ชันการสูญเสีย / อรรถประโยชน์ / ต้นทุนไม่ได้มาจากตัวพยากรณ์โมเดล
Frank Harrell

1
+1 การลดการสูญเสียโลจิสติกส์ให้สอดคล้องกับการเพิ่มโอกาสในการเกิดทวินามให้ได้มากที่สุด การลดการสูญเสียความผิดพลาดกำลังสองให้สอดคล้องกับการเพิ่มความเป็นไปได้แบบเกาส์ (มันเป็นแค่ OLS regression สำหรับการจำแนกประเภท 2 ระดับมันเทียบเท่ากับ LDA จริง ๆ ) คุณรู้หรือไม่ว่าการลดความสูญเสียของบานพับให้สอดคล้องกับการเพิ่มโอกาสอื่น ๆ ให้มากที่สุด? คือมีแบบจำลองความน่าจะเป็นที่สอดคล้องกับการสูญเสียบานพับหรือไม่?
อะมีบากล่าวว่า Reinstate Monica

คำตอบ:


16

ความคิดบางอย่างของฉันอาจไม่ถูกต้อง

ฉันเข้าใจว่าเหตุผลที่เรามีการออกแบบ (สำหรับบานพับและการสูญเสียโลจิสติก) คือเราต้องการให้ฟังก์ชันวัตถุประสงค์นูนออกมา

นูนเป็นสมบัติที่ดี แต่ฉันคิดว่าเหตุผลที่สำคัญที่สุดคือเราต้องการให้ฟังก์ชันวัตถุประสงค์มีอนุพันธ์ที่ไม่เป็นศูนย์เพื่อให้เราสามารถใช้อนุพันธ์เพื่อแก้ปัญหาได้ ฟังก์ชันวัตถุประสงค์อาจไม่ใช่แบบนูนซึ่งในกรณีนี้เรามักจะหยุดที่จุด Optima หรือจุดอานม้า

และน่าสนใจมันยังลงโทษอินสแตนซ์ที่จำแนกอย่างถูกต้องหากพวกมันถูกจำแนกอย่างอ่อน มันเป็นการออกแบบที่แปลกจริงๆ

ฉันคิดว่าการออกแบบประเภทนี้จะแนะนำแบบจำลองให้ไม่เพียง แต่ทำให้การทำนายถูกต้อง แต่ยังมั่นใจในการทำนาย หากเราไม่ต้องการให้อินสแตนซ์ที่ถูกจัดประเภทอย่างถูกต้องเราสามารถยกตัวอย่างเช่นย้ายการสูญเสียบานพับ (สีน้ำเงิน) ไปทางซ้ายด้วย 1 เพื่อให้พวกเขาไม่ได้รับความเสียหายอีกต่อไป แต่ฉันเชื่อว่าสิ่งนี้มักจะนำไปสู่ผลลัพธ์ที่แย่ลงในทางปฏิบัติ

ราคาที่เราต้องจ่ายโดยใช้ "ฟังก์ชั่นการสูญเสียพร็อกซี" ที่แตกต่างกันเช่นการสูญเสียบานพับและการสูญเสียโลจิสติกคืออะไร?

IMO โดยการเลือกฟังก์ชั่นการสูญเสียที่แตกต่างกันเรากำลังนำข้อสมมติฐานที่แตกต่างกันไปยังโมเดล ตัวอย่างเช่นการสูญเสียการถดถอยโลจิสติก (สีแดง) ถือว่าการกระจาย Bernoulli การสูญเสีย MSE (สีเขียว) ถือว่าเป็นเสียงเกาส์เซียน


ทำตามตัวอย่างกำลังสองน้อยที่สุดเทียบกับการถดถอยโลจิสติกใน PRML ฉันเพิ่มการสูญเสียบานพับสำหรับการเปรียบเทียบ ป้อนคำอธิบายรูปภาพที่นี่

ดังที่แสดงในรูปภาพการสูญเสียบานพับและการถดถอยโลจิสติก / เอนโทรปี / บันทึกความเป็นไปได้ / softplus มีผลลัพธ์ที่ใกล้เคียงกันมากเนื่องจากฟังก์ชันวัตถุประสงค์ของพวกมันอยู่ใกล้ (รูปด้านล่าง) การสูญเสียบานพับไม่ได้มีวิธีแก้ปัญหาที่ไม่เหมือนใครเสมอไป

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามคุณสมบัติที่สำคัญอย่างหนึ่งของการสูญเสียบานพับคือจุดข้อมูลที่อยู่ไกลจากขอบเขตการตัดสินใจไม่ได้มีส่วนช่วยให้เกิดการสูญเสียการแก้ปัญหาจะเหมือนกันเมื่อนำคะแนนเหล่านั้นออกไป

คะแนนที่เหลือเรียกว่าเวกเตอร์สนับสนุนในบริบทของ SVM ในขณะที่ SVM ใช้คำศัพท์ปกติเพื่อรับรองคุณสมบัติมาร์จิ้นสูงสุดและโซลูชันเฉพาะ


ขอบคุณสำหรับคำตอบ. เป็นไปได้หรือไม่ที่จะสร้างการสาธิตบางอย่างเพื่อแสดงผลกระทบสำหรับการสูญเสียที่แตกต่างกันอย่างสังหรณ์ใจ? เช่นเดียวกับที่เราแสดงผลกระทบจากค่าผิดปกติของการถดถอยโดยใช้การสูญเสียกำลังสองเทียบกับการสูญเสียที่น้อยที่สุด
Haitao Du

@ hxd1011 ไม่เป็นไรฉันจะลองเพิ่มการสาธิตในภายหลัง
dontloo

2
บานพับสูญเสียนูน ...
มุสตาฟา S Eisa

1
@ MustafaM.Eisa ถูกต้องขอบคุณฉันหมายความว่าไม่ได้เด็ดขาด ..
dontloo

@dontloo จำลองที่ยอดเยี่ยม! ขอขอบคุณ. ฉันจะพยายามอัปโหลดแบบจำลองของฉันในภายหลังด้วย
Haitao Du

6

โพสต์คำตอบล่าช้าเนื่องจากมีคำตอบที่ง่ายมากซึ่งยังไม่ได้กล่าวถึง

ราคาที่เราต้องจ่ายโดยใช้ "ฟังก์ชั่นการสูญเสียพร็อกซี" ที่แตกต่างกันเช่นการสูญเสียบานพับและการสูญเสียโลจิสติกคืออะไร?

เมื่อคุณแทนที่ฟังก์ชั่นการสูญเสียแบบไม่นูน 0-1 ด้วยตัวแทนนูน (เช่นการสูญเสียบานพับ) ตอนนี้คุณกำลังแก้ไขปัญหาที่แตกต่างจากที่คุณตั้งใจจะแก้ (ซึ่งคือลดจำนวนข้อผิดพลาดการจำแนก) ดังนั้นคุณจึงสามารถคำนวณได้ง่าย (ปัญหาจะกลายเป็นนูนซึ่งหมายความว่าคุณสามารถแก้ปัญหาได้อย่างมีประสิทธิภาพโดยใช้เครื่องมือในการเพิ่มประสิทธิภาพของนูน) แต่ในกรณีทั่วไปไม่มีวิธีที่จะเกี่ยวข้องกับข้อผิดพลาดของลักษณนามที่ลดการสูญเสีย ข้อผิดพลาดของลักษณนามที่ช่วยลดการสูญเสีย หากสิ่งที่คุณใส่ใจอย่างแท้จริงคือการลดจำนวนการจัดหมวดหมู่ให้น้อยที่สุดฉันยืนยันว่านี่เป็นราคาที่ต้องจ่ายมาก

D


1

ฟังก์ชั่นการสูญเสียของคุณควรจะสะท้อนถึงการสูญเสียที่เกิดขึ้นจริงจากธุรกิจ ตัวอย่างเช่นหากคุณจำแนกสินค้าที่เสียหายการสูญเสียการจำแนกประเภทอาจเป็นดังนี้:

  • ทำเครื่องหมายสินค้าที่เสียหายที่ไม่ได้: สูญเสียกำไรจากการขายที่อาจเกิดขึ้น
  • ไม่ทำเครื่องหมายสินค้าที่เสียหายที่เสียหาย: ค่าใช้จ่ายในการดำเนินการคืนสินค้า
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.