วิธีการออกแบบและใช้งานฟังก์ชั่นการสูญเสียไม่สมดุลสำหรับการถดถอย?


24

ปัญหา

ในการถดถอยเรามักจะคำนวณความผิดพลาดกำลังสองเฉลี่ย (MSE) สำหรับตัวอย่าง: เพื่อวัดคุณภาพของเครื่องทำนาย

MSE=1ni=1n(g(xi)g^(xi))2

ตอนนี้ฉันกำลังทำงานกับปัญหาการถดถอยที่เป้าหมายคือการคาดการณ์ราคาที่ลูกค้ายินดีจ่ายสำหรับผลิตภัณฑ์ที่มีคุณสมบัติเป็นตัวเลขจำนวนหนึ่ง หากราคาที่คาดการณ์ไว้สูงเกินไปไม่มีลูกค้าจะซื้อผลิตภัณฑ์ แต่การสูญเสียทางการเงินต่ำเพราะราคาสามารถลดลงได้ง่าย แน่นอนว่าไม่ควรสูงเกินไปเพราะอาจไม่สามารถซื้อผลิตภัณฑ์ได้เป็นเวลานาน ในทางกลับกันหากราคาที่คาดการณ์ไว้ต่ำเกินไปผลิตภัณฑ์จะถูกซื้ออย่างรวดเร็วโดยไม่มีโอกาสปรับราคา

กล่าวอีกนัยหนึ่งอัลกอริทึมการเรียนรู้ควรทำนายราคาที่สูงขึ้นเล็กน้อยซึ่งสามารถลดลงได้หากจำเป็นแทนที่จะประเมินราคาที่แท้จริงต่ำกว่าซึ่งจะส่งผลให้เกิดการสูญเสียเงินทันที

คำถาม

คุณจะออกแบบเมตริกข้อผิดพลาดที่รวมค่าใช้จ่ายไม่สมดุลนี้ได้อย่างไร


ทางออกที่เป็นไปได้

วิธีการกำหนดฟังก์ชั่นการสูญเสียแบบอสมมาตรคือเพียงแค่คูณด้วยน้ำหนัก: โดยที่เป็นพารามิเตอร์ที่เราสามารถปรับเปลี่ยนระดับของความไม่สมดุลได้ ฉันได้พบมันนี่ ดูเหมือนว่าสิ่งที่ตรงไปตรงมาที่สุดที่จะทำในขณะที่ยังคงสูญเสียกำลังสอง

1ni=1n|α1(g(xi)g^(xi))<0|(g(xi)g^(xi))2
α(0,1)

1
@MichaelChernick, FTR ฉันคิดว่านี่เป็นคำถามที่ดีซึ่งได้รับการระบุไว้อย่างชัดเจนและสอดคล้องกันและรับทราบว่าฉันเป็นนิดจู้จี้จุกจิก สิ่งที่ฉันได้รับก็คือ (ตามที่คุณรู้) ปรับการถดถอย (เช่นการแก้ ) เสร็จแล้ว (โดยค่าเริ่มต้น) โดยการลดฟังก์ชันการสูญเสีย OLS , SSE คุณพูดถูกที่ MSE สามารถใช้ b / c หารด้วยค่าคงที่จะไม่ส่งผลต่อการเรียงลำดับของผู้สมัคร β
gung - Reinstate Monica

1
ความจริงก็คือว่า MSE (บ่อยกว่า RMSE) มักจะถูกนำมาใช้เพื่อประเมินคุณภาพของรูปแบบการติดตั้ง (แม้ว่าอีกครั้ง SSE สามารถนำมาใช้อย่างเท่าเทียมกัน) คำถามคือดูเหมือนว่า (สำหรับฉันต่อไป) เกี่ยวกับวิธีคิดเกี่ยวกับ / ออกแบบฟังก์ชั่นการสูญเสียใหม่เพื่อให้ betas ที่ติดตั้งนั้นแตกต่างจากที่พวกเขาเคยได้รับมาโดยปริยาย ของรุ่นที่มีอยู่แล้วพอดี
gung - Reinstate Monica

1
@ Kiudee ถ้าการตีความ Q ของคุณถูกต้องคุณจะคิดอย่างไรเกี่ยวกับการแก้ไขมันเพื่อเพิ่มแท็กฟังก์ชั่นการสูญเสีย ฉันจะไม่แก้ไขตัวเองในกรณีที่คุณไม่เห็นด้วย
gung - Reinstate Monica

2
สำหรับการอ้างอิงที่ผมเคยเห็นการถดถอย quantile ปัญหาเมื่อคุณต้องการฟังก์ชั่นการสูญเสียที่ไม่สมมาตรดูBerk 2011 , ไฟล์ PDF ที่นี่
Andy W

1
เนื่องจากฉันใช้อัลกอริทึมการเรียนรู้ที่หลากหลายเพื่อจัดการกับปัญหานี้ฟังก์ชั่นควรมีความแตกต่างอย่างน้อยหนึ่งครั้ง
Kiudee

คำตอบ:


7

ดังที่ได้กล่าวไว้ในความคิดเห็นข้างต้นการถดถอยเชิงปริมาณใช้ฟังก์ชันการสูญเสียแบบอสมมาตร (เชิงเส้น แต่มีความลาดชันต่างกันสำหรับข้อผิดพลาดเชิงบวกและเชิงลบ) สมการกำลังสอง (การสูญเสียกำลังสอง) ของการถดถอยเชิงปริมาณคือการถดถอยแบบคาดหวัง

คุณสามารถ google quantile regression สำหรับการอ้างอิง สำหรับการถดถอยแบบคาดหวังให้ดูแพ็คเกจ R การคาดการณ์และการอ้างอิงในคู่มืออ้างอิง


2

การจัดน้ำหนักแบบไม่เท่ากันนี้มักเกิดขึ้นในปัญหาการจำแนกประเภทที่มีสองคลาส กฎ Bayes สามารถปรับเปลี่ยนได้โดยใช้ฟังก์ชั่นการสูญเสียที่ให้น้ำหนักการสูญเสียที่สูงขึ้นสำหรับข้อผิดพลาดหนึ่งกว่าอีกข้อหนึ่ง สิ่งนี้จะนำไปสู่กฎที่สร้างอัตราความผิดพลาดที่ไม่เท่ากัน

ในการถดถอยมันจะเป็นไปได้อย่างแน่นอนที่จะสร้างฟังก์ชั่นน้ำหนักเช่นผลรวมน้ำหนักของสี่เหลี่ยมที่จะให้น้ำหนักกับข้อผิดพลาดเชิงลบและน้ำหนักที่สูงขึ้นสำหรับบวก สิ่งนี้จะคล้ายกับน้ำหนักถ่วงกำลังสองน้อยที่สุด แต่แตกต่างกันเล็กน้อยเนื่องจากน้ำหนักยกกำลังสองน้อยที่สุดมีไว้สำหรับปัญหาที่ความแปรปรวนข้อผิดพลาดไม่คงที่ตลอดพื้นที่ของค่าที่เป็นไปได้สำหรับตัวแปรตัวทำนาย ในกรณีดังกล่าวน้ำหนักจะสูงกว่าสำหรับจุดที่ทราบว่าความแปรปรวนของข้อผิดพลาดมีขนาดเล็กและสูงกว่าที่ทราบว่าค่าความแปรปรวนของข้อผิดพลาดมีขนาดใหญ่ แน่นอนนี้จะนำไปสู่ค่าสำหรับพารามิเตอร์การถดถอยที่แตกต่างจาก OLS ที่จะให้คุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.