L1 ถดถอยประมาณค่ามัธยฐานในขณะที่ประมาณการถดถอย L2 หมายถึงอะไร


24

ดังนั้นฉันจึงถูกถามคำถามที่มาตรการกลาง L1 (เช่น Lasso) และ L2 (เช่นการถดถอยสัน) ประเมิน คำตอบคือ L1 = ค่ามัธยฐานและ L2 = ค่าเฉลี่ย มีเหตุผลแบบนี้หรือไม่? หรือว่าจะต้องมีการกำหนดทางพีชคณิต? ถ้าเป็นเช่นนั้นฉันจะทำยังไงต่อ


4
โดย L1 / L2 คุณหมายถึงหน้าที่วัตถุประสงค์หรือข้อ จำกัด ? หากฟังก์ชันวัตถุประสงค์แล้วใช่ข้อผิดพลาด L1 จะถูกย่อให้เล็กสุดด้วยค่ามัธยฐานตามเงื่อนไขและ L2 หมายถึงเงื่อนไขตามเงื่อนไข หากข้อ จำกัด (สันเขา / บ่วงบาศหมายถึงอะไร) นี่เป็นวิธีที่ผิดที่จะคิดเกี่ยวกับสิ่งนี้ "มาตรการกลาง" ของพวกเขาจะยังคงเล็งหาค่าเฉลี่ยเงื่อนไข แต่มีบทลงโทษที่แตกต่างกันในββ
muratoa

คำตอบ:


24

มีคำอธิบายทางเรขาคณิตอย่างง่าย ๆ ว่าเหตุใดฟังก์ชันการสูญเสีย L1 จึงให้ค่ามัธยฐาน

จำได้ว่าเรากำลังทำงานในมิติเดียวดังนั้นลองจินตนาการว่าจำนวนบรรทัดกระจายไปในแนวนอน เขียนจุดข้อมูลแต่ละจุดบนบรรทัดตัวเลข วางนิ้วของคุณที่ใดที่หนึ่งในบรรทัด; นิ้วของคุณจะเป็นค่าประมาณของผู้สมัครปัจจุบัน

สมมติว่าคุณเลื่อนนิ้วไปทางขวาเล็กน้อยพูดหน่วยไปทางขวา เกิดอะไรขึ้นกับการสูญเสียทั้งหมด? ถ้านิ้วของคุณอยู่ระหว่างจุดข้อมูลสองจุดและคุณเลื่อนข้ามจุดข้อมูลคุณจะเพิ่มการสูญเสียทั้งหมดโดยδสำหรับจุดข้อมูลแต่ละจุดทางด้านซ้ายของนิ้วของคุณและลดลงโดยδสำหรับแต่ละจุดข้อมูลไป ทางขวาของนิ้วของคุณ ดังนั้นหากมีจุดข้อมูลทางด้านขวาของนิ้วมากกว่าด้านซ้ายการเลื่อนนิ้วไปทางขวาจะเป็นการลดการสูญเสียทั้งหมด กล่าวอีกนัยหนึ่งถ้าจุดข้อมูลมากกว่าครึ่งอยู่ทางด้านขวาของนิ้วคุณควรเลื่อนนิ้วไปทางขวาδδδ

สิ่งนี้นำไปสู่การที่คุณเลื่อนนิ้วของคุณไปยังจุดที่จุดข้อมูลครึ่งหนึ่งอยู่บนจุดนั้นและอีกครึ่งอยู่ทางขวา จุดนั้นคือค่ามัธยฐาน

นั่นคือ L1 และค่ามัธยฐาน น่าเสียดายที่ฉันไม่มีคำอธิบายที่เหมือนกัน "ปรีชาญาณไม่มีพีชคณิต" ที่คล้ายกันสำหรับ L2 และค่าเฉลี่ย


7
หากเรากำลังพูดถึงการประมาณจุดอย่างง่ายมันก็คือแคลคูลัสตรงไปตรงมา ddβ1nΣผม=1n(Yผม-β)2=-21nΣผม=1n(Yผม-β)=0β=1nΣผมYผม
muratoa

3
@ Muratoa ใช่ฉันรู้แคลคูลัสที่ได้มา แต่คำถามถามเฉพาะสำหรับคำอธิบายที่มุ่งเน้นไปที่สัญชาตญาณและหลีกเลี่ยงพีชคณิต ฉันคิดว่าผู้ถามคำถามรู้ถึงแคลคูลัสที่ได้รับมาแล้ว แต่กำลังมองหาบางอย่างที่ให้สัญชาตญาณมากขึ้น
DW

ฉันคิดว่า OP กล่าวถึงการถดถอยซึ่งแสดงว่าเขากำลังพูดถึงการประมาณของ y ที่ได้รับ x ซึ่งเป็นค่าเฉลี่ยแบบมีเงื่อนไขโดยใช้กำลังสองน้อยที่สุดและค่ามัธยฐานแบบมีเงื่อนไขสำหรับข้อผิดพลาดสัมบูรณ์เฉลี่ย คำอธิบายเดียวกันควรใช้งานได้ แต่ปัญหาแตกต่างกันเล็กน้อย คำอธิบายแคลคูลัสสำหรับค่าเฉลี่ยนั้นค่อนข้างชัดเจนและตรงไปตรงมา บางทีคำอธิบายสำหรับค่าเฉลี่ยนั้นสามารถให้ในลักษณะเดียวกันกับ DW สำหรับค่ามัธยฐาน ค่าเฉลี่ยตัวอย่างคือการประมาณแบบไม่เอนเอียงสำหรับค่าเฉลี่ยประชากร
Michael R. Chernick

ในขณะที่คุณย้ายค่าประมาณออกจากตัวอย่างหมายถึงความคลาดเคลื่อนกำลังสองเฉลี่ยเปลี่ยนไปเนื่องจากการเพิ่มขึ้นของอคติ ความคลาดเคลื่อนกำลังสองเฉลี่ยเพิ่มขึ้นจริง d 2เมื่อการประมาณเพิ่ม d เข้ากับค่าเฉลี่ยตัวอย่างเป็นค่าประมาณของผู้สมัคร 2
Michael R. Chernick

11
พีชคณิตรุ่นที่รวดเร็วและสกปรกที่มอบให้โดย muratoa นั้นมีอยู่สำหรับเคส L1 สังเกตว่ายกเว้นเมื่อ , อนุพันธ์ของ| y i - β | wrt βคือ-β=Yผม|Yผม-β|βที่เป็น - 1ถ้า β < Y ฉันและ + 1ถ้า β > Yฉัน ดังนั้น d-sก.n(Yผม-β)-1β<Yผม+1β>Yผมยกเว้นเมื่อddβ1nΣผม|Yผม-β|=-1nΣผมsก.n(Yผม-β)เป็น Yฉัน หายอนุพันธ์เมื่อมีหมายเลขเดียวกันของแง่บวกและลบในหมู่ Y ฉัน - βซึ่งพูดประมาณเกิดขึ้นเมื่อ βเป็นค่าเฉลี่ยของปีฉัน βYผมYผม-ββYผม
Yves

17

คำอธิบายนี้เป็นผลรวมของความคิดเห็นของMuratoaและYvesเกี่ยวกับคำตอบของ DW แม้ว่าจะขึ้นอยู่กับแคลคูลัส แต่ฉันพบว่าตรงไปตรงมาและเข้าใจง่าย

สมมติว่าเราได้และต้องการได้ค่าประมาณβใหม่ขึ้นอยู่กับพวกเขา การสูญเสียที่น้อยที่สุดนั้นเกิดขึ้นเมื่อเราพบβซึ่งทำให้อนุพันธ์ของการสูญเสียเป็นศูนย์Y1,Y2,...Ykββ

การสูญเสีย L1

L1

L1=1kΣผม=1k|Yผม-β|
sgn(yi-β)คือ 1 เมื่อ
L1β=-1kΣผม=1ksก.n(Yผม-β)
sก.n(Yผม-β) , -1 เมื่อปีฉัน < β เท่ากับอนุพันธ์ 0 เมื่อมีหมายเลขเดียวกันของแง่บวกและลบในหมู่ Y ฉัน - βซึ่งหมายความ βควรจะแบ่งของ YฉันYผม>βYผม<βYผม-ββYผม

การสูญเสีย L2

L 2

L2=1kΣผม=1k(Yผม-β)2
L 2
L2β=-2kΣผม=1k(Yผม-β)
ดังนั้นเพื่อลดการสูญเสีย L2,βควรจะเป็นค่าเฉลี่ยของปีฉัน
L2β=0β=1kΣผม=1kYผม

βYผม

3

การเพิ่มคำตอบของ DW ด้วยตัวอย่างที่เป็นประโยชน์ยิ่งขึ้น (สำหรับฟังก์ชัน L2 loss เช่นกัน):

ลองนึกภาพหมู่บ้านเล็ก ๆ ที่สร้างจากบ้าน 4 หลังใกล้กัน (เช่น 10 เมตร) ที่ 1 กิโลเมตรจากนั้นคุณมีบ้านที่แยกได้มาก ตอนนี้คุณมาถึงเมืองนั้นและต้องการสร้างบ้านของคุณเองที่ไหนสักแห่ง คุณต้องการที่จะอยู่ใกล้กับบ้านหลังอื่นและเป็นเพื่อนกับทุกคน พิจารณาทั้งสองสถานการณ์ทางเลือก:

  1. คุณตัดสินใจที่จะอยู่ในตำแหน่งที่ระยะทางเฉลี่ยไปยังบ้านใด ๆ มีขนาดเล็กที่สุด (เช่นการลดฟังก์ชั่นการสูญเสีย L1)

    • หากคุณวางบ้านไว้ที่ใจกลางหมู่บ้านคุณจะอยู่ห่างจากบ้าน 4 หลังประมาณ 10 เมตรและห่างจากบ้าน 1 กิโลเมตรซึ่งจะให้ระยะทางเฉลี่ยประมาณ 200 เมตร (10 + 10 + 10 + 10 + 1,000 / 5)
    • หากคุณวางบ้านของคุณห่างจากหมู่บ้าน 500 เมตรคุณจะอยู่ห่างจากบ้าน 5 หลังประมาณ 500 เมตรซึ่งจะช่วยให้คุณได้ระยะทางเฉลี่ย 500 เมตร
    • หากคุณวางบ้านของคุณถัดจากบ้านเดี่ยวคุณจะอยู่ห่างจากหมู่บ้าน 1 กิโลเมตร (บ้าน 4 หลัง) และห่างจากบ้าน 1 หลังประมาณ 10 เมตรซึ่งจะให้ระยะทางโดยเฉลี่ยประมาณ 800 เมตร

    ดังนั้นระยะทางเฉลี่ยต่ำสุด 100 เมตรจึงมาถึงได้โดยการสร้างบ้านในหมู่บ้าน โดยเฉพาะคุณจะสร้างบ้านกลางบ้านทั้ง 4 หลังเพื่อให้ได้ระยะทางเฉลี่ยไม่กี่เมตร และปรากฎว่าจุดนี้คือ " จุดมัธยฐาน " ซึ่งคุณจะได้รับโดยใช้สูตรค่ามัธยฐาน

  2. คุณตัดสินใจที่จะใช้แนวทางประชาธิปไตย คุณถามเพื่อนบ้านทั้งห้าคนในอนาคตของคุณในตำแหน่งที่ต้องการสำหรับบ้านใหม่ของคุณ พวกเขาทั้งหมดชอบคุณและต้องการให้คุณอยู่ใกล้พวกเขา ดังนั้นพวกเขาทั้งหมดระบุตำแหน่งที่ต้องการเป็นจุดถัดจากบ้านของตนเอง คุณใช้ค่าเฉลี่ยของตำแหน่งที่โหวตทั้งหมดของเพื่อนบ้านทั้งห้าของคุณและผลลัพธ์คือ "200 เมตรจากหมู่บ้าน" (คะแนนเฉลี่ย: 0 + 0 + 0 + 0 + 0 + 1000/5 = 200) ซึ่งเป็น " จุดเฉลี่ย " ของบ้านทั้ง 5 หลังที่คุณจะได้รับในทำนองเดียวกันโดยใช้สูตรเฉลี่ย และสถานที่นี้กลายเป็นสิ่งเดียวกันกับที่เลียนแบบผลรวมของระยะทางกำลังสอง (เช่นฟังก์ชัน L2 loss) ลองทำคณิตศาสตร์เพื่อดู:
    • ณ สถานที่นี้ผลรวมของระยะทางกำลังสองคือ: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • ถ้าเราสร้างบ้านในใจกลางหมู่บ้านผลรวมของระยะทางกำลังสองของเราจะเป็น: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1,000 ^ 2 = 1 000 000
    • ถ้าเราสร้างสร้างบ้านที่ห่างจากหมู่บ้าน 100 เมตร (เช่นใน 1) ผลรวมของระยะทางกำลังสองคือ: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • ถ้าเราสร้างบ้านที่ห่างจากบ้านเดี่ยว 100 เมตรผลรวมของระยะทางกำลังสองคือ: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

ใช่มันเป็นเรื่องที่น่าสนใจที่จะสังเกตว่าบิตตอบโต้โดยสังเขปเมื่อเราลดผลรวมของระยะทางเราไม่ได้อยู่ใน "กลาง" ในแง่ของค่าเฉลี่ย แต่ในความหมายของ มัธยฐาน นี่เป็นส่วนหนึ่งของสาเหตุที่ OLS ซึ่งเป็นหนึ่งในโมเดลการถดถอยที่ได้รับความนิยมมากที่สุดใช้ข้อผิดพลาดกำลังสองแทนที่จะเป็นข้อผิดพลาดสัมบูรณ์


1

นอกจากคำตอบที่โพสต์แล้ว (ซึ่งเป็นประโยชน์กับฉันมาก!) มีคำอธิบายทางเรขาคณิตสำหรับการเชื่อมต่อระหว่างบรรทัดฐาน L2 และค่าเฉลี่ย

ในการใช้สัญลักษณ์เดียวกับchefwenสูตรสำหรับการสูญเสีย L2 คือ:

L2=1kΣผม=1k(Yผม-β)2

βL2kและการเอาสแควร์รูททั้งสองรักษาลำดับไว้

Σผม=1k(Yผม-β)2

YkYβ=(β,β,...,β)

βYββ1=(1,1,...,1)Y1

k=2Y=(2,6)1(4,4)ตามที่เราคาดไว้

เวกเตอร์ y ฉายบนเบต้า

k>2

β=Proj1Y=Y1|1|21β=Σผม=1kYผมk
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.