อัตราความผิดพลาดเป็นฟังก์ชันนูนของแลมบ์ดาของพารามิเตอร์การทำให้เป็นมาตรฐานหรือไม่?


11

ในการเลือก lambda พารามิเตอร์การทำให้เป็นมาตรฐานใน Ridge หรือ Lasso วิธีที่แนะนำคือลองค่า lambda ที่แตกต่างกัน, วัดข้อผิดพลาดใน Validation Set และสุดท้ายเลือกค่าของ lambda ที่ส่งกลับข้อผิดพลาดต่ำสุด

มันไม่ได้เป็นคลีตสำหรับฉันถ้าฟังก์ชั่น f (lambda) = error คือ Convex มันเป็นอย่างนี้ได้ไหม? นั่นคือเส้นโค้งนี้มีมากกว่าหนึ่ง minima ท้องถิ่น (ซึ่งจะบอกเป็นนัยว่าการหาข้อผิดพลาดขั้นต่ำในบางพื้นที่ของแลมบ์ดาไม่ได้จำกัดความเป็นไปได้ที่ในบางภูมิภาคอื่น ๆ จะมีแลมบ์ดาที่กลับมา

ป้อนคำอธิบายรูปภาพที่นี่

คำแนะนำของคุณจะได้รับการชื่นชม

คำตอบ:


11

คำถามเดิมถามว่าฟังก์ชันข้อผิดพลาดจะต้องนูนหรือไม่ ไม่มันไม่ การวิเคราะห์ที่แสดงด้านล่างมีวัตถุประสงค์เพื่อให้ข้อมูลเชิงลึกและสัญชาตญาณเกี่ยวกับเรื่องนี้และคำถามที่ปรับเปลี่ยนซึ่งถามว่าฟังก์ชันข้อผิดพลาดอาจมีหลายท้องถิ่นน้อยที่สุด

อย่างสังหรณ์ใจไม่จำเป็นต้องมีความสัมพันธ์ที่จำเป็นทางคณิตศาสตร์ใด ๆ ระหว่างข้อมูลและชุดฝึกอบรม เราควรจะสามารถค้นหาข้อมูลการฝึกอบรมซึ่งโมเดลในตอนแรกไม่ดีได้ดีขึ้นด้วยการทำให้เป็นปกติและแย่ลงอีกครั้ง โค้งข้อผิดพลาดไม่สามารถนูนในกรณีนั้น - อย่างน้อยไม่ได้ถ้าเราทำให้กูพารามิเตอร์แตกต่างจากไป\0

โปรดทราบว่านูนไม่เท่ากับการมีค่าต่ำสุดที่ไม่เหมือนใคร! อย่างไรก็ตามแนวคิดที่คล้ายคลึงกันแนะนำให้ใช้หลายท้องถิ่นน้อยที่สุดที่เป็นไปได้: ในระหว่างการทำให้เป็นปกติแบบจำลองที่ติดตั้งครั้งแรกอาจจะดีกว่าสำหรับข้อมูลการฝึกอบรมบางอย่างในขณะที่ไม่ได้เปลี่ยนข้อมูลการฝึกอบรมอื่น ๆ การผสมผสานของข้อมูลการฝึกอบรมดังกล่าวควรสร้างหลายท้องถิ่นขั้นต่ำ เพื่อให้การวิเคราะห์ง่ายขึ้นฉันจะไม่พยายามแสดงสิ่งนั้น

แก้ไข (เพื่อตอบคำถามที่เปลี่ยนแปลง)

ฉันมีความมั่นใจมากในการวิเคราะห์ที่นำเสนอด้านล่างและสัญชาตญาณด้านหลังที่ฉันตั้งไว้เกี่ยวกับการหาตัวอย่างในวิธีที่เป็นไปได้ crudest: ฉันสร้างชุดข้อมูลขนาดเล็กสุ่มวิ่ง Lasso พวกเขาคำนวณข้อผิดพลาดกำลังสองทั้งหมดสำหรับชุดฝึกอบรมขนาดเล็ก และพล็อตกราฟโค้งข้อผิดพลาด ความพยายามสองสามครั้งสร้างหนึ่งด้วยสองมินิมาซึ่งฉันจะอธิบาย เวกเตอร์ที่อยู่ในรูปแบบสำหรับคุณสมบัติและและการตอบสนองYx 1 x 2 y(x1,x2,y)x1x2y

ข้อมูลการฝึกอบรม

(1,1,0.1), (2,1,0.8), (1,2,1.2), (2,2,0.9)

ทดสอบข้อมูล

(1,1,0.2), (1,2,0.4)

เชือกถูกเรียกใช้glmnet::glmmetในRที่มีข้อโต้แย้งทั้งหมดทิ้งไว้ที่ค่าเริ่มต้นของพวกเขา ค่าของบนแกน x เป็นส่วนกลับของค่าที่รายงานโดยซอฟต์แวร์นั้น (เพราะมันเป็นพารามิเตอร์การลงโทษด้วย )1 / λλ1/λ

เส้นโค้งข้อผิดพลาดที่มีหลายท้องถิ่นน้อยที่สุด

รูป


การวิเคราะห์

ลองพิจารณาใดวิธี regularization ของพารามิเตอร์ที่เหมาะสมข้อมูลและสอดคล้องกับการตอบสนองที่มีเหล่านี้ร่วมกันคุณสมบัติสันถดถอยและเชือก:x i y iβ=(β1,,βp)xiyi

  1. (Parameterization) วิธีการแปรตามจำนวนจริงโดยมีรูปแบบที่ไม่สม่ำเสมอซึ่งสอดคล้องกับλ = 0λ[0,)λ=0

  2. (ต่อเนื่อง) ประมาณการพารามิเตอร์ขึ้นอย่างต่อเนื่องในและค่าคาดการณ์ไว้สำหรับคุณสมบัติใด ๆ แตกต่างกันไปอย่างต่อเนื่องกับ\ λบีตาβ^λβ^

  3. (หดตัว) ณ ,0บีตา →การ0λβ^0

  4. (ฅ จำกัด ) สำหรับการใด ๆ คุณลักษณะเวกเตอร์เป็น , ทำนาย0β0 Y ( x ) = F ( x , β ) 0xβ^0y^(x)=f(x,β^)0

  5. (ข้อผิดพลาดแบบโมโนโทนิก) ฟังก์ชันข้อผิดพลาดเปรียบเทียบค่าใด ๆกับค่าที่คาดการณ์ ,เพิ่มขึ้นด้วยความคลาดเคลื่อนเพื่อให้มีการละเมิดของสัญกรณ์บางอย่างเราอาจแสดงว่ามันเป็น|)yy^L(y,y^)|y^y|L(|y^y|)

(ศูนย์ในสามารถถูกแทนที่ด้วยค่าคงที่ใด ๆ )(4)

สมมติว่าข้อมูลดังกล่าวเป็นค่าเริ่มต้น (ไม่สม่ำเสมอ) การประมาณพารามิเตอร์ไม่ใช่ศูนย์ Let 's สร้างชุดข้อมูลการฝึกอบรมประกอบด้วยหนึ่งสังเกตซึ่ง0 (ถ้ามันเป็นไปไม่ได้ที่จะหาเช่นแล้วรูปแบบเริ่มต้นจะไม่เป็นที่น่าสนใจมาก!) ชุด 2 β^(0)(x0,y0)f(x0,β^(0))0x0y0=f(x0,β^(0))/2

สมมุติฐานบ่งบอกถึงเส้นโค้งข้อผิดพลาดมีคุณสมบัติเหล่านี้:e:λL(y0,f(x0,β^(λ))

  1. Y 0e(0)=L(y0,f(x0,β^(0))=L(y0,2y0)=L(|y0|) (เพราะ ตัวเลือกของ )y0

  2. limλe(λ)=L(y0,0)=L(|y0|) (เพราะ , , )λβ^(λ)0y^(x0)0

ดังนั้นกราฟของมันจึงเชื่อมต่อจุดปลาย (และจุดสิ้นสุด) ที่สูงเท่ากันสองจุด

รูปที่แสดงกราฟที่เป็นไปได้ของ $ e $

ในเชิงคุณภาพมีความเป็นไปได้สามประการ:

  • การทำนายสำหรับชุดฝึกอบรมไม่เคยเปลี่ยนแปลง สิ่งนี้ไม่น่าเป็นไปได้ - ตัวอย่างใด ๆ ที่คุณเลือกจะไม่มีคุณสมบัตินี้

  • บางคนคาดการณ์กลางสำหรับเป็นที่เลวร้ายยิ่งกว่าที่เริ่มต้นหรือในวงเงิน\ฟังก์ชั่นนี้ไม่สามารถนูนออกมาได้λ = 0 λ →การ0<λ<λ=0λ

  • การคาดการณ์ของกลางทั้งหมดอยู่ระหว่างและ2y_0ความต่อเนื่องบ่งบอกว่าจะมีอย่างน้อยหนึ่งของขั้นต่ำใกล้จะต้องนูน แต่เนื่องจากแนวทางจำกัดคง asymptotically ก็ไม่สามารถจะนูนสำหรับขนาดใหญ่พอ\2 y 0 e e e ( λ ) λ02y0eee(λ)λ

เส้นประแนวตั้งในภาพแสดงการเปลี่ยนแปลงของพล็อตจากนูน (ทางซ้าย) ไปเป็นแบบไม่นูน (ไปทางขวา) (นอกจากนี้ยังมีบริเวณที่ไม่มีความนูนใกล้ในรูปนี้ แต่นี่ไม่จำเป็นต้องเป็นกรณีทั่วไป)λ0


ขอบคุณสำหรับคำตอบที่ซับซ้อน หากเป็นไปได้ให้ตรวจสอบคำถามตามที่ฉันแก้ไขและอัปเดตคำตอบของคุณ
rf7

คำตอบที่ดี (+1) ในทางปฏิบัติฉันคิดว่ามีจุดฝึกอบรมและทดสอบข้อมูลอยู่น้อยมาก ข้อสรุปของคำตอบนี้เปลี่ยนไปหรือไม่เมื่อมีการฝึกอบรมและทดสอบจุดข้อมูลเพียงพอจากการแจกแจงเดียวกัน (คงที่และสม่ำเสมอเพียงพอ) หรือไม่? โดยเฉพาะอย่างยิ่งภายใต้สถานการณ์นี้มีความเป็นไปได้น้อยที่สุดในท้องถิ่นที่มีความน่าจะเป็นสูงหรือไม่
user795305

@Ben ไม่ใช่จำนวนคะแนนทดสอบที่สำคัญ: ผลลัพธ์นี้ขึ้นอยู่กับการกระจายคะแนนทดสอบที่สัมพันธ์กับการกระจายคะแนนการฝึกอบรม ดังนั้นปัญหาของ "ที่มีความน่าจะเป็นสูง" จะไม่สามารถตอบได้หากไม่มีการตั้งสมมติฐานเฉพาะเกี่ยวกับการกระจายตัวแปรหลายตัวแปรของตัวแปรถดถอย นอกจากนี้ด้วยตัวแปรหลายอย่างในการเล่นปรากฏการณ์นี้ของมินิมาท้องถิ่นหลายรายการจะมีแนวโน้มมาก ผมสงสัยว่าการเลือกสุ่มของชุดทดสอบขนาดใหญ่ (มีหลายครั้งตามที่หลายข้อสังเกตเป็นตัวแปร) อาจมักจะมีนาทีทั่วโลกที่ไม่ซ้ำกัน
whuber

1
@whuber ขอบคุณ! ฉันเห็นด้วย: การแจกแจง (จริง) ระหว่างคะแนนการฝึกอบรมและการทดสอบควรเท่ากันและจำเป็นต้องมีตัวอย่างเพียงพอที่การแจกแจงเชิงประจักษ์ของชุดการฝึกอบรมและการทดสอบจะมีข้อตกลงร่วมกัน (ดูเหมือนว่าฉันใช้ถ้อยคำที่ไม่ดีในความคิดเห็นก่อนหน้าของฉัน) ตัวอย่างเช่นหากมีการแจกแจงแบบปกติร่วมกัน (กับความแปรปรวนร่วมที่ไม่สิ้นสุด) ฉันสงสัยว่าความน่าจะเป็นของเส้นโค้งข้อผิดพลาด 1 (ถ้าบอกว่ามีตัวอย่างในการฝึกอบรมและชุดทดสอบที่มีกับคงที่ (หรือแม้กระทั่งเพิ่มขึ้นอย่างช้า ๆ เมื่อเทียบกับ ))n n p n(x,y)nnpn
user795305

0

คำตอบนี้เกี่ยวข้องกับเชือกโดยเฉพาะ (และไม่ถือสำหรับการถดถอยสัน)

ติดตั้ง

สมมติว่าเรามีตัวแปรที่เราใช้ในการจำลองการตอบสนอง สมมติว่าเราได้การฝึกอบรมจุดข้อมูลและจุดตรวจสอบข้อมูลpnm

ให้การป้อนข้อมูลการฝึกอบรมเป็นและการตอบสนองเป็น n เราจะใช้เชือกคล้องเชือกกับข้อมูลการฝึกอบรมนี้ นั่นคือใส่ตระกูลสัมประสิทธิ์ที่ประเมินจากข้อมูลการฝึกอบรม เราจะเลือกเพื่อใช้เป็นตัวประมาณของเราตามข้อผิดพลาดในชุดการตรวจสอบความถูกต้องด้วยอินพุตและการตอบสนองเมตร ด้วยX(1)Rn×py(1)Rn

(1)β^λ=argminβRpy(1)X(1)β22+λβ1,
β^λX(2)Rm×py(2)Rm
(2)λ^=argminλR+y(2)X(2)β^λ22,
เรามีความสนใจในการศึกษาฟังก์ชั่นข้อผิดพลาดซึ่งทำให้เกิดการประมาณค่าข้อมูลของเราแลมบ์ดา}e(λ)=y(2)X(2)β^λ22β^λ^

การคำนวณ

ตอนนี้เราจะคำนวณอนุพันธ์ที่สองของวัตถุประสงค์ในสมการโดยไม่มีการใด ๆสมมติฐานกระจายบน 'หรือ ' s การใช้ความแตกต่างและการปรับโครงสร้างองค์กรเรา (เป็นทางการ) คำนวณว่า (2)Xy

2λ2y(2)X(2)β^λ22=λ{2y(2)TX(2)λβ^λ+2β^λTX(2)TX(2)λβ^λ}=2y(2)TX(2)2λ2β^λ+2(β^λ)TX(2)TX(2)2λ2β^λ+2λβ^λTX(2)TX(2)Tλβ^λ=2{(y(2)X(2)β^λ)T2λ2β^λX(2)λβ^λ22}.
ตั้งแต่เป็นเส้นตรงสำหรับ (สำหรับเป็นชุด จำกัด ของปมในเส้นทางการแก้ปัญหา lasso) อนุพันธ์เป็นค่าคงที่และเป็นศูนย์สำหรับทั้งหมดK ดังนั้นฟังก์ชั่นที่ไม่ใช่เชิงลบของ\β^λλKKλβ^λ2λ2β^λλK
2λ2y(2)X(2)β^λ22=2X(2)λβ^λ22,
λ

ข้อสรุป

ถ้าเราสมมติต่อไปว่าถูกดึงมาจากการแจกแจงแบบต่อเนื่องที่เป็นอิสระจาก , เวกเตอร์เกือบจะแน่นอนสำหรับ<\ ดังนั้นฟังก์ชั่นข้อผิดพลาดจึงมีอนุพันธ์อันดับสองในซึ่งเป็นค่าบวกอย่างเคร่งครัด อย่างไรก็ตามการรู้ว่านั้นต่อเนื่องเรารู้ว่า error validationนั้นต่อเนื่องX(2){X(1),y(1)}X(2)λβ^λ0λ<λmaxe(λ)RKβ^λe(λ)

ในที่สุดจาก lasso dual เรารู้ว่าลดลงแบบโมโนโทนเมื่อเพิ่มขึ้น หากเราสามารถพิสูจน์ได้ว่านั้นเป็นแบบ monotonic ดังนั้นความนูนที่แข็งแกร่งของตามมา แต่นี้ถือมีความน่าจะเป็นบางส่วนใกล้หนึ่งถ้าขวา) (ฉันจะกรอกรายละเอียดที่นี่ในไม่ช้า)X(1)β^λ22λX(2)β^λ22e(λ)L(X(1))=L(X(2))


1
คุณพึ่งพาซึ่งเป็นฟังก์ชั่นเชิงเส้นแบบต่อเนื่องของเพื่อสรุปเป็นแบบนูนอย่างเคร่งครัด เรามาดูกันว่าการลดลงนั้นใช้ได้จริงหรือไม่ หนึ่งฟังก์ชันดังกล่าวคือ(โดยที่หมายถึงการปัดเศษให้เป็นจำนวนเต็มที่ใกล้เคียงที่สุด) สมมติว่าและเพื่อให้ 2 ฟังก์ชันข้อผิดพลาดนี้มีจำนวนท้องถิ่นน้อยมากอย่างไม่ จำกัด มันไม่นูน - มันแค่นูนทุกที่ยกเว้นที่จุดแยก! นั่นทำให้ฉันเชื่อว่าคุณกำลังตั้งสมมติฐานเพิ่มเติมโดยไม่ระบุ β^λe^β^(λ)=|λ[λ]|[]y(2)=0X(2)=1e^(λ)=β^(λ)2
whuber

@whuber เป็นจุดที่ดี! ขอบคุณ! ฉันจะแก้ไขโพสต์นี้ต่อไปในไม่ช้า
user795305
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.