คำถามนี้น่าสนใจตราบเท่าที่มันเปิดเผยการเชื่อมต่อบางอย่างระหว่างทฤษฎีการปรับให้เหมาะสมวิธีการปรับให้เหมาะสมและวิธีการทางสถิติที่ผู้ใช้ที่มีความสามารถด้านสถิติจำเป็นต้องเข้าใจ แม้ว่าการเชื่อมต่อเหล่านี้จะง่ายและเรียนรู้ได้ง่าย แต่ก็บอบบางและมักถูกมองข้าม
เพื่อสรุปแนวคิดจากข้อคิดเห็นไปยังคำตอบอื่น ๆ ฉันอยากจะชี้ให้เห็นว่ามีอย่างน้อยสองวิธีที่ "การถดถอยเชิงเส้น" สามารถสร้างโซลูชันที่ไม่ซ้ำกัน - ไม่เพียง แต่ในทางทฤษฎี แต่ในทางปฏิบัติ
ขาดความสามารถในการระบุตัวตน
สิ่งแรกคือเมื่อโมเดลไม่สามารถระบุได้ สิ่งนี้สร้างฟังก์ชั่นวัตถุประสงค์นูน แต่ไม่เคร่งครัดซึ่งมีวิธีแก้ปัญหาหลายอย่าง
พิจารณาเช่นถอยกับและ (ด้วยการสกัดกั้น) สำหรับข้อมูล-2) ทางออกหนึ่งคือY อีกประการหนึ่งคือ1-x เมื่อต้องการดูว่าต้องมีวิธีแก้ปัญหาหลายวิธีให้ปรับพารามิเตอร์โมเดลด้วยพารามิเตอร์จริงสามตัวและคำศัพท์ข้อผิดพลาดในแบบฟอร์มx Y ( x , Y , Z ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) Z = 1 + Y Z = 1 - x ( λ , μ , ν ) εzxy(x,y,z)(1,−1,0),(2,−2,−1),(3,−3,−2)z^=1+yz^=1−x(λ,μ,ν)ε
z=1+μ+(λ+ν−1)x+(λ−ν)y+ε.
ผลรวมของกำลังสองตกค้างทำให้ง่ายขึ้น
SSR=3μ2+24μν+56ν2.
(นี่เป็นกรณี จำกัด ของฟังก์ชันวัตถุประสงค์ที่เกิดขึ้นในทางปฏิบัติเช่นที่กล่าวถึงที่hessian เชิงประจักษ์ของ M-estimator ที่ไม่มีขีด จำกัดคุณสามารถอ่านการวิเคราะห์โดยละเอียดและดูพล็อตของฟังก์ชันได้)
เนื่องจากสัมประสิทธิ์ของกำลังสอง (และ ) เป็นค่าบวกและดีเทอร์มีแนนต์เป็นค่าบวกนี่คือรูปสมการกำลังสองเชิงบวก - semidefinite ในแลมบ์ดา) มันจะลดลงเมื่อ , แต่สามารถมีค่าใด ๆ เนื่องจากฟังก์ชันวัตถุประสงค์ไม่ได้ขึ้นอยู่กับดังนั้นจึงไม่มีการไล่ระดับสี (หรืออนุพันธ์อื่น ๆ ) ดังนั้นอัลกอริธึมการไล่ระดับสีใด ๆ - ถ้ามันไม่ได้ทำการเปลี่ยนแปลงทิศทางโดยพลการ - จะกำหนดค่าของโซลูชันให้เป็นค่าเริ่มต้น56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ3563×56−(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλλ
แม้ว่าจะไม่ได้ใช้การไล่ระดับสี แต่โซลูชันอาจแตกต่างกัน ในR
ตัวอย่างเช่นมีสองง่ายวิธีที่เทียบเท่ากับการระบุรูปแบบนี้: เป็นหรือz ~ x + y
z ~ y + x
เป็นครั้งแรกที่อัตราผลตอบแทนแต่สองให้Y Z =1+Yz^=1−xz^=1+y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
( NA
ค่าควรถูกตีความว่าเป็นศูนย์ แต่มีคำเตือนว่ามีวิธีแก้ปัญหาหลายคำเตือนเกิดขึ้นได้เนื่องจากการวิเคราะห์ขั้นต้นที่ดำเนินการโดยไม่ขึ้นR
อยู่กับวิธีการแก้ปัญหาของตนวิธีการลาดลงของการไล่ระดับสี แม้ว่าคนที่ดีจะเตือนคุณถึงความไม่แน่นอนว่าสิ่งนั้นมาถึงจุดที่เหมาะสมแล้ว)
ข้อ จำกัด ของพารามิเตอร์
Strict convexity รับประกันความเหมาะสมระดับโลกที่ไม่เหมือนใครโดยโดเมนของพารามิเตอร์นั้นนูนออกมา ข้อ จำกัด ของพารามิเตอร์สามารถสร้างโดเมนที่ไม่ได้นำไปสู่การแก้ปัญหาระดับโลก
ตัวอย่างง่ายๆคือปัญหาของการประมาณค่า "mean"สำหรับข้อมูลภายใต้ข้อ จำกัด1/2 แบบจำลองนี้เป็นสถานการณ์ที่ตรงกันข้ามกับวิธีการทำให้เป็นปกติเช่น Ridge Regression, Lasso หรือ Elastic Net: เป็นการยืนยันว่าพารามิเตอร์ของแบบจำลองไม่เล็กเกินไป (มีคำถามมากมายปรากฏบนไซต์นี้เพื่อถามวิธีแก้ปัญหาการถดถอยด้วยข้อ จำกัด ของพารามิเตอร์ดังกล่าวซึ่งแสดงว่าพวกเขาเกิดขึ้นจริงในทางปฏิบัติ)- 1 , 1 | μ | ≥ 1 / 2μ−1,1|μ|≥1/2
มีวิธีแก้ปัญหาอย่างน้อยสองสแควร์สสำหรับตัวอย่างนี้ทั้งสองมีความเท่าเทียมกัน พวกเขาพบโดยย่อภายใต้ข้อ จำกัด1/2 ทั้งสองโซลูชั่น1/2 สามารถแก้ไขได้มากกว่าหนึ่งวิธีเนื่องจากข้อ จำกัด ของพารามิเตอร์ทำให้โดเมน nonconvex:| μ | ≥ 1 / 2 μ = ± 1 / 2 μ ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )(1−μ)2+(−1−μ)2|μ|≥1/2μ=±1/2μ∈(−∞,−1/2]∪[1/2,∞)
พาราโบลาเป็นกราฟของฟังก์ชันนูน (อย่างเคร่งครัด) ส่วนที่หนาสีแดงเป็นส่วน จำกัด ไว้เฉพาะโดเมนของ : มันมีสองจุดต่ำสุดที่ที่ผลรวมของสี่เหลี่ยมเป็น5/2ส่วนที่เหลือของพาราโบลา (แสดงจุด) จะถูกลบออกโดยข้อ จำกัด จึงช่วยลดขั้นต่ำที่ไม่ซ้ำกันจากการพิจารณาμ = ± 1 / 2 5 / 2μμ=±1/25/2
วิธีการไล่ระดับสีโคตรเว้นแต่จะมีความเต็มใจที่จะใช้กระโดดขนาดใหญ่มีแนวโน้มที่จะพบ "ไม่ซ้ำกัน" การแก้ปัญหาเมื่อเริ่มต้นด้วยค่าบวกและมิฉะนั้นก็จะพบว่า "พิเศษ" การแก้ปัญหาเมื่อเริ่มต้นด้วยค่าลบμ = - 1 / 2μ=1/2μ=−1/2
สถานการณ์เดียวกันสามารถเกิดขึ้นได้กับชุดข้อมูลที่มีขนาดใหญ่ขึ้นและในมิติที่สูงขึ้น (นั่นคือพร้อมกับพารามิเตอร์การถดถอยที่เหมาะสมยิ่งขึ้น)