จะมีคำตอบที่ดีที่สุดในท้องถิ่นหลายอย่างเมื่อเราแก้ปัญหาการถดถอยเชิงเส้นหรือไม่?


19

ฉันอ่านข้อความนี้ในการสอบจริง / เท็จหนึ่งครั้ง:

เราสามารถหาวิธีแก้ปัญหาที่เหมาะสมในท้องถิ่นได้หลายอย่างหากเราแก้ปัญหาการถดถอยเชิงเส้นโดยการลดผลรวมของข้อผิดพลาดกำลังสองโดยใช้การไล่ระดับสี

วิธีแก้ปัญหา: เท็จ

คำถามของฉันคือส่วนใดของคำถามนี้ผิด ทำไมข้อความนี้ถึงเป็นเท็จ?

คำตอบ:


8

คำถามนี้น่าสนใจตราบเท่าที่มันเปิดเผยการเชื่อมต่อบางอย่างระหว่างทฤษฎีการปรับให้เหมาะสมวิธีการปรับให้เหมาะสมและวิธีการทางสถิติที่ผู้ใช้ที่มีความสามารถด้านสถิติจำเป็นต้องเข้าใจ แม้ว่าการเชื่อมต่อเหล่านี้จะง่ายและเรียนรู้ได้ง่าย แต่ก็บอบบางและมักถูกมองข้าม

เพื่อสรุปแนวคิดจากข้อคิดเห็นไปยังคำตอบอื่น ๆ ฉันอยากจะชี้ให้เห็นว่ามีอย่างน้อยสองวิธีที่ "การถดถอยเชิงเส้น" สามารถสร้างโซลูชันที่ไม่ซ้ำกัน - ไม่เพียง แต่ในทางทฤษฎี แต่ในทางปฏิบัติ

ขาดความสามารถในการระบุตัวตน

สิ่งแรกคือเมื่อโมเดลไม่สามารถระบุได้ สิ่งนี้สร้างฟังก์ชั่นวัตถุประสงค์นูน แต่ไม่เคร่งครัดซึ่งมีวิธีแก้ปัญหาหลายอย่าง

พิจารณาเช่นถอยกับและ (ด้วยการสกัดกั้น) สำหรับข้อมูล-2) ทางออกหนึ่งคือY อีกประการหนึ่งคือ1-x เมื่อต้องการดูว่าต้องมีวิธีแก้ปัญหาหลายวิธีให้ปรับพารามิเตอร์โมเดลด้วยพารามิเตอร์จริงสามตัวและคำศัพท์ข้อผิดพลาดในแบบฟอร์มx Y ( x , Y , Z ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) Z = 1 + Y Z = 1 - x ( λ , μ , ν ) εzxy(x,y,z)(1,1,0),(2,2,1),(3,3,2)z^=1+yz^=1x(λ,μ,ν)ε

z=1+μ+(λ+ν1)x+(λν)y+ε.

ผลรวมของกำลังสองตกค้างทำให้ง่ายขึ้น

SSR=3μ2+24μν+56ν2.

(นี่เป็นกรณี จำกัด ของฟังก์ชันวัตถุประสงค์ที่เกิดขึ้นในทางปฏิบัติเช่นที่กล่าวถึงที่hessian เชิงประจักษ์ของ M-estimator ที่ไม่มีขีด จำกัดคุณสามารถอ่านการวิเคราะห์โดยละเอียดและดูพล็อตของฟังก์ชันได้)

เนื่องจากสัมประสิทธิ์ของกำลังสอง (และ ) เป็นค่าบวกและดีเทอร์มีแนนต์เป็นค่าบวกนี่คือรูปสมการกำลังสองเชิงบวก - semidefinite ในแลมบ์ดา) มันจะลดลงเมื่อ , แต่สามารถมีค่าใด ๆ เนื่องจากฟังก์ชันวัตถุประสงค์ไม่ได้ขึ้นอยู่กับดังนั้นจึงไม่มีการไล่ระดับสี (หรืออนุพันธ์อื่น ๆ ) ดังนั้นอัลกอริธึมการไล่ระดับสีใด ๆ - ถ้ามันไม่ได้ทำการเปลี่ยนแปลงทิศทางโดยพลการ - จะกำหนดค่าของโซลูชันให้เป็นค่าเริ่มต้น56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ3563×56(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλλ

แม้ว่าจะไม่ได้ใช้การไล่ระดับสี แต่โซลูชันอาจแตกต่างกัน ในRตัวอย่างเช่นมีสองง่ายวิธีที่เทียบเท่ากับการระบุรูปแบบนี้: เป็นหรือz ~ x + y z ~ y + xเป็นครั้งแรกที่อัตราผลตอบแทนแต่สองให้Y Z =1+Yz^=1xz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

( NAค่าควรถูกตีความว่าเป็นศูนย์ แต่มีคำเตือนว่ามีวิธีแก้ปัญหาหลายคำเตือนเกิดขึ้นได้เนื่องจากการวิเคราะห์ขั้นต้นที่ดำเนินการโดยไม่ขึ้นRอยู่กับวิธีการแก้ปัญหาของตนวิธีการลาดลงของการไล่ระดับสี แม้ว่าคนที่ดีจะเตือนคุณถึงความไม่แน่นอนว่าสิ่งนั้นมาถึงจุดที่เหมาะสมแล้ว)

ข้อ จำกัด ของพารามิเตอร์

Strict convexity รับประกันความเหมาะสมระดับโลกที่ไม่เหมือนใครโดยโดเมนของพารามิเตอร์นั้นนูนออกมา ข้อ จำกัด ของพารามิเตอร์สามารถสร้างโดเมนที่ไม่ได้นำไปสู่การแก้ปัญหาระดับโลก

ตัวอย่างง่ายๆคือปัญหาของการประมาณค่า "mean"สำหรับข้อมูลภายใต้ข้อ จำกัด1/2 แบบจำลองนี้เป็นสถานการณ์ที่ตรงกันข้ามกับวิธีการทำให้เป็นปกติเช่น Ridge Regression, Lasso หรือ Elastic Net: เป็นการยืนยันว่าพารามิเตอร์ของแบบจำลองไม่เล็กเกินไป (มีคำถามมากมายปรากฏบนไซต์นี้เพื่อถามวิธีแก้ปัญหาการถดถอยด้วยข้อ จำกัด ของพารามิเตอร์ดังกล่าวซึ่งแสดงว่าพวกเขาเกิดขึ้นจริงในทางปฏิบัติ)- 1 , 1 | μ | 1 / 2μ1,1|μ|1/2

มีวิธีแก้ปัญหาอย่างน้อยสองสแควร์สสำหรับตัวอย่างนี้ทั้งสองมีความเท่าเทียมกัน พวกเขาพบโดยย่อภายใต้ข้อ จำกัด1/2 ทั้งสองโซลูชั่น1/2 สามารถแก้ไขได้มากกว่าหนึ่งวิธีเนื่องจากข้อ จำกัด ของพารามิเตอร์ทำให้โดเมน nonconvex:| μ | 1 / 2 μ = ± 1 / 2 μ ( - , - 1 / 2 ] [ 1 / 2 , )(1μ)2+(1μ)2|μ|1/2μ=±1/2μ(,1/2][1/2,)

พล็อตผลรวมของกำลังสองเทียบกับ $ \ mu $

พาราโบลาเป็นกราฟของฟังก์ชันนูน (อย่างเคร่งครัด) ส่วนที่หนาสีแดงเป็นส่วน จำกัด ไว้เฉพาะโดเมนของ : มันมีสองจุดต่ำสุดที่ที่ผลรวมของสี่เหลี่ยมเป็น5/2ส่วนที่เหลือของพาราโบลา (แสดงจุด) จะถูกลบออกโดยข้อ จำกัด จึงช่วยลดขั้นต่ำที่ไม่ซ้ำกันจากการพิจารณาμ = ± 1 / 2 5 / 2μμ=±1/25/2

วิธีการไล่ระดับสีโคตรเว้นแต่จะมีความเต็มใจที่จะใช้กระโดดขนาดใหญ่มีแนวโน้มที่จะพบ "ไม่ซ้ำกัน" การแก้ปัญหาเมื่อเริ่มต้นด้วยค่าบวกและมิฉะนั้นก็จะพบว่า "พิเศษ" การแก้ปัญหาเมื่อเริ่มต้นด้วยค่าลบμ = - 1 / 2μ=1/2μ=1/2

สถานการณ์เดียวกันสามารถเกิดขึ้นได้กับชุดข้อมูลที่มีขนาดใหญ่ขึ้นและในมิติที่สูงขึ้น (นั่นคือพร้อมกับพารามิเตอร์การถดถอยที่เหมาะสมยิ่งขึ้น)


1
ตัวอย่างที่ง่ายมากของฟังก์ชั่นนูนซึ่งไม่นูนออกมาอย่างเคร่งครัดและจะมีน้อยหลายอย่างมากมายเป็น 2 จุดใด ๆ บนบรรทัดคือจุดต่ำสุด y = xf(x,y)=(xy)2y=x
kjetil b halvorsen

1
@ Kjetil ขอบคุณจริง ๆ เคล็ดลับที่นี่คือการแสดงให้เห็นว่าฟังก์ชั่นดังกล่าวเกิดขึ้นจริงอย่างไรในสถานการณ์การถดถอย ฟังก์ชั่นของคุณเป็นแรงบันดาลใจที่แม่นยำสำหรับตัวอย่างแรกที่ฉันเสนอ
whuber

ตัวอย่างภาพstats.stackexchange.com/a/151351/171583
ayorgo

2

ฉันเกรงว่าจะไม่มีคำตอบสำหรับคำถามของคุณ หากการถดถอยเชิงเส้นเป็นแบบนูนอย่างเคร่งครัด (ไม่มีข้อ จำกัด เกี่ยวกับสัมประสิทธิ์ไม่มีแบบธรรมดาฯลฯ ) จากนั้นการไล่ระดับสีแบบไล่ระดับจะมีวิธีแก้ปัญหาที่ไม่ซ้ำกันและจะเหมาะสมที่สุดในระดับโลก เชื้อสายการไล่ระดับสีสามารถและจะคืนค่าหลายวิธีถ้าคุณมีปัญหาแบบไม่นูน

แม้ว่า OP จะขอการถดถอยเชิงเส้นตัวอย่างด้านล่างแสดงการย่อเล็กสุดของตารางน้อยที่สุดแม้ว่าการไม่เชิงเส้น (เทียบกับการถดถอยเชิงเส้นที่ OP ต้องการ) สามารถมีการแก้ปัญหาหลายแบบ

ฉันสามารถแสดงให้ประจักษ์โดยใช้ตัวอย่างง่ายๆว่า

  1. ผลรวมของข้อผิดพลาดกำลังสองในบางครั้งอาจไม่ใช่แบบนูนดังนั้นจึงมีวิธีแก้ไขปัญหาหลายประการ
  2. วิธีการไล่ระดับสีไล่โทนสีสามารถนำเสนอโซลูชั่นที่หลากหลาย

ลองพิจารณาตัวอย่างที่คุณพยายามลดกำลังสองให้น้อยที่สุดสำหรับปัญหาต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ตำแหน่งที่คุณพยายามแก้หาค่าโดยย่อฟังก์ชันวัตถุประสงค์ให้เล็กที่สุด funtion ข้างต้นแม้ว่า differentiable ไม่ใช่แบบนูนและสามารถมีหลายวิธี แทนค่าที่แท้จริงสำหรับดูด้านล่างwa

a12=9,a13=1/9,a23=9,a31=1/9

( 9 - w 1)minimize (9w1w2)2+(19w1w3)2+(19w2w1)2+(9w2w3)2+(9w3w1)2+(19w3w2)2

ปัญหาข้างต้นมีวิธีแก้ไข 3 แบบแตกต่างกันและมีดังนี้:

w=(0.670,0.242,0.080),obj=165.2

W=(0.080,0.242,0.670),โอJ=165.2

w=(0.242,0.670,0.080),obj=165.2

ดังที่แสดงไว้ข้างต้นปัญหากำลังสองน้อยที่สุดอาจไม่ใช่แบบนูนและสามารถมีวิธีแก้ปัญหาหลายวิธี จากนั้นปัญหาข้างต้นสามารถแก้ไขได้โดยใช้วิธีการไล่ระดับสีเช่น microsoft excel solver และทุกครั้งที่เราเรียกใช้เราจะได้รับการแก้ปัญหาที่แตกต่างกัน เนื่องจากการไล่ระดับสีเป็นเครื่องมือเพิ่มประสิทธิภาพในท้องถิ่นและอาจติดอยู่ในโซลูชันท้องถิ่นเราจึงต้องใช้ค่าเริ่มต้นที่แตกต่างกันเพื่อให้ได้ Optima ทั่วโลกอย่างแท้จริง ปัญหาเช่นนี้ขึ้นอยู่กับค่าเริ่มต้น


2
ฉันไม่คิดว่านี่เป็นคำตอบสำหรับคำถามของ OP เพราะ OP ถามเกี่ยวกับการถดถอยเชิงเส้นโดยเฉพาะไม่ใช่การเพิ่มประสิทธิภาพโดยทั่วไป
Sycorax พูดว่า Reinstate Monica

1
ไม่ไม่ได้ แต่เพียงพยายามหาจุดที่มีปัญหาเกี่ยวกับการปรับให้เหมาะสมจะอัปเดตด้วย caveats
ทำนาย

@ user777 คุณถูกต้อง นี่เป็นคำถามที่ถูกต้องมากในการสอบเก่าจาก MIT ฉันแน่ใจว่าคำตอบนั้นผิดด้วยการคาดการณ์ล่วงหน้า
Anjela Minoeu

ดังนั้นคุณแน่ใจหรือว่าฉันถูก
Anjela Minoeu

@AnjelaMinoeu ฉันได้อัปเดตการตอบสนองของฉัน
พยากรณ์

1

นี่เป็นเพราะฟังก์ชั่นวัตถุประสงค์ที่คุณกำลังย่อให้เล็กสุดคือนูนมีเพียงหนึ่ง minima / maxima ดังนั้นท้องถิ่นที่เหมาะสมที่สุดก็เป็นสิ่งที่เหมาะสมระดับโลก การไล่ระดับสีจะค้นหาวิธีแก้ปัญหาในที่สุด

ทำไมฟังก์ชั่นวัตถุประสงค์นี้นูน? นี่คือความงามของการใช้ข้อผิดพลาดกำลังสองสำหรับการย่อขนาด การได้มาและความเสมอภาคเป็นศูนย์จะแสดงให้เห็นอย่างชัดเจนว่าทำไมถึงเป็นเช่นนั้น มันเป็นปัญหาตำราเรียนและครอบคลุมเกือบทุกที่


4
นูนไม่ได้หมายความว่าขั้นต่ำที่ไม่ซ้ำกัน โดยทั่วไปแล้วคุณต้องยื่นอุทธรณ์ต่อนูนที่เข้มงวดของฟังก์ชันวัตถุประสงค์ที่กำหนดไว้ในโดเมนนูน ปัญหาที่นี่คือเกณฑ์การยุติสำหรับการไล่ระดับสีโดยใช้เลขคณิตจุดลอยตัว: แม้ว่าฟังก์ชั่นวัตถุประสงค์จะถูกนูนอย่างเข้มงวด แต่อัลกอริทึมก็มีแนวโน้มที่จะหาวิธีการแก้ปัญหาที่แตกต่างกัน (ขึ้นอยู่กับค่าเริ่มต้น)
whuber

@ เมื่อไหร่คุณจะกรุณาทำให้มันง่ายขึ้นและชัดเจนสำหรับฉัน
Anjela Minoeu

@ ใครฉันคิดว่าปัญหาแรกคือการใช้คำศัพท์ ประการที่สองการนูนนั้นหมายถึงค่าต่ำสุดที่ไม่เหมือนใคร ฉันไม่สามารถเห็นฟังก์ชั่นเว้า differentiable ซึ่งไม่มีขั้นต่ำ / สูงสุดเดียว ดูข้อพิสูจน์ได้ที่นี่: planetmath.org/localminimumofconvexfunctionisnlogoallyglobal
Vladislavs Dovgalecs

3
ฉันไม่ได้ใส่ใจที่จะอ่านหลักฐานเพราะมันจะต้องเรียกใช้นูนที่เข้มงวดเพื่อให้ถูกต้อง ปัญหากำลังสองน้อยที่สุดที่มีสัมประสิทธิ์ไม่สามารถระบุได้จะนูน แต่ไม่นูนอย่างเคร่งครัดและจะมีวิธีแก้ปัญหามากมาย (อนันต์) แต่ที่ไม่สมบูรณ์ที่เกี่ยวข้องกับการไล่ระดับสีโคตรซึ่งมีปัญหาของตัวเอง - บางอย่างที่จะกล่าวถึงอย่างชัดเจนในบทความวิกิพีเดีย ดังนั้นในความรู้สึกเชิงทฤษฎีและภาคปฏิบัติคำตอบที่ถูกต้องสำหรับคำถามจึงเป็นจริง : การไล่ระดับสีสามารถ - และจะ - ให้การแก้ปัญหาหลายอย่าง
whuber

@whuber ใช่หลักฐานการอุทธรณ์ไปยังนูนที่เข้มงวด
Vladislavs Dovgalecs
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.