KKT สั้นแบบกราฟิก


13

วัตถุประสงค์

ยืนยันว่าการเข้าใจ KKT นั้นถูกต้องหรือไม่ ขอคำอธิบายและการยืนยันเพิ่มเติมเกี่ยวกับ KKT

พื้นหลัง

พยายามทำความเข้าใจกับเงื่อนไข KKT โดยเฉพาะอย่างยิ่งเงื่อนไขเสริมซึ่งจะปรากฏขึ้นสีน้ำเงินในบทความ SVM ฉันไม่ต้องการรายการสูตรนามธรรม แต่ต้องการคำอธิบายที่เป็นรูปธรรมใช้งานง่ายและแบบกราฟิก

คำถาม

หาก P ซึ่งลดฟังก์ชันต้นทุนให้น้อยที่สุด f (X) จะอยู่ภายในข้อ จำกัด (g (P)> = 0) นั่นคือทางออก ดูเหมือนว่า KKT จะไม่เกี่ยวข้องในกรณีนี้

ป้อนคำอธิบายรูปภาพที่นี่

ดูเหมือนว่า KKT จะบอกว่าถ้า P ไม่ได้อยู่ในข้อ จำกัด แล้วโซลูชัน X ควรตอบสนองด้านล่างในภาพ KKT เกี่ยวกับหรือฉันคิดถึงประเด็นสำคัญอื่น ๆ หรือไม่?

ป้อนคำอธิบายรูปภาพที่นี่

คำชี้แจงอื่น ๆ

  1. ควรจะ f (x) ให้นูนเพื่อให้ KKT ใช้หรือไม่
  2. ควรใช้ g (x) เป็นเส้นตรงเพื่อให้ KKT ใช้หรือไม่
  3. ควรλจำเป็นในλ * g (X) = 0 หรือไม่ ทำไม g (X) = 0 หรือ g (Xi) = 0 ไม่เพียงพอ?

อ้างอิง


อัปเดต 1

ขอบคุณสำหรับคำตอบ แต่ยังคงพยายามเข้าใจ มุ่งเน้นไปที่ความจำเป็นเฉพาะที่นี่:

เงื่อนไข (2) ในคำตอบของ Matthew Gunn เกี่ยวกับจุดไม่เหมาะสม (ในวงกลมสีเขียว) และ KKT จะไม่พอใจหรือไม่? และประเด็นนั้นจะถูกระบุด้วยการมอง Hessian เหมือนกับคำตอบของ Mark L. Stone?

ฉันคิดว่าสถานการณ์อื่นเป็นจุดอาน แต่สิ่งที่ใช้?

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่ user23658


1
คำถามนี้อาจทำให้ความสนใจมากขึ้นในเว็บไซต์คณิตศาสตร์; เงื่อนไข KKT ไม่จำเป็นต้องเป็น "เชิงสถิติ" นักสถิติยืมสิ่งเหล่านี้และผลลัพธ์อื่น ๆ จากการวิเคราะห์เชิงตัวเลขเพื่อแก้ปัญหาสถิติที่น่าสนใจ แต่นี่เป็นคำถามทางคณิตศาสตร์มากกว่า
user23658

1
(1) หากข้อ จำกัด ไม่ได้ผูกไว้ปัญหาการปรับให้เหมาะสมกับข้อ จำกัด จะมีวิธีแก้ไขปัญหาเดียวกับปัญหาการปรับให้เหมาะสมโดยไม่มีข้อ จำกัด (2)ไม่จำเป็นต้องนูนหรือต้องเป็นเชิงเส้นสำหรับเงื่อนไข KKT ที่จำเป็น (3) คุณจำเป็นต้องมีเงื่อนไขพิเศษ (เช่นปัญหานูนที่มีเงื่อนไข Slater) สำหรับเงื่อนไข KKT ที่ถือเป็นเงื่อนไขที่เพียงพอสำหรับการที่เหมาะสม กรัมfg
Matthew Gunn

2
แนวคิดพื้นฐานของเงื่อนไขความหย่อน (คือที่เป็นข้อ จำกัด ) คือถ้าข้อ จำกัด คือหย่อน (เช่น ) ที่ดีที่สุดจากนั้นการลงโทษสำหรับการกระชับข้อ จำกัด คือ 0 และหากมีการลงโทษในเชิงบวกสำหรับการกระชับข้อ จำกัด แล้วข้อ จำกัด จะต้องมีผลผูกพัน (เช่น ) หากการจราจรไหลได้อย่างราบรื่นสะพานโทรสำหรับรถคันอื่นเป็นศูนย์ และถ้าสะพานเก็บค่าผ่านทางดังนั้นสะพานจะต้องมีขีด จำกัด ของความจุกรัม( x ) 0 กรัม( x ) < 0 x λ λ กรัม( x ) = 0 λ λ > 0λg(x)=0g(x)0g(x)<0xλλg(x)=0λλ>0
Matthew Gunn

1
ทฤษฎีบท KKT พื้นฐานบอกว่าหากเงื่อนไขของ KKT ไม่เป็นที่น่าพอใจ ณ จุดดังนั้นจุดนั้นไม่เหมาะสม เงื่อนไขของ KKT นั้นจำเป็นสำหรับการที่เหมาะสม แต่ไม่เพียงพอ (ตัวอย่างเช่นหากฟังก์ชั่นมีจุดยึด, จุดต่ำสุดในท้องถิ่น ฯลฯ ... เงื่อนไข KKT อาจเป็นไปตามเงื่อนไข แต่ไม่เหมาะสมที่สุด!) สำหรับปัญหาบางประเภท (เช่นปัญหานูนที่ตำแหน่งของ Slater), KKT กลายเป็นเงื่อนไขที่เพียงพอเงื่อนไข xxx
Matthew Gunn

คำตอบ:


8

xδfxx

ลองนึกภาพคุณมีปัญหาการเพิ่มประสิทธิภาพ:

minimize (over x)f(x)subject toj{1k}gj(x)0

โดยที่และมีข้อ จำกัดxRnk

เงื่อนไข KKT และFarkas Lemma

Letเป็นเวกเตอร์คอลัมน์แสดงถึงการไล่ระดับสีของประเมิน{x}f(x)fx

นำไปใช้กับสถานการณ์เช่นนี้Farkas แทรกระบุว่าสำหรับจุดใด ๆว่าหนึ่งของงบดังต่อไปนี้ถือ:xRn

  1. มีนั้นและλRkj=1kλjgj(x)=f(x)λ0
  2. มีเช่นนั้นและδRnjδgj(x)0δf(x)<0

สิ่งนี้หมายความว่า? หมายความว่าสำหรับจุดที่เป็นไปได้อย่างใดอย่างหนึ่ง:x

  • เงื่อนไข (1) ถือครองและเงื่อนไข KKT เป็นที่พอใจ
  • สภาพ (2) ถือหุ้นและมีอยู่ในทิศทางที่เป็นไปได้ที่ช่วยเพิ่มฟังก์ชั่นวัตถุประสงค์โดยไม่ต้องเพิ่มข้อ จำกัดg_j(เช่นคุณสามารถปรับปรุงโดยย้ายจากเป็น )δfgjfxx+ϵδ

เงื่อนไข (1) ระบุว่ามีตัวคูณที่ไม่ใช่เชิงลบเช่นว่าเงื่อนไข KKT มีความพึงพอใจที่จุด{x} (ทางเรขาคณิตมันบอกว่าอยู่ในกรวยนูนที่กำหนดโดยการไล่ระดับสีของข้อ จำกัด )λxf

เงื่อนไข (2) ระบุว่า ณ จุดมีทิศทางเพื่อย้าย (ภายในเครื่อง) เช่นนั้น:xδ

  • การเคลื่อนที่ไปในทิศทางจะลดฟังก์ชั่นวัตถุประสงค์ (เพราะผลคูณของและน้อยกว่าศูนย์)δf(x)δ
  • การเคลื่อนที่ไปในทิศทางไม่ได้เพิ่มมูลค่าของข้อ จำกัด (เพราะผลคูณของและน้อยกว่าหรือเท่ากับศูนย์สำหรับทั้งหมด ) ข้อ จำกัดδgj(x)δj

(ทางเรขาคณิตทิศทางที่เป็นไปได้กำหนดไฮเพอร์เพลนแบบแยกระหว่างเวกเตอร์และกรวยนูนที่กำหนดโดยเวกเตอร์ )δf(x)gj(x)

(หมายเหตุ: หากต้องการแมปลงในFarkas Lemmaให้นิยามเมทริกซ์ )A=[g1,g2,,gk]

อาร์กิวเมนต์นี้ให้ความจำเป็น (แต่ไม่เพียงพอ) ของเงื่อนไข KKT ที่เหมาะสม หากเงื่อนไขของ KKT ไม่เป็นที่พอใจ (และคุณสมบัติของข้อ จำกัด นั้นเป็นที่พอใจ) ก็เป็นไปได้ที่จะปรับปรุงวัตถุประสงค์โดยไม่ละเมิดข้อ จำกัด

บทบาทของคุณสมบัติข้อ จำกัด

มีอะไรผิดพลาด? คุณสามารถรับสถานการณ์ที่เลวลงซึ่งการไล่ระดับสีของข้อ จำกัด ไม่ได้อธิบายทิศทางที่เป็นไปได้อย่างแม่นยำในการเคลื่อนย้าย

มีคุณสมบัติข้อ จำกัด ที่แตกต่างกันมากมายให้เลือกซึ่งจะทำให้อาร์กิวเมนต์ด้านบนทำงานได้

ขั้นต่ำการตีความสูงสุด (ที่ใช้งานง่ายที่สุด)

แบบฟอร์มลากรองจ์

L(x,λ)=f(x)+j=1kλjgj(x)

แทนที่จะย่อขนาดไปตามข้อ จำกัดลองจินตนาการว่าคุณกำลังพยายามลดในขณะที่ฝ่ายตรงข้ามบางคนพยายามที่จะขยายให้ใหญ่ที่สุด คุณสามารถตีความตัวคูณเป็นบทลงโทษ (เลือกโดยคู่ต่อสู้บางคน) สำหรับการละเมิดข้อ จำกัด g j L λ ifgjLλi

วิธีการแก้ไขปัญหาการเพิ่มประสิทธิภาพดั้งเดิมเทียบเท่ากับ:

minxmaxλL(x,λ)

นั่นคือ:

  1. คุณเลือกเพื่อย่อ Lagrangianให้น้อยที่สุดรับรู้ว่า ...xL
  2. จากนั้นฉันจะเลือกเพื่อเพิ่มลากรองจ์ (ให้คุณเลือก )λx

ตัวอย่างเช่นหากคุณละเมิดข้อ จำกัดฉันสามารถลงโทษคุณได้โดยตั้งค่าเป็นอนันต์!g2λ2

ความอ่อนแอเป็นคู่

สำหรับฟังก์ชันใด ๆสังเกตว่า:f(x,y)

x^,y^minxf(x,y^)f(x^,y^)maxyf(x^,y)

ตั้งแต่นั้นมาสำหรับและมันก็ถือได้ว่า: x^y^

maxyminxf(x,y)minxmaxyf(x,y)

ในการตั้งค่า Langrian ผลลัพธ์นี้ที่เป็นที่รู้จักกันในชื่อคู่อ่อนแอmaxλminxL(x,λ)minxmaxλL(x,λ)

ปัญหาคู่ให้ขอบเขตที่ต่ำกว่าในการแก้ปัญหาmaxλminxL(x,λ)

ความเป็นคู่ที่แข็งแกร่ง

ภายใต้เงื่อนไขพิเศษบางประการ (เช่นปัญหานูนที่ซึ่งเงื่อนไขสเลเตอร์เก็บไว้) คุณมีความเป็นสองด้านที่แข็งแกร่ง (เช่นคุณสมบัติจุดอาน)

maxλminxL(x,λ)=minxmaxλL(x,λ)

ผลลัพธ์ที่สวยงามนี้แสดงถึงคุณสามารถกลับลำดับของปัญหาได้

  1. ฉันเลือกบทลงโทษครั้งแรกเพื่อเพิ่มลากรองจ์λ

  2. จากนั้นคุณสามารถเลือกเพื่อลดการลากรองจ์{L}LxL

ตั้งอยู่ในขั้นตอนนี้เป็นราคาสำหรับการละเมิดข้อ จำกัด และราคามีการตั้งค่าดังกล่าวที่คุณจะไม่ละเมิดข้อ จำกัดλ


ขอบคุณข้อมูลและลิงค์เพื่อเติมช่องว่างของความเข้าใจ อนุญาตให้ฉันยืนยัน เงื่อนไข (1) หมายความว่า KKT บอกว่าสำหรับจุด X เป็นวิธีการแก้ปัญหานั้นจะต้องตอบสนองλ * g (X) = 0, λ> = 0 และความยาวของการไล่ระดับของ g (X) คือλเท่าของ นั้นของ f (X) มิฉะนั้นเราจะพบว่าการไล่ระดับสีของทิศทางของจุด (X) ชี้ไปที่เล็กกว่า f (X ')?
จันทร์ที่

3
เงื่อนไข Slater คือ (เพียง) คุณสมบัติการ จำกัด ซึ่งสามารถนำไปใช้กับปัญหาการปรับให้เหมาะสมของนูนได้เช่นทำให้ KKT จำเป็น นูนทำให้ KKT เพียงพอแล้ว ดังนั้นเงื่อนไข Slater สำหรับปัญหาการหาค่าเหมาะที่สุดของนูนซึ่งฟังก์ชันวัตถุประสงค์และข้อ จำกัด มีความนูนและความแตกต่างอย่างต่อเนื่องทำให้ KKT จำเป็นและเพียงพอสำหรับค่าต่ำสุดทั่วโลก สภาพตำหนิคือว่ามีอย่างน้อยหนึ่งจุดที่เป็นไปได้ (กล่าวคือทำให้พอใจกับข้อ จำกัด ทั้งหมด) ซึ่งอยู่ในการควบคุมภายในที่เข้มงวดของข้อ จำกัด ที่ไม่เชิงเส้น (สิ่งใดก็ตามที่เกิดขึ้นกับข้อ จำกัด เชิงเส้นตราบเท่าที่เป็นไปได้)
Mark L. Stone

5

f (x) การนูนเป็นสิ่งจำเป็นสำหรับ KKT ที่จะเพียงพอสำหรับ x ที่จะเป็นค่าต่ำสุดในท้องถิ่น หาก f (x) หรือ -g (x) ไม่นูน x ที่ทำให้ KKT น่าพึงพอใจอาจเป็นค่าต่ำสุดในท้องถิ่น, saddlepoint หรือค่าสูงสุดในท้องถิ่น

g (x) เป็นแบบเชิงเส้นพร้อมกับ f (x) ที่แตกต่างกันอย่างต่อเนื่องนั้นเพียงพอสำหรับเงื่อนไข KKT ที่จำเป็นสำหรับค่าต่ำสุดในท้องถิ่น g (x) เป็นแบบเส้นตรงหมายความว่าคุณสมบัติเชิงเส้นตรงของข้อ จำกัด สำหรับ KKT เป็นสิ่งจำเป็นสำหรับค่าต่ำสุดในท้องถิ่นเป็นที่พึงพอใจ อย่างไรก็ตามมีคุณสมบัติข้อ จำกัด อื่น ๆ ที่ จำกัด น้อยกว่าซึ่งเพียงพอสำหรับเงื่อนไข KKT ที่จำเป็นสำหรับขั้นต่ำในท้องถิ่น ดูส่วนเงื่อนไขปกติ (หรือคุณสมบัติข้อ จำกัด ) ของhttps://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions https://en.wikipedia.org/wiki/Karush%E2%80%93Kuhn%E2%80%93Tucker_conditions

หากค่าต่ำสุดในท้องถิ่นไม่มีข้อ จำกัด "ที่ใช้งานอยู่" (ดังนั้นในกรณีของข้อ จำกัด ที่ไม่เท่ากันข้อ จำกัด นั้นไม่พอใจกับความเสมอภาค) ตัวคูณ Lagrange ที่เกี่ยวข้องกับข้อ จำกัด ดังกล่าวต้องเป็นศูนย์ซึ่งในกรณีนี้ KKT จะลดเงื่อนไข การไล่ระดับสีของวัตถุประสงค์ = 0 ในกรณีเช่นนี้ไม่มี "ค่าใช้จ่าย" เป็นศูนย์สำหรับค่าวัตถุประสงค์ที่เหมาะสมที่สุดของ epsilon ที่ทำให้ข้อ จำกัด แน่น

ข้อมูลเพิ่มเติม :

ฟังก์ชั่นวัตถุประสงค์และข้อ จำกัด จะนูนและนัยที่แตกต่างกันอย่างต่อเนื่อง KKT เพียงพอสำหรับขั้นต่ำทั่วโลก

หากฟังก์ชันและข้อ จำกัด วัตถุประสงค์มีความแตกต่างกันอย่างต่อเนื่องและข้อ จำกัด นั้นเป็นไปตามคุณสมบัติข้อ จำกัด KKT จำเป็นสำหรับขั้นต่ำท้องถิ่น

ถ้าหน้าที่และข้อ จำกัด ของวัตถุประสงค์มีความแตกต่างกันอย่างต่อเนื่องนูนและข้อ จำกัด ตรงตามคุณสมบัติของข้อ จำกัด KKT จำเป็นและเพียงพอสำหรับระดับต่ำสุดของโลก

การสนทนาข้างต้นเกี่ยวข้องกับเงื่อนไข KKT ลำดับที่ 1 เท่านั้น นอกจากนี้ยังมีเงื่อนไข KKT อันดับที่ 2 ซึ่งสามารถระบุได้เป็น: จุดที่สอดคล้องกับเงื่อนไข KKT ลำดับที่ 1 และฟังก์ชันวัตถุประสงค์และข้อ จำกัด มีความแตกต่างอย่างต่อเนื่องเป็นสองเท่าคือ (เพียงพอสำหรับ) ขั้นต่ำของท้องถิ่นหาก Hessian ของ Lagrangian nullspace ของ Jacobian ของข้อ จำกัด ที่ใช้งานอยู่คือ semidefinite บวก (ฉันจะให้คุณดูคำศัพท์ที่ใช้ในประโยคก่อนหน้า) ให้เป็นพื้นฐานสำหรับ nullspace ของ Jacobian ของข้อ จำกัด ที่ใช้งานลำดับที่ 2 เงื่อนไข KKT คือZ T H Z H ZZZTHZเป็นกึ่งแน่นอนที่Hคือ Hessian แห่งลากรองจ์ ข้อ จำกัด ที่ใช้งานอยู่ประกอบด้วยข้อ จำกัด ความเท่าเทียมกันทั้งหมดและข้อ จำกัด ความไม่เท่าเทียมทั้งหมดที่พอใจกับความเสมอภาค ณ จุดที่พิจารณา หากไม่มีข้อ จำกัด ที่จุด KKT ลำดับที่ 1 ภายใต้การพิจารณาเมทริกซ์เอกลักษณ์เป็นโมฆะสเปซพื้นฐานและตัวคูณลากรองจ์ทั้งหมดต้องเป็นศูนย์ดังนั้นเงื่อนไขที่จำเป็นลำดับที่ 2 สำหรับขั้นต่ำท้องถิ่นเพื่อลดเงื่อนไขที่คุ้นเคยจากการปรับให้เหมาะสมแบบไม่มีเงื่อนไข ว่า Hessian ของฟังก์ชั่นวัตถุประสงค์นั้นเป็นกึ่งบวกแน่นอน หากข้อ จำกัด ทั้งหมดเป็นแบบเส้นตรง Hessian of the Lagrangian = Hessian ของฟังก์ชันวัตถุประสงค์เพราะอนุพันธ์อันดับ 2 ของฟังก์ชันเชิงเส้น = 0Z

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.