เหตุใดเมทริกซ์เชิงบวกแน่นอนที่แน่นอน (SPD) จึงมีความสำคัญมาก


20

ฉันรู้ว่าคำจำกัดความของเมทริกซ์ definite positive (SPD) positive symmetric แต่ต้องการเข้าใจมากกว่านี้

ทำไมพวกเขาถึงมีความสำคัญอย่างสังหรณ์ใจ?

นี่คือสิ่งที่ฉันรู้ มีอะไรอีกบ้าง?

  • สำหรับข้อมูลที่กำหนดเมทริกซ์ความแปรปรวนร่วมคือ SPD เมทริกซ์ความแปรปรวนร่วมเป็นตัวชี้วัดที่สำคัญให้ดูโพสต์ที่ยอดเยี่ยมนี้สำหรับคำอธิบายที่เข้าใจง่าย

  • รูปแบบสมการกำลังสองนูนออกหากคือ SPD Convexity เป็นคุณสมบัติที่ดีสำหรับฟังก์ชั่นที่สามารถตรวจสอบให้แน่ใจว่าโซลูชันในพื้นที่นั้นเป็นโซลูชันระดับโลก สำหรับปัญหานูนมีวิธีการแก้ปัญหาที่ดีมากมาย แต่ไม่ใช่สำหรับปัญหาที่ไม่ใช่ covex12xAxbx+cA

  • เมื่อคือ SPD โซลูชันเพิ่มประสิทธิภาพสำหรับรูปแบบสมการกำลังสองและโซลูชันสำหรับระบบเชิงเส้นเหมือนกัน ดังนั้นเราจึงสามารถทำการแปลงระหว่างสองปัญหาคลาสสิค สิ่งนี้มีความสำคัญเพราะช่วยให้เราสามารถใช้เทคนิคที่ค้นพบในโดเมนหนึ่งในอีกโดเมนหนึ่ง ตัวอย่างเช่นเราสามารถใช้วิธีการไล่ระดับสีแบบคอนจูเกตเพื่อแก้ปัญหาระบบเชิงเส้นA

    minimize   12xAxbx+c
    Ax=b
  • มีอัลกอริธึมที่ดีมากมาย (เร็วและเสถียรเป็นตัวเลข) ที่ทำงานได้ดีกว่าสำหรับเมทริกซ์ SPD เช่นการสลายตัวของ Cholesky

แก้ไข: ฉันไม่ได้พยายามถามตัวตนของเมทริกซ์ SPD แต่สัญชาตญาณด้านหลังของทรัพย์สินเพื่อแสดงความสำคัญ ตัวอย่างเช่นที่กล่าวถึงโดย @Matthew Drury หากเมทริกซ์คือ SPD ค่าลักษณะเฉพาะจะเป็นจำนวนจริงทั้งหมดที่เป็นบวก แต่ทำไมจึงมีความสำคัญในเชิงบวกทั้งหมด @ Matthew Drury มีคำตอบที่ดีในการไหลและนั่นคือสิ่งที่ฉันกำลังมองหา


7
ค่าลักษณะเฉพาะเป็นจำนวนจริงทั้งหมดที่เป็นบวก ความจริงเรื่องนี้มีคนอื่นมากมาย
Matthew Drury

4
หากต้องการไปให้ไกลกว่า @Matthew: หากคุณเลือกพื้นฐานที่เหมาะสมเมทริกซ์ดังกล่าวทั้งหมดจะเหมือนกันและเท่ากับเมทริกซ์เอกลักษณ์ กล่าวอีกนัยหนึ่งมีรูปแบบสมการกำลังสองบวกแน่นอนหนึ่งรูปแบบในแต่ละมิติ (สำหรับปริภูมิเวกเตอร์จริง) และมันก็เหมือนกับระยะทางแบบยุคลิด
whuber

2
คุณจะพบสัญชาตญาณในวิธีการเบื้องต้นในการแสดงค่าลักษณะเฉพาะของเมทริกซ์สมมาตรจริงทั้งหมดเป็นจริง: mathoverflow.net/questions/118626/ โดยเฉพาะรูปแบบสมการกำลังสองเกิดขึ้นตามธรรมชาติในความฉลาดทางเรย์ลีและ เมทริกซ์สมมาตรเป็นวิธีธรรมชาติในการแสดงเมทริกซ์ตระกูลใหญ่ซึ่งค่าลักษณะเฉพาะเป็นของจริง ดูทฤษฎีบท Courant minimax ตัวอย่างเช่น: en.wikipedia.org/wiki/Courant_minimax_principlexTAx
Alex R.

4
นี่ดูเหมือนกว้างเกินไปหากยังไม่มีคำตอบสามข้อฉันน่าจะปิดมันในแบบนั้น โปรดให้คำแนะนำเพิ่มเติมเกี่ยวกับสิ่งที่คุณต้องการทราบเป็นพิเศษ (การขอสัญชาติญาณเป็นบุคคลมากเกินไป / บุคคลสำหรับผู้ที่จะเดาในกรณีเช่นนี้)
Glen_b

1
ฉันมีช่วงเวลาที่ยากลำบากในการหาสถานการณ์ในสถิติที่จะทำให้เกิดเมทริกซ์ที่ไม่ใช่ psd (เว้นแต่คุณจะเมาในการคำนวณเมทริกซ์สหสัมพันธ์เช่นโดยเติมด้วยความสัมพันธ์แบบคู่ที่คำนวณจากข้อมูลที่มีค่าหายไป) . เมทริกซ์สมมาตรจตุรัสใด ๆ ที่ฉันนึกได้ก็คือความแปรปรวนร่วม, ข้อมูลหรือเมทริกซ์ประมาณการ (ที่อื่นในวิชาคณิตศาสตร์ประยุกต์การฝึกอบรมที่ไม่ใช่ psd อาจเป็นบรรทัดฐานทางวัฒนธรรมเช่นเมทริกซ์องค์ประกอบ จำกัด ใน PDE พูด)
StasK

คำตอบ:


15

เมทริกซ์สมมาตร (ของจริง) มีชุดของลักษณะเฉพาะแบบเอกฐานซึ่งมีค่าลักษณะที่สอดคล้องกันเป็นจำนวนจริงทั้งหมด สำหรับเมทริกซ์ที่ไม่สมมาตรสิ่งนี้อาจล้มเหลว ตัวอย่างเช่นการหมุนในพื้นที่สองมิติไม่มีค่าไอเคิลวีคหรือค่าลักษณะเฉพาะในจำนวนจริงคุณต้องผ่านไปยังพื้นที่เวกเตอร์เหนือจำนวนเชิงซ้อนเพื่อค้นหา

ถ้าเมทริกซ์มีค่าเป็นบวกแน่นอนแล้วค่าลักษณะเฉพาะเหล่านี้ล้วนเป็นจำนวนจริงทั้งหมด ความจริงเรื่องนี้ง่ายกว่าครั้งแรกเพราะถ้าเป็นไอเคิลวีคเตอร์ที่มีความยาวหน่วยและค่าไอคิวที่สอดคล้องกันดังนั้นvλ

λ=λvtv=vtAv>0

เมื่อความเท่าเทียมกันครั้งสุดท้ายใช้คำจำกัดความของความชัดเจนเชิงบวก

ความสำคัญของสัญชาตญาณที่นี่คือค่าลักษณะเฉพาะและค่าลักษณะเฉพาะของการแปลงเชิงเส้นอธิบายระบบพิกัดที่เข้าใจได้ง่ายที่สุด การแปลงเชิงเส้นอาจเป็นเรื่องยากมากที่จะเข้าใจใน "ธรรมชาติ" พื้นฐานเช่นระบบพิกัดมาตรฐาน แต่แต่ละคนมาพร้อมกับพื้นฐาน "ที่ต้องการ" ของ eigenvectors ซึ่งการเปลี่ยนแปลงทำหน้าที่เป็นมาตราส่วนในทุกทิศทาง นี่ทำให้เรขาคณิตของการเปลี่ยนแปลงง่ายต่อการเข้าใจ

ตัวอย่างเช่นการทดสอบอนุพันธ์ครั้งที่สองสำหรับ extrema ท้องถิ่นของฟังก์ชั่นมักจะได้รับเป็นชุดของเงื่อนไขลึกลับที่เกี่ยวข้องกับรายการในเมทริกซ์อนุพันธ์ที่สองและปัจจัยบางอย่าง ในความเป็นจริงเงื่อนไขเหล่านี้เข้ารหัสการสังเกตทางเรขาคณิตดังต่อไปนี้:R2R

  • หากเมทริกซ์ของอนุพันธ์อันดับสองมีค่าเป็นบวกแน่นอนว่าคุณอยู่ในค่าต่ำสุดในระดับท้องถิ่น
  • หากเมทริกซ์ของอนุพันธ์อันดับสองเป็นลบแน่นอนคุณจะมีค่าสูงสุดในท้องที่
  • มิฉะนั้นคุณจะอยู่ที่จุดอานม้า

คุณสามารถเข้าใจสิ่งนี้ด้วยการให้เหตุผลเชิงเรขาคณิตข้างต้นใน eigenbasis อนุพันธ์อันดับแรกที่จุดวิกฤติหายไปดังนั้นอัตราการเปลี่ยนแปลงของฟังก์ชันที่นี่จึงถูกควบคุมโดยอนุพันธ์อันดับสอง ตอนนี้เราสามารถให้เหตุผลทางเรขาคณิต

  • ในกรณีแรกมีสองทิศทาง - eigen และถ้าคุณย้ายไปพร้อมทั้งฟังก์ชั่นที่เพิ่มขึ้น
  • ในวินาที eigen-directions สองทิศทางและถ้าคุณย้ายในฟังก์ชันใดฟังก์ชันหนึ่งจะลดลง
  • ในช่วงสุดท้ายมีสองทิศทาง - ไอจีอี แต่ในหนึ่งในนั้นฟังก์ชั่นเพิ่มขึ้นและในอื่น ๆ ก็ลดลง

เนื่องจาก eigenvectors ครอบคลุมพื้นที่ทั้งหมดทิศทางอื่น ๆคือการรวมกันเชิงเส้นของทิศทางไอเก็นดังนั้นอัตราการเปลี่ยนแปลงในทิศทางเหล่านั้นจึงเป็นการรวมกันเชิงเส้นของอัตราการเปลี่ยนแปลงในทิศทางไอเกน ดังนั้นในความเป็นจริงสิ่งนี้ถือได้ทุกทิศทาง (นี่คือความหมายที่มากขึ้นหรือน้อยลงสำหรับฟังก์ชั่นที่กำหนดไว้ในพื้นที่มิติที่สูงขึ้น ทีนี้ถ้าคุณวาดภาพเล็ก ๆ ในหัวของคุณมันทำให้รู้สึกถึงอะไรบางอย่างที่ค่อนข้างลึกลับในตำราแคลคูลัสสำหรับผู้เริ่มต้น

สิ่งนี้ใช้โดยตรงกับหนึ่งในสัญลักษณ์แสดงหัวข้อย่อยของคุณ

รูปแบบสมการกำลังสอง นูนออกหากคือ SPD นูนเป็นคุณสมบัติที่ดีที่สามารถมั่นใจได้ว่าโซลูชันในพื้นที่คือโซลูชันระดับโลก12xAxbx+cA

เมทริกซ์ของอนุพันธ์อันดับสองคือทุกที่ซึ่งเป็นผลบวกแน่นอนแบบสมมาตร เรขาคณิตหมายความว่าถ้าเราย้ายออกไปในทิศทาง eigen ใด ๆ (และด้วยเหตุนี้ทิศทางใดเนื่องจากอื่น ๆ คือการรวมกันเชิงเส้นของทิศทาง eigen) ฟังก์ชั่นของตัวเองจะโค้งงอไปด้านบนมันเป็นเครื่องบินสัมผัสกัน ซึ่งหมายความว่าพื้นผิวทั้งหมดนูนA


5
วิธีดูกราฟิก: ถ้าคือ SPD รูปทรงของสมการกำลังสองเป็นรูปวงรี A
JM ไม่ใช่นักสถิติ

7
การจำแนกลักษณะโดย @JM นั้นเข้าใจง่ายมาก ในกรณีที่มีใครสงสัยว่าสิ่งใดที่อาจมีความพิเศษเกี่ยวกับรูปทรงวงรีโปรดทราบว่าพวกเขาเป็นทรงกลมที่สมบูรณ์แบบในการปลอมตัว: หน่วยของการวัดอาจแตกต่างกันไปตามแกนหลักของพวกมันและรูปทรงรี แต่เพื่อจุดประสงค์มากมาย - โดยเฉพาะอย่างยิ่งแนวคิด - ความแตกต่างเหล่านั้นไม่สำคัญ
whuber

มันเกี่ยวข้องกับวิธีการของฉันในการทำความเข้าใจวิธีการของนิวตันในเชิงเรขาคณิต ประมาณค่าระดับปัจจุบันที่ตั้งค่าไว้ดีที่สุดด้วย ellipsoid จากนั้นใช้ระบบพิกัดที่ ellipsoid เป็นวงกลมเลื่อน orthogonal ไปยังวงกลมในระบบพิกัดนั้น
Matthew Drury

1
หากมีข้อ จำกัด (ใช้งานอยู่) คุณต้องฉายลงใน Jacobian ของข้อ จำกัด ที่ใช้งานอยู่ก่อนที่จะทำ eigenvalue และ eigendirection spiel หาก Hessian เป็น psd การฉายภาพ (ใด ๆ ) จะเป็น psd แต่การสนทนาไม่จำเป็นต้องเป็นจริงและมักจะไม่ใช่ ดูคำตอบของฉัน
Mark L. Stone

10

คุณจะพบสัญชาตญาณในวิธีการเบื้องต้นในการแสดงค่าลักษณะเฉพาะของเมทริกซ์สมมาตรจริงทั้งหมดเป็นจริง: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- หลักฐาน / 118640 # 118640

โดยเฉพาะอย่างยิ่งรูปแบบสมการกำลังสองเกิดขึ้นตามธรรมชาติในความฉลาดทางเรย์ลีและเมทริกซ์สมมาตรให้สิ่งที่เป็นวิธีที่เป็นธรรมชาติที่สุดในการแสดงเมทริกซ์ตระกูลใหญ่ที่มีค่าลักษณะเฉพาะเป็นของจริง ดูตัวอย่างทฤษฎีบท Courant minimax: https://en.wikipedia.org/wiki/Courant_minimax_principlexTAx

นอกจากนี้ยังสมมาตรเมทริกซ์ที่ชัดเจนในเชิงบวกอย่างเคร่งครัดมีการตั้งค่าเฉพาะของเมทริกซ์ซึ่งสามารถกำหนดสินค้าภายในไม่เล็กน้อยพร้อมกับเหนี่ยวนำให้เกิดบรรทัดฐาน: Y นี่เป็นเพราะคำจำกัดความของเวกเตอร์จริงx , y d ( x , y ) = d ( y , x )สำหรับทุกx , yและx 2 =d(x,y)=x,Ay=xTAyx,y d(x,y)=d(y,x)x,yสำหรับ x 0 ด้วยวิธีนี้เมทริกซ์เชิงบวกแน่นอนแบบสมมาตรสามารถดูได้ว่าเป็นตัวเลือกที่เหมาะสำหรับการแปลงพิกัดx2=xTAx>0x0

คุณสมบัติหลังนี้เป็นกุญแจสำคัญอย่างยิ่งในพื้นที่ของเครื่องเวกเตอร์สนับสนุนโดยเฉพาะวิธีเคอร์เนลและเคอร์เนลเคล็ดลับที่เคอร์เนลจะต้องมีสมมาตรบวกเพื่อชักนำให้เกิดผลิตภัณฑ์ภายในที่เหมาะสม อันที่จริงทฤษฎีบทของเมอร์เซอร์พูดถึงคุณสมบัติที่ใช้งานง่ายของเมทริกซ์สมมาตรกับพื้นที่การทำงาน


9

ด้วยความเคารพต่อการปรับให้เหมาะสม (เพราะคุณติดแท็กคำถามของคุณด้วยแท็กการเพิ่มประสิทธิภาพ) การฝึกอบรม SPD นั้นมีความสำคัญอย่างยิ่งสำหรับเหตุผลง่ายๆเพียงข้อเดียว - Hessian SPD รับประกันได้ว่าทิศทางการค้นหาเป็นทิศทางที่สืบเชื้อสายมา พิจารณาความเป็นมาของวิธีการของนิวตันสำหรับการปรับให้เหมาะสมแบบไม่มีเงื่อนไข ก่อนอื่นเราสร้างการขยายตัวของเทย์เลอร์ของ :f(x+Δx)

f(x+Δx)f(x)+ΔxTf(x)+12ΔxT2f(x)Δx

ต่อไปเราหาอนุพันธ์เทียบกับ :Δx

f(x+Δx)f(x)+2f(x)Δx

สุดท้ายคือการกำหนดอนุพันธ์เท่ากับ 0 และแก้ปัญหาสำหรับ :Δx

Δx=2f(x)1f(x)

สมมติว่าคือ SPD มันง่ายที่จะเห็นว่าΔ xเป็นทิศทางที่ตกลงมาเพราะ:2f(x)Δx

f(x)TΔx=f(x)T2f(x)1f(x)<0

เมื่อใช้วิธีของนิวตันโดยทั่วไปการฝึกแบบ non-SPD Hessian มักจะ "สะกิด" เป็น SPD มีอัลกอริธึมที่ประณีตที่เรียกว่า Cholesky ที่ปรับปรุงแล้วซึ่งจะตรวจจับ Hessian ที่ไม่ใช่ SPD "สะกิด" ในทิศทางที่ถูกต้องและแยกแยะผลลัพธ์ได้อย่างเหมาะสมสำหรับต้นทุนที่เป็นแบบเดียวกับ Cholesky วิธี Quasi-Newton หลีกเลี่ยงปัญหานี้โดยบังคับให้ Hessian โดยประมาณเป็น SPD

ในขณะที่ระบบไม่ จำกัดแบบสมมาตรได้รับความสนใจอย่างมากในทุกวันนี้ พวกเขามาในบริบทของวิธีการจุดภายในเพื่อเพิ่มประสิทธิภาพ จำกัด


ขอบคุณมากสำหรับคำตอบที่ดี ฉันเข้าใจว่าทิศทางที่เหมาะสมเป็นสิ่งสำคัญในวิธีการค้นหาบรรทัด ในวิธีการภูมิภาคที่เชื่อถือได้ทิศทางที่ดีก็มีความสำคัญเช่นกัน?
Haitao Du

1
ยังคงมีความสำคัญสำหรับวิธีภูมิภาคที่เชื่อถือได้ วิธีการในภูมิภาคที่เชื่อถือได้นั้นทำงานโดยการ จำกัด ขนาดขั้นตอนที่หนึ่งแล้วจึงแก้หาทิศทางของขั้นตอน หากขั้นตอนไม่บรรลุการลดลงตามที่ต้องการในค่าฟังก์ชันวัตถุประสงค์คุณลดขอบเขตบนขนาดขั้นตอนและเริ่มต้นใหม่ ลองนึกภาพว่าอัลกอริทึมของคุณสำหรับการสร้างเส้นทางขั้นตอนไม่รับประกันว่าทิศทางของขั้นตอนจะเป็นทิศทางที่ตกลง แม้ว่ารัศมีของภูมิภาคที่เชื่อถือได้จะเป็น 0 คุณอาจไม่เคยสร้างขั้นตอนที่ยอมรับได้ (แม้ว่าจะมีอยู่) เนื่องจากไม่มีทิศทางของขั้นตอนใดที่เป็นทิศทางของโคตร
Bill Woessner

วิธีการค้นหาบรรทัดโดยทั่วไปแล้วจะแสดงพฤติกรรมเดียวกัน หากทิศทางการค้นหาของคุณไม่ใช่ทิศทางที่สืบเชื้อสายอัลกอริทึมการค้นหาบรรทัดอาจไม่พบความยาวของขั้นตอนที่ยอมรับได้เนื่องจากไม่มี :-)
Bill Woessner

คำตอบที่ดีขอบคุณที่ช่วยฉันเชื่อมต่อชิ้นส่วน
Haitao Du

9

เมทริกซ์ที่แน่นอนเชิงบวกจะกำหนดเมตริกตัวอย่างเช่น Riemannian metric ดังนั้นเราจึงสามารถใช้แนวคิดทางเรขาคณิตได้ทันที

ถ้าxและyเป็นเวกเตอร์และAเป็นเมทริกซ์แน่นอนบวกจากนั้น

d(x,y)=(xy)TA(xy)
เป็นตัวชี้วัด (เรียกอีกอย่างว่าฟังก์ชันระยะทาง)

นอกจากนี้เมทริกซ์เชิงบวกแน่นอนเกี่ยวข้องกับผลิตภัณฑ์ภายใน: ในRnเราสามารถกำหนดผลิตภัณฑ์ภายในได้โดย

x,y=xTAy
โดยที่Aข้างต้นเป็นบวกแน่นอน เพิ่มเติมผลิตภัณฑ์ภายในทั้งหมดบนRnเกิดขึ้นในลักษณะนี้


1
A=I

6

มีคำตอบหลายคำอธิบายอยู่แล้วว่าทำไมเมทริกซ์เชิงบวกแน่นอนแบบสมมาตรจึงมีความสำคัญดังนั้นฉันจะให้คำตอบเพื่ออธิบายว่าทำไมพวกเขาถึงไม่สำคัญเท่ากับบางคนรวมถึงผู้เขียนคำตอบเหล่านั้นด้วย เพื่อความเรียบง่ายฉันจะ จำกัด การมุ่งเน้นไปที่เมทริกซ์สมมาตรและมุ่งเน้นไปที่ Hessians และการปรับให้เหมาะสม

หากพระเจ้าทรงสร้างโลกนูนขึ้นมาก็จะไม่มีการเพิ่มประสิทธิภาพของนูนก็จะมีการเพิ่มประสิทธิภาพ ในทำนองเดียวกันไม่มีเมทริกซ์แน่นอนบวก (สมมาตร) จะมีเมทริกซ์แน่นอน (สมมาตร) แต่นั่นไม่ใช่กรณีดังนั้นจัดการกับมัน

หากมีปัญหาการเขียนโปรแกรม Quadratic จะสามารถแก้ไขได้ "ง่าย" หากไม่ใช่แบบคอนเวอเรนซ์ยังสามารถหาค่าสูงสุดทั่วโลกได้โดยใช้วิธีสาขาและวิธีเชื่อมต่อ (แต่อาจใช้หน่วยความจำนานขึ้นและมากขึ้น)

หากวิธีการของนิวตันใช้สำหรับการปรับให้เหมาะสมที่สุดและ Hessian ในการทำซ้ำบางส่วนนั้นไม่มีกำหนดแน่นอนดังนั้นจึงไม่จำเป็นต้อง "finagle" เพื่อความชัดเจนในเชิงบวก หากใช้การค้นหาเส้นทิศทางของความโค้งเชิงลบสามารถพบได้และการค้นหาบรรทัดดำเนินการไปตามพวกเขาและหากใช้ขอบเขตความน่าเชื่อถือก็จะมีพื้นที่ความไว้วางใจขนาดเล็กพอที่จะแก้ปัญหาของภูมิภาคที่เชื่อถือได้

สำหรับวิธี Quasi-Newton นั้น BFGS (ทำให้ชื้นหากปัญหามีข้อ จำกัด ) และ DFP ยังคงรักษาความแน่นอนในเชิงบวกของ Hessian หรือ Inverse Hessian วิธี Quasi-Newton อื่น ๆ เช่น SR1 (Symmetric Rank One) ไม่จำเป็นต้องรักษาความชัดเจนในเชิงบวกเอาไว้ ก่อนที่คุณจะหมดรูปร่างไปนั่นคือเหตุผลที่ดีสำหรับการเลือก SR1 สำหรับปัญหามากมาย - ถ้า Hessian ไม่ได้บวกแน่นอนตามเส้นทางที่ดีที่สุดแล้วบังคับให้การประมาณ Quasi-Newton เป็นบวกแน่นอน อาจส่งผลให้การประมาณกำลังสองหมัดกับฟังก์ชันวัตถุประสงค์ ในทางตรงกันข้ามวิธีการอัปเดต SR1 นั้น "หลวมเหมือนห่าน" และสามารถเปลี่ยนแปลงได้อย่างชัดเจนในขณะที่ดำเนินการไป

สำหรับปัญหาการปรับให้เหมาะสมแบบ จำกัด แบบไม่เชิงเส้นสิ่งที่สำคัญจริงๆก็คือ Hessian ของฟังก์ชันวัตถุประสงค์ แต่ Hessian ของ Lagrangian Hessian of the Lagrangian อาจจะไม่มีขีด จำกัด แม้ที่เหมาะสม (และ) จริง ๆ แล้วมันเป็นเพียงการฉายภาพของ Hessian ของ Lagrangian ไปสู่ ​​nullspace ของ Jacobian ของข้อ จำกัด (เชิงเส้นและไม่เชิงเส้น) ที่เป็นบวก -definite ที่เหมาะสม หากคุณสร้างแบบจำลอง Hessian of the Lagrangian ผ่าน BFGS และ จำกัด ให้มันแน่นอนแน่นอนมันอาจจะเป็นแบบที่น่ากลัวทุกที่และทำงานได้ไม่ดี ในทางตรงกันข้าม SR1 สามารถปรับค่าลักษณะเฉพาะให้เข้ากับสิ่งที่ "เห็น" จริง

ยังมีอีกมากที่ฉันสามารถพูดเกี่ยวกับทั้งหมดนี้ แต่ก็เพียงพอที่จะให้คุณได้ลิ้มรส

แก้ไข : สิ่งที่ฉันเขียน 2 ย่อหน้าขึ้นไปนั้นถูกต้อง อย่างไรก็ตามฉันลืมที่จะชี้ให้เห็นว่ามันยังใช้กับปัญหาที่มีข้อ จำกัด เชิงเส้นตรง ในกรณีที่เกิดปัญหาเชิงเส้นตรง Hessian of Lagrangian เป็นเพียง (ลดลงไป) Hessian ของฟังก์ชันวัตถุประสงค์ ดังนั้นเงื่อนไขการปรับให้เหมาะสมลำดับที่สองสำหรับค่าต่ำสุดในท้องถิ่นคือการคาดการณ์ของ Hessian ของฟังก์ชันวัตถุประสงค์ใน nullspace ของ Jacobian ของข้อ จำกัด ที่ใช้งานอยู่จึงเป็นกึ่งบวกแน่นอน ที่โดดเด่นที่สุดคือ Hessian ของฟังก์ชันวัตถุประสงค์ไม่จำเป็นต้องเป็น psd ที่เหมาะสมและมักจะไม่เกิดปัญหาเชิงเส้นตรง



@ GeoMatt22 คุณเดิมพัน @ $$ ของคุณฉันไม่ ในทางกลับกันถ้าคุณจะสร้าง (เลือก) ฟังก์ชั่นการสูญเสียไม่จำเป็นต้องทำให้มันไม่นูนเมื่อมันทำหน้าที่ไม่ได้มีวัตถุประสงค์ที่ดีอื่นนอกจากการแสดงโชว์ ดุลยพินิจเป็นส่วนที่ดีกว่าของความกล้าหาญ
Mark L. Stone

@ Mark L. Stone: อันนี้น่าสนใจ! คุณสามารถอ้างอิงถึงวรรณกรรมบางอย่างที่ฉันสามารถอ่านเกี่ยวกับสิ่งเหล่านี้ได้หรือไม่?
kjetil b halvorsen

@kjetil b halvorsen ค้นหา Line กับทิศทางของการเชิงลบโค้งfolk.uib.no/ssu029/Pdf_file/Curvilinear/More79.pdf ภูมิภาคที่เชื่อถือได้นั้นมีหนังสือและเอกสารมากมาย หนังสือที่รู้จักกันดีกับบทนำที่ดีที่จะไว้วางใจเป็นภูมิภาคamazon.com/... .. หนังสือมอนสเตอร์ที่ค่อนข้างล้าสมัยในขณะนี้คือepubs.siam.org/doi/book/10.1137/1.9780898719857 สำหรับย่อหน้าสุดท้ายของฉันเกี่ยวกับเงื่อนไขการปรับให้เหมาะสมอ่านเงื่อนไข KKT ลำดับที่ 2
Mark L. Stone

@kjetil b halvorsen ฉันไม่ได้กล่าวถึงการหาโปรแกรม Global Quadratic non-convex ที่เหมาะสมที่สุด กันอย่างแพร่หลายซอฟต์แวร์ที่มีอยู่เช่น CPLEX สามารถทำเช่นนี้ดูibm.com/support/knowledgecenter/SS9UKU_12.6.1/... แน่นอนว่ามันไม่ได้รวดเร็วเสมอไปและอาจต้องใช้หน่วยความจำบ้าง ฉันได้แก้ไขปัญหาในการลดโลกร้อนให้ดีที่สุดบางปัญหาการลด QP ด้วยตัวแปรนับหมื่นซึ่งมีค่าลักษณะเชิงลบที่มีนัยสำคัญหลายร้อย
Mark L. Stone

5

คุณได้กล่าวถึงสาเหตุหลายประการที่ทำให้ SPD มีความสำคัญ แต่คุณยังคงโพสต์คำถาม ดังนั้นฉันคิดว่าคุณต้องตอบคำถามนี้ก่อน: ทำไมปริมาณบวกจึงมีความสำคัญ

คำตอบของฉันคือปริมาณที่ควรจะเป็นบวกเพื่อที่จะคืนดีกับประสบการณ์หรือรูปแบบของเรา ตัวอย่างเช่นระยะห่างระหว่างรายการในอวกาศต้องเป็นค่าบวก พิกัดอาจเป็นค่าลบ แต่ระยะทางมักไม่ใช่ค่าลบ ดังนั้นหากคุณมีชุดข้อมูลและอัลกอริทึมบางตัวที่ประมวลผลคุณอาจจบลงด้วยชุดข้อมูลที่แบ่งย่อยเมื่อคุณป้อนระยะห่างเชิงลบลงไป ดังนั้นคุณพูดว่า "อัลกอริทึมของฉันต้องการอินพุตระยะทางที่เป็นบวกตลอดเวลา" และมันจะไม่ฟังความต้องการที่ไม่มีเหตุผล

i(xiμ)2/n
xi

เมทริกซ์ความแปรปรวนร่วมแปรปรวนเป็นบวกกึ่งแน่นอนเช่น "ไม่ลบ" ในการเปรียบเทียบนี้ ตัวอย่างของอัลกอริทึมที่ต้องใช้เงื่อนไขนี้คือการสลายตัวของ Cholesky มันมีประโยชน์มาก มักเรียกว่า "สแควร์รูทของเมทริกซ์" ดังนั้นเช่นสแควร์รูทของจำนวนจริงที่ต้องใช้การปฏิเสธแบบลบล้างโคลส์สกี้ต้องการเมทริกซ์ที่ไม่เป็นลบ เราไม่พบข้อ จำกัด นี้เมื่อต้องรับมือกับเมทริกซ์ความแปรปรวนร่วมเพราะมันมักจะเป็น

นั่นคือคำตอบที่เป็นประโยชน์ของฉัน ข้อ จำกัด เช่น non-negativity หรือ SPD ช่วยให้เราสามารถสร้างอัลกอริทึมการคำนวณที่มีประสิทธิภาพมากขึ้นหรือเครื่องมือสร้างแบบจำลองที่สะดวกที่มีให้เมื่ออินพุตของคุณตรงตามข้อ จำกัด


3

ต่อไปนี้เป็นเหตุผลสองประการที่ยังไม่ได้กล่าวถึงเหตุผลที่เมทริกซ์เชิงบวกแบบกึ่งมีความสำคัญ:

  1. กราฟ Laplacian เมทริกซ์มีความโดดเด่นในแนวทแยงจึงเป็น PSD

  2. บวก semidefiniteness กำหนดลำดับบางส่วนในชุดของเมทริกซ์สมมาตร (นี่คือรากฐานของการเขียนโปรแกรม semidefinite)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.