หาก Hessians นั้นดีสำหรับการปรับให้เหมาะสม (ดูเช่นวิธีของ Newton ) ทำไมหยุดอยู่ที่นั่น ลองใช้อนุพันธ์อันดับสาม, สี่, ห้าและหกกันไหม? ทำไมไม่
หาก Hessians นั้นดีสำหรับการปรับให้เหมาะสม (ดูเช่นวิธีของ Newton ) ทำไมหยุดอยู่ที่นั่น ลองใช้อนุพันธ์อันดับสาม, สี่, ห้าและหกกันไหม? ทำไมไม่
คำตอบ:
ฉันตีความคำถามว่า "ทำไมวิธีการของนิวตันจึงใช้เพียงตราสารอนุพันธ์ที่หนึ่งและสองไม่ใช่อนุพันธ์ที่สามหรือสูงกว่า"
ที่จริงแล้วในหลาย ๆ กรณีการไปที่อนุพันธ์อันดับสามนั้นช่วยได้ ฉันเคยทำมันมากับของที่กำหนดเองมาก่อน อย่างไรก็ตามโดยทั่วไปแล้วการไปหาอนุพันธ์ที่สูงขึ้นจะเพิ่มความซับซ้อนในการคำนวณ - คุณต้องค้นหาและคำนวณอนุพันธ์ทั้งหมดเหล่านั้นและสำหรับปัญหาหลายตัวแปรมีอนุพันธ์อันดับสามมากกว่าอนุพันธ์อันดับหนึ่ง! - ยิ่งไปกว่าการประหยัดในจำนวนขั้นตอนที่คุณได้รับถ้ามี ตัวอย่างเช่นถ้าฉันมีปัญหาสามมิติฉันมีอนุพันธ์อันดับหนึ่ง 3 ตัว, อนุพันธ์อันดับสอง 6 รายการและสัญญาซื้อขายล่วงหน้าที่สาม 10 ดังนั้นการสั่งซื้อรุ่นที่สามมากกว่าสองเท่าของจำนวนการประเมินที่ฉันต้องทำ (ตั้งแต่ 9 ถึง 19) ไม่ต้องพูดถึงความซับซ้อนที่เพิ่มขึ้นของการคำนวณทิศทาง / ขนาดของขั้นตอนเมื่อฉันทำแบบประเมินเสร็จแล้ว แต่แทบจะไม่ลดจำนวนขั้นตอนที่ฉันต้องทำลงไปครึ่งหนึ่ง
ตอนนี้ในกรณีทั่วไปที่มีตัวแปรการรวบรวมของอนุพันธ์บางส่วนจะจำนวนดังนั้นสำหรับปัญหาที่มีห้าตัวแปรจำนวนทั้งหมดที่สาม อนุพันธ์อันดับสี่และห้าจะเท่ากับ 231 ซึ่งเพิ่มขึ้นมากกว่า 10 เท่าเมื่อเทียบกับจำนวนตราสารอนุพันธ์บางส่วนที่หนึ่งและสอง (20) คุณจะต้องมีปัญหาที่ใกล้เคียงกับพหุนามลำดับที่ห้ามากในตัวแปรเพื่อดูการลดการวนซ้ำที่มากพอที่จะนับเพื่อชดเชยภาระการคำนวณพิเศษนั้นn t h
ฉันไม่เห็นว่าด้านสถิติของคำถามนี้คืออะไรดังนั้นฉันจะตอบส่วนการเพิ่มประสิทธิภาพ
สวยมากทุกคำตอบที่นี่จะเน้นเพียงค่าใช้จ่ายในการทำซ้ำและไม่สนใจซ้ำนับ แต่ทั้งคู่มีความสำคัญ วิธีที่วนซ้ำใน 1 นาโนวินาที แต่ใช้เวลาการวนซ้ำเพื่อมาบรรจบกันคุณจะไม่ทำอะไรเลย และวิธีการที่พัดขึ้นมาก็ไม่ได้ช่วยได้เช่นกัน
ลองคิดดูว่าเกิดอะไรขึ้น
ส่วนหนึ่งเป็นเพราะ (และนี่เป็นความจริงสำหรับการสั่งซื้อลำดับที่ 2 เช่นกัน แต่เพิ่มเติมในเรื่องเล็กน้อย):
ในทางกลับกันพวกเขาระเบิดได้ง่ายขึ้นเมื่อพวกเขาอยู่ห่างจากที่เหมาะสม!
(แน่นอนว่านี่ไม่เป็นความจริงเสมอไปเช่นกำลังสองจะมาบรรจบกันในขั้นตอนเดียวกับวิธีของนิวตัน แต่สำหรับหน้าที่ตามอำเภอใจในโลกแห่งความจริงที่ไม่มีคุณสมบัติที่ดีนี่เป็นเรื่องจริงโดยทั่วไป )
ซึ่งหมายความว่าเมื่อคุณอยู่ห่างจากที่เหมาะสมที่สุดโดยทั่วไปคุณต้องการวิธีการลำดับต่ำ (อ่าน: ลำดับแรก) เมื่อคุณปิดคุณต้องการเพิ่มลำดับของวิธีการ
ในการดูว่าทำไมคุณต้องเข้าใจว่า "การลู่เข้าแบบสมการกำลังสอง" หมายความว่าอย่างไร
การบรรจบกันของสมการกำลังสองทางคณิตศาสตร์หมายความว่าถ้าเป็นข้อผิดพลาดของคุณในการทำซ้ำดังนั้นสิ่งต่อไปนี้จะถือเป็นจริงสำหรับค่าคงที่ :
ในภาษาอังกฤษแบบธรรมดานั่นหมายความว่าเมื่อคุณใกล้ถึงจุดที่เหมาะสมที่สุด (สำคัญ!) ทุกขั้นตอนพิเศษจะเพิ่มจำนวนของความแม่นยำเป็นสองเท่า
ทำไม? มันง่ายที่จะดูด้วยตัวอย่าง: สำหรับและคุณมี ,เป็นต้นซึ่งเร็วอย่างน่าขัน . (มันสุดยอดมาก !)
ที่จริงแล้วคนมักจะทำสิ่งนี้เมื่ออนุพันธ์อันดับสองกลายเป็นราคาแพงเกินไป แต่การบรรจบเชิงเส้นอาจช้ามาก เช่นถ้าคุณได้คุณอาจต้องการ 10,000,000 ซ้ำที่มีการลู่เชิงเส้นเพื่อรับแต่มี23ซ้ำที่มาพร้อมกับการลู่เข้าแบบสมการกำลังสอง ดังนั้นคุณจะเห็นว่าทำไมมันถึงมีความแตกต่างอย่างมากระหว่างลู่เชิงเส้นและกำลังสอง สิ่งนี้ไม่เป็นจริงสำหรับการรวมลำดับที่ 2 และ 3 เช่นกัน (ดูย่อหน้าถัดไป)
ณ จุดนี้ถ้าคุณรู้วิทยาการคอมพิวเตอร์ใด ๆ ที่คุณเข้าใจว่าด้วยการบรรจบกัน 2-order ปัญหาได้รับการแก้ไขแล้ว หากคุณไม่เห็นสาเหตุนี่คือเหตุผล: ไม่มีประโยชน์อะไรที่จะได้รับจากการเพิ่มจำนวนหลักสามซ้ำในทุก ๆ รอบแทนที่จะเป็นสองเท่า - คุณจะซื้ออะไร double
ท้ายที่สุดในคอมพิวเตอร์แม้แต่หมายเลข -precision ก็มีความแม่นยำ 52 บิตซึ่งเป็นตัวเลขทศนิยม 16 หลัก
บางทีมันอาจจะลดจำนวนขั้นตอนที่คุณต้องการจาก 16 เป็น 3 ... ซึ่งฟังดูยอดเยี่ยมจนกว่าคุณจะรู้ว่ามันมาในราคาที่ต้องคำนวณอนุพันธ์อันดับสามในแต่ละการวนซ้ำซึ่งเป็นที่ที่คำสาปของขนาดกระทบคุณอย่างหนัก สำหรับปัญหามิติคุณเพิ่งจ่ายเพียงปัจจัยเพื่อให้ได้ปัจจัยซึ่งเป็นใบ้ และในปัญหาโลกแห่งความจริงมีอย่างน้อยหลายร้อยมิติ (หรือแม้กระทั่งหลายพันหรือหลายล้าน) ไม่ใช่แค่ ! ดังนั้นคุณอาจได้รับปัจจัย 20 โดยจ่ายปัจจัยสมมติว่า 20,000 ... แทบจะเป็นการค้าที่ฉลาด
อีกครึ่งหนึ่งคือคุณมักจะมีพฤติกรรมแย่ลงเมื่อคุณอยู่ห่างไกลจากจุดที่เหมาะสมที่สุดซึ่งโดยทั่วไปแล้วจะส่งผลกระทบต่อจำนวนการทำซ้ำที่คุณต้องทำ
ในการตั้งค่าทั่วไปวิธีการเรียงลำดับที่สูงกว่า 2 เป็นความคิดที่ไม่ดี แน่นอนถ้าคุณสามารถนำสมมติฐานที่เป็นประโยชน์เพิ่มเติมให้กับตาราง (เช่นอาจจะเป็นข้อมูลของคุณไม่คล้ายกับพหุนามสูงองศาหรือคุณมีวิธีการของการวิ่งสถานที่ตั้งของที่เหมาะสม ฯลฯ ) แล้วบางทีคุณอาจจะพบว่าพวกเขามี ความคิดที่ดี - แต่นั่นจะเป็นการตัดสินใจเฉพาะปัญหาไม่ใช่กฎทั่วไปที่จะมีชีวิตอยู่
แม้แต่การคำนวณ Hessians ก็เป็นงานค่อนข้างเล็ก:
ทีนี้มาดูกันว่าอนุพันธ์อันดับที่สามมีลักษณะอย่างไร: นี่คือเมทริกซ์สามมิติ นี่คือลักษณะขององค์ประกอบดังนี้:
อนุพันธ์ของที่หกจะเป็นเมทริกซ์หกมิติ:
โดยปกติแล้วการแลกเปลี่ยนไม่เป็นผลดีต่อการดำเนินการที่สูงกว่า Hessian ฉันหมายถึงการแลกเปลี่ยนระหว่างการได้รับความเร็วที่เป็นไปได้โดยใช้การประมาณคำสั่งซื้อที่สูงขึ้นเมื่อเทียบกับการขยายเสียง คุณมักมีสัญญาณรบกวนในอินพุตเพราะเรากำลังพูดถึงแอปพลิเคชันทางสถิติ เสียงนี้จะถูกขยายโดยอนุพันธ์
หากคุณเล่นกอล์ฟการเปรียบเทียบในการปรับให้เหมาะสมคือการแกว่งตัวครั้งแรกเพื่อให้ได้สีเขียวไม่ต้องกังวลกับหลุมมากนัก ครั้งหนึ่งบนกรีนเราจะใส่เล็งเข้าไปในรู
โดยทั่วไปเมื่อคุณวิเคราะห์ประสิทธิภาพของอัลกอริทึมดังกล่าวคุณจะพบผลลัพธ์เช่นขั้นตอนหนึ่งของอัลกอริทึมการสั่งซื้อลำดับที่สี่ซึ่งมีประสิทธิภาพโดยประมาณเช่นเดียวกับสองขั้นตอนของอัลกอริธึมลำดับที่สอง
ตัวเลือกที่อัลกอริทึมที่จะใช้นั้นค่อนข้างง่าย: หากขั้นตอนหนึ่งของอัลกอริธึมลำดับที่สี่ใช้เวลาทำงานมากเป็นสองเท่าหรือมากกว่าหนึ่งขั้นตอนของอัลกอริธึมลำดับที่สองคุณควรใช้อันหลังแทน
นั่นคือสถานการณ์ทั่วไปสำหรับวิธีการเหล่านี้: อัลกอริทึมแบบดั้งเดิมมีอัตราส่วนการทำงานต่อประสิทธิผลที่ดีที่สุดสำหรับปัญหาทั่วไป ในขณะที่มีปัญหาเป็นครั้งคราวซึ่งวิธีการสั่งซื้อที่สูงกว่านั้นง่ายต่อการคำนวณผิดปกติและสามารถมีประสิทธิภาพสูงกว่าตัวแปรคลาสสิกพวกเขาค่อนข้างแปลก
คุณสามารถคิดถึงลำดับของอนุพันธ์เป็นลำดับของการประมาณพหุนามกับฟังก์ชัน รูทีนการปรับให้เหมาะสมส่วนใหญ่อาศัยความนูน พหุนามกำลังสองจะนูน / เว้าทุกที่ในขณะที่ลำดับ 3 หรือพหุนามที่สูงกว่าจะไม่นูนทุกที่ รูทีนการปรับให้เหมาะสมส่วนใหญ่อาศัยการประมาณต่อเนื่องของฟังก์ชันนูนด้วย quadratics ด้วยเหตุนี้ การประมาณกำลังสองที่นูนจำเป็นต้องมีเงื่อนไขที่แน่นอนในเชิงบวกเพื่อกำหนดให้กำลังสองเป็นนูน
ให้ฉันเป็นหนึ่งเดียวที่นี่ปกป้องวิธีการสั่งซื้ออันดับที่ 3 สำหรับการลู่เข้าของ SGD แต่แน่นอนไม่ได้อยู่ในพื้นที่ทั้งหมดสิ่งที่ต้องการค่าสัมประสิทธิ์ 3/6 แต่เช่นในทิศทางเดียวซึ่งต้องการค่าสัมประสิทธิ์เพิ่มเติมเพียงครั้งเดียว มีโมเดลลำดับที่ 2 ในทิศทางนี้แล้ว
ทำไมแบบจำลองลำดับที่ 3 แบบทิศทางเดียวจึงมีประโยชน์? ตัวอย่างเช่นเนื่องจากอนุพันธ์ใกล้เคียงกับศูนย์วินาทีในทิศทางนี้โดยทั่วไปหมายถึงสองสถานการณ์ทางเลือก: ที่ราบสูงหรือจุดโรคติดเชื้อ - เฉพาะในอดีตเท่านั้นที่ต้องใช้ขนาดขั้นตอนที่ใหญ่กว่าและอนุพันธ์อันดับที่ 3 อนุญาตให้แยกแยะได้
ฉันเชื่อว่าเราจะไปสู่วิธีการสั่งซื้อหลายทางแบบไฮบริด: วิธีการสั่งซื้อลำดับที่ 2 ในพื้นที่ย่อยที่มีมิติต่ำเช่นจาก PCA ของการไล่ระดับสีเมื่อเร็ว ๆ นี้สิ่งที่ยังอนุญาตให้มีการไล่ระดับสี ฉันจะเพิ่มเช่นลำดับที่ 3 สำหรับทิศทางที่เกี่ยวข้องมากที่สุด