คำถามติดแท็ก hessian

8
ทำไมนิวตันถึงไม่ใช้วิธีการอย่างกว้างขวางในการเรียนรู้ของเครื่อง?
นี่คือสิ่งที่ทำให้ฉันหยุดอยู่พักหนึ่งและฉันไม่พบคำตอบที่น่าพอใจทางออนไลน์ดังนั้นที่นี่จะไป: หลังจากตรวจสอบชุดของการบรรยายเกี่ยวกับการเพิ่มประสิทธิภาพของนูนวิธีการของนิวตันดูเหมือนจะเป็นอัลกอริธึมที่เหนือกว่าการไล่ระดับสีเพื่อค้นหาทางออกที่ดีที่สุดทั่วโลกเพราะวิธีการของนิวตันสามารถรับประกันการแก้ปัญหาได้ ไกลน้อยกว่าขั้นตอน ทำไมอัลกอริธึมการเพิ่มประสิทธิภาพอันดับสองเช่นวิธีของนิวตันไม่ได้ใช้กันอย่างแพร่หลายเช่นเดียวกับการไล่ระดับสีแบบสุ่มในปัญหาการเรียนรู้ของเครื่อง?

6
ทำไมไม่ใช้อนุพันธ์อันดับสามสำหรับการเพิ่มประสิทธิภาพเชิงตัวเลข?
หาก Hessians นั้นดีสำหรับการปรับให้เหมาะสม (ดูเช่นวิธีของ Newton ) ทำไมหยุดอยู่ที่นั่น ลองใช้อนุพันธ์อันดับสาม, สี่, ห้าและหกกันไหม? ทำไมไม่

1
คำอธิบายของ min_child_weight ในอัลกอริทึม xgboost
นิยามของพารามิเตอร์ใน min_child_weight xgboost จะได้รับเป็น: ผลรวมขั้นต่ำของน้ำหนักอินสแตนซ์ (รัฐ) ที่จำเป็นในเด็ก หากขั้นตอนการแบ่งพาร์ติชันเป็นผลให้โหนดใบมีผลรวมของน้ำหนักอินสแตนซ์น้อยกว่า min_child_weight กระบวนการสร้างจะทำให้การแบ่งพาร์ติชันเพิ่มเติม ในโหมดการถดถอยเชิงเส้นสิ่งนี้จะสอดคล้องกับจำนวนอินสแตนซ์ขั้นต่ำที่จำเป็นในแต่ละโหนด ยิ่งอัลกอริธึมมีขนาดใหญ่ขึ้นเท่าใด ฉันได้อ่านสิ่งเล็ก ๆ น้อย ๆ บน xgboost รวมถึงกระดาษต้นฉบับ (ดูสูตร 8 และหนึ่งหลังจากสมการที่ 9) คำถามนี้และสิ่งต่าง ๆ ที่เกี่ยวข้องกับ xgboost ที่ปรากฏในหน้าแรก ๆ ของการค้นหา google ;) โดยพื้นฐานแล้วฉันยังไม่มีความสุขว่าทำไมเราถึงกำหนดข้อ จำกัด เกี่ยวกับผลรวมของรัฐ? ผมไม่คิดว่าเพียงนาทีจากกระดาษเดิมก็คือว่ามันเกี่ยวข้องกับการถ่วงน้ำหนัก quantile ส่วนร่าง (และ reformulation เป็นของสมการการสูญเสีย 3 Squared ถ่วงน้ำหนัก) ซึ่งมีชั่วโมงผมชั่วโมงผมh_iเป็นน้ำหนัก 'ของแต่ละกรณี คำถามเพิ่มเติมเกี่ยวข้องกับสาเหตุที่มันเป็นเพียงจำนวนอินสแตนซ์ในโหมดการถดถอยเชิงเส้น? ฉันเดาว่านี่เกี่ยวข้องกับอนุพันธ์อันดับสองของผลรวมของสมการกำลังสองหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.