พื้นหลัง:
ในxgboost ย้ำพยายามเพื่อให้พอดีกับต้นไม้ฉเสื้อมากกว่าทุกnตัวอย่างซึ่งช่วยลดการดังต่อไปนี้วัตถุประสงค์:
ที่เป็นลำดับแรกและอนุพันธ์ลำดับที่สองในช่วงก่อนหน้านี้ประมาณค่าที่ดีที่สุดของเราY (จากการย้ำT - 1 ):
และคือฟังก์ชันการสูญเสียของเรา
คำถาม (ในที่สุด):
เมื่อมีการสร้างและเมื่อพิจารณาจากคุณลักษณะเฉพาะkในการแยกเฉพาะที่พวกเขาใช้การแก้ปัญหาต่อไปนี้ในการประเมินผู้สมัครเพียงบางส่วนแยก: พวกเขาจัดเรียงตัวอย่างทั้งหมดของพวกเขาโดยx k , ข้ามรายการที่เรียงลำดับและผลรวมของพวกเขาสองอนุพันธ์ชั่วโมงฉัน พวกเขาคิดว่าเป็นผู้สมัครที่แยกเฉพาะเมื่อรวมการเปลี่ยนแปลงมากกว่าε ทำไมเป็นแบบนั้น ???
คำอธิบายที่พวกเขาให้ฉัน:
พวกเขาอ้างว่าเราสามารถเขียนสมการก่อนหน้าได้เช่น:
และฉันล้มเหลวในการติดตามพีชคณิต - คุณสามารถแสดงให้เห็นว่าทำไมมันเท่ากัน?
แล้วพวกเขาก็อ้างว่า "นี่คือการสูญเสียน้ำหนักกำลังสองที่แน่นอนด้วยฉลากและน้ำหนักh i " - คำแถลงที่ฉันเห็นด้วย แต่ฉันไม่เข้าใจว่ามันเกี่ยวข้องกับอัลกอริธึมการสมัครแยกที่พวกเขาใช้อยู่อย่างไร ..
ขอขอบคุณและขออภัยถ้ามันยาวเกินไปสำหรับฟอรัมนี้