ต้องการความช่วยเหลือในการทำความเข้าใจข้อเสนอจุดแยกโดยประมาณของ xgboost


12

พื้นหลัง:

ในxgboost ย้ำพยายามเพื่อให้พอดีกับต้นไม้เสื้อมากกว่าทุกnตัวอย่างซึ่งช่วยลดการดังต่อไปนี้วัตถุประสงค์:tftn

i=1n[gift(xi)+12hift2(xi)]

ที่เป็นลำดับแรกและอนุพันธ์ลำดับที่สองในช่วงก่อนหน้านี้ประมาณค่าที่ดีที่สุดของเราY (จากการย้ำT - 1 ):gi,hiy^t1

  • gi=dy^l(yi,y^)
  • hi=dy^2l(yi,y^)

และคือฟังก์ชันการสูญเสียของเราl


คำถาม (ในที่สุด):

เมื่อมีการสร้างและเมื่อพิจารณาจากคุณลักษณะเฉพาะkในการแยกเฉพาะที่พวกเขาใช้การแก้ปัญหาต่อไปนี้ในการประเมินผู้สมัครเพียงบางส่วนแยก: พวกเขาจัดเรียงตัวอย่างทั้งหมดของพวกเขาโดยx k , ข้ามรายการที่เรียงลำดับและผลรวมของพวกเขาสองอนุพันธ์ชั่วโมงฉัน พวกเขาคิดว่าเป็นผู้สมัครที่แยกเฉพาะเมื่อรวมการเปลี่ยนแปลงมากกว่าε ทำไมเป็นแบบนั้น ???ftkxkhiϵ

คำอธิบายที่พวกเขาให้ฉัน:

พวกเขาอ้างว่าเราสามารถเขียนสมการก่อนหน้าได้เช่น:

i=1n12hi[ft(xi)gi/hi]2+constant

และฉันล้มเหลวในการติดตามพีชคณิต - คุณสามารถแสดงให้เห็นว่าทำไมมันเท่ากัน?

แล้วพวกเขาก็อ้างว่า "นี่คือการสูญเสียน้ำหนักกำลังสองที่แน่นอนด้วยฉลากและน้ำหนักh i " - คำแถลงที่ฉันเห็นด้วย แต่ฉันไม่เข้าใจว่ามันเกี่ยวข้องกับอัลกอริธึมการสมัครแยกที่พวกเขาใช้อยู่อย่างไร ..gi/hihi

ขอขอบคุณและขออภัยถ้ามันยาวเกินไปสำหรับฟอรัมนี้

คำตอบ:


8

ฉันจะไม่ลงรายละเอียด แต่สิ่งต่อไปนี้จะช่วยให้คุณเข้าใจความคิด

พวกเขาใช้Quantiles (Wikipedia)เพื่อกำหนดตำแหน่งที่จะแยก หากคุณมี 100 จุดแยกที่เป็นไปได้ (เรียงลำดับ) คุณสามารถลองใช้จุดแยก10 แบบที่มีคุณสมบัติ{ x 10 , x 20 , , x 90 }และมีการประมาณที่ดีอยู่แล้ว นี่คือสิ่งที่εพารามิเตอร์จะทำ พวกเขาพิจารณาจุดแตกหักเมื่อจุดแยกมีจุดอีกϵ Nใต้จุดแยกสุดท้าย ถ้าϵ = 0.01{x1,,x100}10{x10,x20,,x90}ϵϵNϵ=0.01คุณจะจบลงด้วยจุดแยกเป็นขนาดใหญ่กว่า{ 1 % , 2 % , . . , 99 % }ของจุดอื่น ๆ พวกเขาไม่ได้พิจารณาแยกใหม่เมื่อ "ผลรวมที่มีการเปลี่ยนแปลงมากกว่าε " แต่เมื่อจำนวนของจุดภายใต้จุดปัจจุบันมีขนาดใหญ่โดยεกว่าคนสุดท้าย100{1%,2%,...,99%}ϵϵ

ทีนี้ถ้าคุณมีคะแนนต่อเนื่องมากมายที่แยกออกมาได้ดีมันอาจไม่มีประโยชน์ที่จะแยกระหว่างพวกเขา คุณต้องการแยกส่วนของชุดข้อมูลของคุณที่ไม่ถูกต้องส่วนที่ยากต่อการเรียนรู้ เมื่อต้องการทำเช่นนั้นพวกเขาใช้น้ำหนักถ่วง นี่คือที่ที่น้ำหนักมีบทบาท -quantile แรกจะไม่เป็นจุดแรกที่ใหญ่กว่า10 %ของคะแนน แต่จุดแรกที่มากกว่า10 %ของน้ำหนัก1010%10%


ฉันเข้าสู่ระบบเพียงเพื่อให้คุณได้คะแนน ขอบคุณสำหรับคำอธิบายที่เข้าใจง่าย
Pakpoom Tiwakornkit

3

เพียงเพิ่มส่วนพีชคณิตใน @Winks คำตอบ:

สมการที่สองควรมีเครื่องหมายเป็นตรงกันข้ามเช่นเดียวกับใน:

i=1n12hi[ft(xi)(gi/hi)]2+constant=i=1n12hi[ft2(xi)+2ft(xi)gihi+(gi/hi)2]=i=1n[gift(xi)+12hift2(xi)+gi22hi]

ระยะเวลาที่ผ่านมาเป็นค่าคงที่แน่นอน: จำไว้ว่าและชั่วโมงฉันจะถูกกำหนดโดยย้ำก่อนหน้านี้เพื่อให้พวกเขาคงกำลังเมื่อพยายามที่จะตั้งค่าเอฟทีgihift

ดังนั้นตอนนี้เราสามารถอ้างสิทธิ์ "นี่คือการสูญเสียน้ำหนักกำลังสองที่ตรงกับป้ายกำกับและน้ำหนักh i "gi/hihi

เครดิตไปที่ Yaron และ Avi จากทีมของฉันเพื่ออธิบายเรื่องนี้


0

แล้วพวกเขาก็อ้างว่า "นี่คือการสูญเสียน้ำหนักกำลังสองที่ตรงกับป้ายกำกับ gi / higi / hi และน้ำหนัก hihi" - คำแถลงที่ฉันเห็นด้วย แต่ฉันไม่เข้าใจว่ามันเกี่ยวข้องกับอัลกอริธึมการสมัครแยกที่พวกเขาใช้อย่างไร .

  1. หากมีเพียงตัวอย่างเดียวและคุณกำลังปรับwที่tthw=gi/hi(ft(gi/hi))2

  2. ตอนนี้คุณมีชุดข้อมูลทั้งหมด ในกรณีที่ฟังก์ชั่นการสูญเสียมีอนุพันธ์ที่สองเหมือนกันที่wจะกลายเป็นavg(gi)/constsigma(gi)/sigma(hi)whigiwhi

hi

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.