เหตุใดการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวต่อค่าผิดปกติ


12

ฉันพบบทความจำนวนมากที่ระบุว่าวิธีการส่งเสริมมีความอ่อนไหวต่อค่าผิดปกติ แต่ไม่มีบทความอธิบายว่าเพราะเหตุใด

ในค่าประสบการณ์ของฉันไม่ดีสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง แต่ทำไมวิธีการเพิ่มประสิทธิภาพจึงมีความอ่อนไหวเป็นพิเศษ

อัลกอริธึมต่อไปนี้จะจัดอันดับในแง่ของความไวต่อค่าผิดปกติ: boost-tree, ป่าสุ่ม, เครือข่ายประสาท, SVM และวิธีการถดถอยแบบง่ายเช่นการถดถอยแบบโลจิสติกอย่างไร


1
ฉันแก้ไขเพื่อพยายามชี้แจง (เช่นถ้าคุณใส่ช่องว่างที่จุดเริ่มต้นของบรรทัด stackexchange จะถือว่าเป็นรหัส) สำหรับพาราที่สองของคุณการเพิ่มระดับเป็นอะไร คุณอาจต้องกำหนดความไว
Jeremy Miles

1
นอกจากนี้ค่าผิดปกติและเสียงไม่เหมือนกัน
Jeremy Miles

ฉันจะไม่ทำเครื่องหมายคำถามนี้ว่าแก้ไขแล้ว ยังไม่ชัดเจนว่าการเพิ่มขึ้นจริง ๆ แล้วเกิดความผิดปกติมากกว่าวิธีอื่นหรือไม่ ดูเหมือนว่าคำตอบที่ยอมรับได้รับการยอมรับส่วนใหญ่เป็นเพราะอคติยืนยัน
ล้าง

คุณช่วยแบ่งปันบทความเหล่านี้ได้ไหม
acnalb

คำตอบ:


11

ค่าผิดปกติอาจไม่ดีสำหรับการส่งเสริมเนื่องจากการเพิ่มการสร้างแต่ละต้นบนส่วนที่เหลือ / ข้อผิดพลาดของต้นไม้ก่อนหน้า ค่าผิดปกติจะมีจำนวนเงินที่เหลือมากกว่าค่าที่ไม่ใช่ค่าผิดปกติดังนั้นการเพิ่มระดับความลาดชันจะเน้นจำนวนความสนใจในจุดเหล่านั้น


2
มันจะดีกว่าถ้าคุณสามารถให้รายละเอียดทางคณิตศาสตร์กับ OP!
Metariat

5
@Matemattica ฉันไม่เห็นด้วยว่าการเพิ่มรายละเอียดทางคณิตศาสตร์จะให้ความชัดเจนเพิ่มเติมที่นี่ มันจะเป็นสัญลักษณ์สำหรับการไล่ระดับสีของต้นไม้และอัตราการเรียนรู้ต้นไม้ที่ตามมา
Ryan Zotti

1
@RyanZotti: ฉันเห็นด้วยกับ Metariat สัญกรณ์ที่เป็นทางการมากขึ้นจะช่วยแก้ไขความสับสนบางอย่าง ตัวอย่างเช่นในประโยค 'คนผิดจะมีจำนวนเงินที่เหลือมากกว่าคนที่ไม่ใช่คนผิด' คุณหมายถึงจำนวนเงินที่เหลือนั้นเป็นค่าอะไร? แบบจำลองโดยประมาณหรือตัวจริง? หากอดีตมันไม่เป็นความจริงโดยทั่วไปและหากหลังมันไม่เกี่ยวข้อง
user603

1

อัลกอริทึมที่คุณระบุไว้ใช้สำหรับการจัดหมวดหมู่ดังนั้นฉันสมมติว่าคุณไม่ได้หมายถึงค่าผิดปกติในตัวแปรเป้าหมาย แต่เป็นค่าผิดปกติของตัวแปรอินพุต วิธีต้นไม้แบบเร่งควรมีความทนทานต่อค่าผิดปกติในคุณลักษณะการป้อนข้อมูลเนื่องจากผู้เรียนพื้นฐานแยกต้นไม้ ตัวอย่างเช่นหากการแบ่งเป็นx > 35 และ 5,000,000 จะถือว่าเหมือนกัน สิ่งนี้อาจหรือไม่ดี แต่เป็นคำถามที่แตกต่าง

หากคุณกำลังพูดถึงการถดถอยและค่าผิดปกติในตัวแปรเป้าหมายความไวของวิธีการทรีที่เพิ่มขึ้นจะขึ้นอยู่กับฟังก์ชันต้นทุนที่ใช้ แน่นอนว่าข้อผิดพลาดกำลังสองนั้นไวต่อค่าผิดปกติเนื่องจากความแตกต่างยกกำลังสองและนั่นจะมีผลต่อต้นไม้ต้นถัดไปตั้งแต่การเพิ่มความพยายามเพื่อให้พอดีกับการสูญเสีย (การไล่ระดับสี) อย่างไรก็ตามมีฟังก์ชั่นข้อผิดพลาดที่มีประสิทธิภาพมากขึ้นซึ่งสามารถใช้สำหรับวิธีการแบบต้นไม้ที่ได้รับการปรับปรุงเช่นHuber lossและ Absolute Loss


0

ในการเพิ่มประสิทธิภาพเราพยายามเลือกชุดข้อมูลที่ผลลัพธ์ของอัลกอริทึมไม่ดีแทนที่จะเลือกชุดย่อยของข้อมูลแบบสุ่ม ตัวอย่างที่ยากเหล่านี้เป็นสิ่งสำคัญที่ต้องเรียนรู้ดังนั้นหากชุดข้อมูลมีค่าผิดปกติจำนวนมากและอัลกอริทึมทำงานได้ไม่ดีนักเมื่อเทียบกับการเรียนรู้อัลกอริทึมตัวอย่างยากเหล่านั้นจะพยายามเลือกชุดย่อยด้วยตัวอย่างเหล่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.