โมเดลรถเข็นสามารถสร้างความแข็งแกร่งได้หรือไม่?


14

เพื่อนร่วมงานคนหนึ่งในสำนักงานของฉันพูดกับฉันในวันนี้ว่า "แบบจำลองต้นไม้ไม่ดีเพราะพวกเขาถูกจับด้วยการสังเกตอย่างหนัก"

การค้นหาที่นี่ส่งผลให้เธรดนี้รองรับการอ้างสิทธิ์โดยทั่วไป

ข้อใดทำให้ฉันมีคำถาม - โมเดลรถเข็น CART ในสถานการณ์ใดจะมีประสิทธิภาพและจะแสดงได้อย่างไร?

คำตอบ:


15

ไม่ไม่อยู่ในรูปแบบปัจจุบัน ปัญหาคือฟังก์ชั่นการสูญเสียนูนไม่สามารถทำให้แข็งแกร่งต่อการปนเปื้อนโดยค่าผิดปกติ (นี่เป็นความจริงที่รู้จักกันดีตั้งแต่ยุค 70 แต่ยังคงถูกค้นพบใหม่เป็นระยะให้ดูตัวอย่างเช่น

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

ตอนนี้ในกรณีของต้นไม้ถดถอยความจริงที่ว่า CART ใช้มาร์จิ้น (หรือฉายภาพแบบ univariate) สามารถใช้ได้: ใคร ๆ ก็นึกถึงเวอร์ชันของ CART ที่ SD criterion ถูกแทนที่ด้วย MAD ที่แข็งแกร่งกว่าหรือดีกว่า ตัวประมาณ Qn)

แก้ไข:

เมื่อเร็ว ๆ นี้ฉันได้พบกับกระดาษเก่าที่ใช้แนวทางที่แนะนำข้างต้น สิ่งนี้จะบอกถึงความทนทานต่อ "y" ค่าผิดปกติของ CART / RF (แต่ไม่ใช่ค่าผิดพลาดที่ตั้งอยู่ในพื้นที่การออกแบบซึ่งจะมีผลต่อการประมาณค่าพารามิเตอร์มากเกินไปของโมเดล)

Galimberti, G. , Pillati, M. , & Soffritti, G. (2007) โครงสร้างการถดถอยที่แข็งแกร่งขึ้นอยู่กับตัวประเมิน M Statistica, LXVII, 173–190


ขอบคุณ kwak บทความนี้ดูเหมือนจะพูดถึงวิธีการเพิ่มประสิทธิภาพ ผลลัพธ์ที่พวกเขาค้างไว้สำหรับกรณีตัวจําแนกอย่างง่ายของโมเดล CART หรือไม่ (บนพื้นผิวที่มันเสียงเหมือนมัน แต่ผมไม่ได้ไปผ่านพอบทความเพื่อทราบจริงๆ)
Tal Galili

ผลลัพธ์ที่พวกเขามีอยู่สำหรับฟังก์ชั่นการสูญเสียนูนและถูกกล่าวถึงครั้งแรกโดย Tukey เพื่อสรุปสิ่งต่าง ๆ การวัดการแพร่กระจาย (Gini หรือเอนโทรปี) ที่ใช้ในการวัดคุณภาพของโหนดนั้นมีความอ่อนไหวต่อการปนเปื้อนจากผู้ผิดกฎหมาย (เช่นการสังเกตที่มีป้ายกำกับพลาดในชุดข้อมูล) ปัญหานี้ส่งผลกระทบต่อทั้งสิ่งปลูกสร้างและขั้นตอนที่น่าทึ่ง การปนเปื้อนของชุดข้อมูลโดยการสังเกตด้วยป้ายชื่อที่ใส่ผิดจะทำให้ต้นไม้ที่เกิดนั้นซับซ้อนเกินไป (คุณสามารถตรวจสอบได้ด้วยตัวเอง)
user603

ขอบคุณ Kwak! และไม่มีฟังก์ชั่นการสูญเสียที่แข็งแกร่งหรือไม่?
Tal Galili

1
ไม่มีฟังก์ชั่นการสูญเสียนูน ดูบทความนี้ "อัลกอริทึมที่รวดเร็วสำหรับตัวประมาณค่าความแปรปรวนร่วมขั้นต่ำ" สำหรับตัวอย่างของสิ่งที่สามารถทำได้ด้วยฟังก์ชั่นการสูญเสียที่ไม่นูน (แม้ว่าจะไม่เกี่ยวข้องกับการจำแนกประเภท แต่บทความก็คุ้มค่าที่จะอ่าน)
user603

2
@Tal CART นั้นเทียบเท่ากับการเพิ่มของ "pivot classifier" (เกณฑ์ที่อยู่ในแต่ละโหนดของต้นไม้เช่นเดียวกับแอตทริบิวต์บางตัวที่น่ากลัวกว่าบางสิ่งหรือค่าของคุณลักษณะบางอย่างในการตั้งค่าบางอย่าง)

6

คุณอาจพิจารณาใช้Breiman ของห่อหรือสุ่มป่า หนึ่งในการอ้างอิงที่ดีคือBreiman "Bagging Predictors" (1996) ยังสรุปไว้ใน"ต้นไม้การจำแนกและการถดถอยการบรรจุและการส่งเสริม"ของClifton Sutton ในคู่มือสถิติ

คุณสามารถดูการสนทนา Andy Liaw และ Matthew Wiener Rของแพ็คเกจสุ่มป่าไม้


2
เพื่อไม่ให้เสียปาร์ตี้ แต่ป่าสุ่มควรจะให้ความแข็งแกร่งต่อการปนเปื้อนโดยผู้ผิดกฏหมายได้อย่างไร
user603

3
@kwak ยังเป็นคำตอบที่ดี ต้นไม้ใน RF ไม่เห็นทั้งชุดดังนั้นจำนวนมากจะไม่ถูกปนเปื้อน ยิ่งไปกว่านั้นการติดตามว่าในกรณีใดบ้างที่ OOB สามารถใช้ที่ดินในการค้นหาใบไม้ที่ติดฉลากผิดและกำจัดทิ้งได้ (อย่างที่ฉันจำได้ในตอนนี้สิ่งนี้ถูกกล่าวถึงในกระดาษของ Breiman เกี่ยวกับ RF)

4
ปัญหาคือผู้ผิดกฎหมายจะทำให้ต้นไม้ที่ 'ไม่ดี' (เช่นมีการปนเปื้อน) ดูดีกว่าต้นไม้ที่ไม่ปนเปื้อน สิ่งนี้เรียกว่าการพรางภาพและง่ายต่อการทำซ้ำกับข้อมูลจำลอง ปัญหาเกิดขึ้นเพราะเกณฑ์ที่คุณใช้ในการประเมินต้นไม้ไม่ได้อยู่ในสภาพที่แข็งแรงต่อค่าผิดปกติ ฉันรู้ว่าฉันเริ่มจะฟังดูเหมือนอิสลามหัวรุนแรง แต่ถ้าเครื่องมือทุกอย่างที่คุณใช้นั้นมีความทนทานขั้นตอนของคุณจะแสดงให้เห็นว่ามีความละเอียดอ่อน (ในระดับหนึ่งหรืออีกระดับหนึ่ง) เป็นค่าผิดปกติ
user603

3

หากคุณตรวจสอบแพ็คเกจ 'gbm' ใน R (การไล่ระดับสีทั่วไป) การ 'เพิ่ม' ใช้ฟังก์ชันการสูญเสียที่ไม่จำเป็นต้องหมายถึงข้อผิดพลาดกำลังสอง สิ่งนี้จะปรากฏในอาร์กิวเมนต์ 'การแจกจ่าย' เพื่อใช้งาน 'gbm ()' ดังนั้นความประณีตของต้นไม้ด้วยการส่งเสริมจะทำให้ต้านทานต่อค่าผิดปกติคล้ายกับวิธีการทำงานของตัวประมาณค่า M

คุณอาจจะเริ่มต้นที่นี่

อีกวิธีหนึ่งคือการสร้างต้นไม้ด้วยวิธีปกติ (พาร์ทิชันที่ยึดตาม SSE) แต่ตัดต้นไม้โดยใช้การตรวจสอบความถูกต้องของครอสกับการวัดที่เหมาะสม ฉันคิดว่า xpred ใน rpart จะให้ตัวทำนายที่ผ่านการตรวจสอบข้าม (สำหรับความซับซ้อนของต้นไม้ที่แตกต่างกัน) ซึ่งคุณสามารถใช้การวัดความผิดพลาดของคุณเองเช่นค่าเฉลี่ยสัมบูรณ์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.