ต้นไม้ CART จับการโต้ตอบระหว่างผู้ทำนายหรือไม่?


9

บทความนี้อ้างว่าใน CART เนื่องจากมีการดำเนินการแยกแบบไบนารีใน covariate เดียวในแต่ละขั้นตอนการแยกทั้งหมดเป็นแบบมุมฉากดังนั้นจึงไม่ถือว่าการมีปฏิสัมพันธ์ระหว่าง covariates

อย่างไรก็ตามมีการอ้างอิงที่จริงจังมากที่อ้างว่าโครงสร้างแบบลำดับชั้นของต้นไม้รับประกันได้ว่าการโต้ตอบระหว่างตัวทำนายจะถูกสร้างแบบจำลองโดยอัตโนมัติ (เช่นเอกสารนี้และแน่นอน Hastie)

ถูกต้องใคร ต้นไม้ที่ปลูกในรถเข็นสามารถจับการโต้ตอบระหว่างตัวแปรอินพุตได้ไหม


ข้อบกพร่องในการโต้แย้งคือการแยกจะทำในส่วนย่อยของ covariates ที่กำหนดโดยแยกทำก่อนหน้านี้

@mbq ดังนั้นการแบ่งใหม่มีเงื่อนไขด้วยความเคารพต่อการแยกก่อนหน้านี้ ... ฉันเห็น ... ฉันเดาว่าฉันมีปัญหาในการทำความเข้าใจว่า "เงื่อนไขโดยการแบ่งก่อนหน้านี้ที่ทำกับตัวทำนายที่กำหนด" เทียบเท่ากับ "การโต้ตอบกับตัวทำนายนี้ "...
แอนทอน

คำตอบ:


12

CART สามารถจับภาพเอฟเฟกต์การโต้ตอบได้ ผลการปฏิสัมพันธ์ระหว่างและเกิดขึ้นเมื่อผลของตัวแปรอธิบายตัวแปรตอบสนองขึ้นอยู่กับระดับของX_2สิ่งนี้เกิดขึ้นในตัวอย่างต่อไปนี้:X1X2X1YX2

ป้อนคำอธิบายรูปภาพที่นี่

ผลกระทบของภาวะเศรษฐกิจที่ไม่ดี (เรียกนี้) ขึ้นอยู่กับประเภทของอาคารที่กำลังซื้อ ( ) เมื่อลงทุนในอาคารสำนักงานภาวะเศรษฐกิจที่ไม่ดีจะทำให้มูลค่าการลงทุนที่คาดการณ์ไว้ลดลง 140,000 ดอลลาร์ แต่เมื่อลงทุนในอาคารอพาร์ตเมนต์มูลค่าคาดการณ์ของการลงทุนจะลดลง 20,000 ดอลลาร์ ผลกระทบของภาวะเศรษฐกิจที่ไม่ดีต่อมูลค่าที่คาดการณ์ของการลงทุนของคุณขึ้นอยู่กับประเภทของอสังหาริมทรัพย์ที่กำลังซื้อ นี่คือเอฟเฟกต์การโต้ตอบX1X2


3

คำตอบสั้น ๆ

รถเข็นต้องการความช่วยเหลือในการจับภาพการโต้ตอบ

คำตอบที่ยาว

ใช้อัลกอริทึมโลภที่แน่นอน (Chen และ Guestrin, 2016):

อัลกอริทึมโลภที่แน่นอน

ค่าเฉลี่ยของใบไม้จะเป็นความคาดหวังตามเงื่อนไข แต่ทุก ๆ ทางที่ไปทางใบไม้จะเป็นอิสระจากสิ่งอื่น หากฟีเจอร์ A ไม่สำคัญด้วยตัวมันเอง แต่มันสำคัญในการโต้ตอบกับฟีเจอร์ B อัลกอริธึมจะไม่แยกบนฟีเจอร์ A หากไม่มีการแบ่งนี้อัลกอริทึมจะไม่สามารถแยกส่วนบนฟีเจอร์ B ได้ซึ่งจำเป็นในการสร้างการโต้ตอบ

ต้นไม้สามารถเลือกการโต้ตอบในสถานการณ์ที่ง่ายที่สุด หากคุณมีชุดข้อมูลที่มีคุณสมบัติสองอย่างคือและเป้าหมายอัลกอริธึมจะไม่มีอะไรแยกเลยนอกจากและดังนั้นคุณจะได้รับสี่ใบโดยประมาณไว้อย่างเหมาะสมx1,x2y=XOR(x1,x2)x1x2XOR

ด้วยคุณสมบัติมากมายการทำให้เป็นปกติและขีด จำกัด ที่ยากของจำนวนการแยกอัลกอริทึมเดียวกันสามารถละเว้นการโต้ตอบได้

วิธีการแก้ปัญหา

การโต้ตอบที่ชัดเจนเป็นคุณสมบัติใหม่

ตัวอย่างจากจาง ("การแข่งขันวิทยาศาสตร์ข้อมูลที่ชนะ", 2015):

จางบนการโต้ตอบ

อัลกอริทึมต้นไม้ที่ไม่โลภ

ในคำถามอื่น ๆ Simone แสดงให้เห็นขั้นตอนวิธีการ lookahead-based และต้นไม้ตัดสินใจเฉียง

แนวทางการเรียนรู้ที่แตกต่าง

วิธีการเรียนรู้บางอย่างจัดการปฏิสัมพันธ์ได้ดีขึ้น

นี่คือตารางจากองค์ประกอบของการเรียนรู้ทางสถิติ (บรรทัด "ความสามารถในการแยกชุดค่าผสมเชิงเส้นของคุณลักษณะ"):

เปรียบเทียบวิธีการเรียนรู้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.