CHAID vs CRT (หรือรถเข็น)


23

ฉันใช้การจำแนกประเภทต้นไม้ตัดสินใจโดยใช้SPSSในชุดข้อมูลที่มีตัวพยากรณ์ประมาณ 20 ตัว (จัดหมวดหมู่ด้วยบางประเภท) CHAID (การตรวจจับปฏิกิริยาอัตโนมัติไคสแควร์) และ CRT / CART (การจำแนกและต้นไม้การถดถอย) กำลังให้ต้นไม้ที่ต่างกัน ใครสามารถอธิบายข้อดีของ CHAID กับ CRT ได้บ้าง ความหมายของการใช้วิธีหนึ่งกับอีกวิธีหนึ่งคืออะไร?

คำตอบ:


23

ฉันจะแสดงรายการคุณสมบัติบางอย่างและในภายหลังให้การประเมินของฉันสำหรับสิ่งที่คุ้มค่า:

  • CHAID ใช้การแยกหลายทางโดยค่าเริ่มต้น (การแยกหลายทางหมายความว่าโหนดปัจจุบันถูกแบ่งออกเป็นสองโหนดมากกว่า) สิ่งนี้อาจจะหรืออาจไม่เป็นที่ต้องการ แม้ว่ามันจะทำอะไรได้บ้าง แต่บางขนาดของโหนดในบางและทำให้ต้นไม้ที่อยู่ลึกน้อยลง เมื่อใช้เพื่อจุดประสงค์ในการแบ่งกลุ่มสิ่งนี้สามารถย้อนกลับมาได้ในไม่ช้าเนื่องจาก CHAID ต้องการตัวอย่างขนาดใหญ่เพื่อให้ทำงานได้ดี CART ทำการแยกแบบไบนารี (แต่ละโหนดจะแบ่งออกเป็นสองโหนดย่อย) โดยค่าเริ่มต้น
  • CHAID มีวัตถุประสงค์เพื่อทำงานกับเป้าหมายที่เป็นหมวดหมู่ / แบบแยกส่วน (XAID สำหรับการถดถอย แต่บางทีพวกเขาอาจถูกรวมเข้าด้วยกันตั้งแต่นั้นเป็นต้นมา) รถเข็นสามารถทำการถดถอยและการจำแนกประเภทได้อย่างแน่นอน
  • CHAID ใช้ความคิดก่อนการตัดแต่งกิ่ง โหนดจะแตกเท่านั้นถ้าเป็นไปตามเกณฑ์ที่มีนัยสำคัญ สิ่งนี้เกี่ยวข้องกับปัญหาข้างต้นที่ต้องการตัวอย่างขนาดใหญ่เนื่องจากการทดสอบ Chi-Square มีพลังงานเพียงเล็กน้อยในตัวอย่างขนาดเล็ก (ซึ่งจะลดลงอย่างมีประสิทธิภาพยิ่งขึ้นโดยการแก้ไข Bonferroni สำหรับการทดสอบหลายรายการ) รถเข็นในอีกทางหนึ่งเติบโตต้นไม้ขนาดใหญ่แล้วโพสต์พรุนต้นไม้กลับไปเป็นรุ่นที่เล็กกว่า
  • ดังนั้น CHAID จึงพยายามป้องกันไม่ให้เกิดการ overfittingตั้งแต่เริ่มต้น (มีเพียงการแบ่งเท่านั้นที่มีการเชื่อมโยงที่สำคัญ) ในขณะที่CART อาจ overfit ได้อย่างง่ายดายเว้นแต่ต้นไม้จะถูกตัดแต่งกลับ ในทางกลับกันสิ่งนี้ทำให้ CART ทำงานได้ดีกว่า CHAID ทั้งในและนอกตัวอย่าง (สำหรับชุดพารามิเตอร์การปรับที่กำหนด)
  • ความแตกต่างที่สำคัญที่สุดในความคิดของฉันคือการที่ตัวแปรแยกและแยกการเลือกจุดใน CHAID จะได้อายน้อยลงอย่างมากเช่นเดียวกับในรถเข็นสินค้า นี่เป็นเรื่องที่ไม่เกี่ยวข้องอย่างมากเมื่อต้นไม้ถูกนำมาใช้ในการทำนาย แต่เป็นปัญหาที่สำคัญเมื่อต้นไม้ถูกใช้ในการตีความ: ต้นไม้ที่มีทั้งสองส่วนของอัลกอริทึมที่สับสนสูงกล่าวกันว่าเป็น "ลำเอียงในการเลือกตัวแปร" . ซึ่งหมายความว่าการเลือกตัวแปรแบบแยกต้องเลือกตัวแปรที่มีตัวแยกที่เป็นไปได้จำนวนมาก รถเข็นนั้น "เอนเอียง" อย่างมากในแง่นั้น CHAID ไม่มากนัก
  • ด้วยตัวแทนแยก CART รู้วิธีจัดการกับค่าที่หายไป (แยกตัวแทนหมายความว่ามีค่าขาดหายไป (NAs) สำหรับตัวแปรตัวทำนายอัลกอริทึมใช้ตัวแปรตัวทำนายอื่น ๆ ที่ไม่ "ดี" เป็นตัวแปรแยกหลัก แต่เลียนแบบแยกที่ผลิตโดยหลัก แยก) CHAID ไม่มีสิ่งนั้น afaik

ดังนั้นขึ้นอยู่กับสิ่งที่คุณต้องการสำหรับฉันขอแนะนำให้ใช้ CHAID ถ้ากลุ่มตัวอย่างมีขนาดบางและลักษณะของการตีความมีความสำคัญมากกว่า นอกจากนี้หากต้องการแยกหลายทางหรือต้นไม้ขนาดเล็ก CHAID จะดีกว่า รถเข็นในอีกทางหนึ่งเป็นเครื่องทำนายผลที่ทำงานได้ดีดังนั้นหากการทำนายเป็นเป้าหมายของคุณ


1
(+1) ภาพรวมที่ดี คุณช่วยอธิบายได้ว่า "หลายทางแยก" และ "แยกตัวแทน" คืออะไร? มีการแยกหลายทางหรือไม่หากแยกไม่ได้แยกสองทาง?
COOLSerdash

1
@Momo: ขอบคุณมากสำหรับคำตอบที่อัพเดท เกี่ยวกับการแยกหลายทางฉันได้พบคำแถลงที่น่าสนใจต่อไปนี้จาก Hastie และคณะ (2013) องค์ประกอบของการเรียนรู้ทางสถิติ : "[... ] ในขณะที่ [multiway splits] บางครั้งอาจมีประโยชน์ แต่ก็ไม่ได้เป็นกลยุทธ์ทั่วไปที่ดี [... ] เนื่องจากการแยก multiway สามารถทำได้ด้วยชุดของไบนารี แยกหลังเป็นที่ต้องการ " ฉันสงสัยว่านี่เป็นจริงแน่นอนตามที่พวกเขาระบุ (ฉันไม่ค่อยมีประสบการณ์ในการเรียนรู้ด้วยเครื่อง) แต่ในทางกลับกันหนังสือของพวกเขาถือเป็นข้อมูลอ้างอิง
COOLSerdash

ใช่ชุดของการแยกแบบไบนารีสามารถเหมือนกับการแยกแบบหลายทางได้ พวกเขายังสามารถแตกต่างกัน ฉันมักจะเห็นด้วยกับคำสั่ง อีกสิ่งหนึ่งที่ควรทราบคือการค้นหาจุดแยกด้วยการค้นหาแบบละเอียดนั้นง่ายกว่าและเร็วกว่าสำหรับการแยกแบบไบนารีของโหนดที่ระบุ
Momo

คำตอบที่สมบูรณ์มาก ฉันใช้ CHAID ใน reaserch ที่มีฐานข้อมูลมากกว่า 100,000 รายการ ในระดับนี้การจำแนกมีความแม่นยำมาก แต่ฉันขอแนะนำให้ลองสองสามครั้งด้วยจำนวนพาร์ติชันที่แตกต่างกันและระดับความลึกน้อยกว่าของทรี (ซอฟต์แวร์ SPSS อนุญาตให้กำหนดพารามิเตอร์นี้ก่อนหน้านี้) นี่เป็นเพราะ CHAID สร้างการจำแนกประเภทต้นไม้ที่มีหลาย grups (multisplit) และแย่กว่านั้นถ้าฐานข้อมูลมีขนาดใหญ่ ต้นไม้สุดท้ายจะมีขนาดใหญ่มาก สุดท้ายอย่าลืมใช้ "การควบคุมภายใน" ของการแบ่งตัวอย่างของฐานข้อมูล ดูโครงสร้างการจำแนก SPSS ด้วยตนเองที่มีอยู่ใน goo
user35523

คำถามคืออะไร?
Madhu Sareen

8

วิธีการแบบต้นไม้เดี่ยวทั้งหมดเกี่ยวข้องกับการเปรียบเทียบหลายแบบที่ทำให้เกิดความไม่แน่นอนอย่างมาก นั่นเป็นเหตุผลว่าทำไมการบรรลุถึงการเลือกปฏิบัติที่คาดการณ์ได้อย่างน่าพอใจบางรูปแบบของค่าเฉลี่ยของต้นไม้ (การห่อ, การส่งเสริม, การป่าสุ่ม) เป็นสิ่งที่จำเป็น (ยกเว้นว่าคุณสูญเสียความได้เปรียบของต้นไม้ - การตีความ) ความเรียบง่ายของต้นไม้ต้นเดียวเป็นภาพลวงตา มันเรียบง่ายเพราะพวกมันผิดในแง่ที่ว่าการฝึกอบรมต้นไม้ไปยังชุดย่อยจำนวนมากของข้อมูลจะเปิดเผยความขัดแย้งระหว่างโครงสร้างต้นไม้

ฉันไม่ได้ดูวิธีการ CHAID ที่ผ่านมา แต่ CHAID ในการจุติมาเกิดเดิมเป็นการออกกำลังกายที่ยอดเยี่ยมในการตีความข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.