การเลือกพารามิเตอร์ความซับซ้อนใน CART


16

ในรูทีน rpart () เพื่อสร้างโมเดลรถเข็นคุณระบุพารามิเตอร์ความซับซ้อนที่คุณต้องการตัดต้นไม้ของคุณ ฉันเห็นคำแนะนำที่แตกต่างกันสองข้อสำหรับการเลือกพารามิเตอร์ความซับซ้อน:

  1. เลือกพารามิเตอร์ความซับซ้อนที่เกี่ยวข้องกับข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ วิธีนี้แนะนำโดยQuick-Rและ HSAUR

  2. เลือกพารามิเตอร์ความซับซ้อนที่ยิ่งใหญ่ที่สุดซึ่งมีข้อผิดพลาดการตรวจสอบข้ามโดยประมาณยังอยู่ใน SE ของข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ นี่คือการตีความเอกสารแพคเกจของฉันซึ่งบอกว่า: "ตัวเลือกที่ดีของ cp สำหรับการตัดแต่งมักเป็นค่าทางซ้ายสุดที่ค่าเฉลี่ยอยู่ต่ำกว่าเส้นแนวนอน" ในการอ้างอิงถึงพล็อตนี้

cp สองตัวเลือกให้สร้างต้นไม้ที่แตกต่างกันมากในชุดข้อมูลของฉัน

ดูเหมือนว่าวิธีแรกจะสร้างต้นไม้ที่มีความซับซ้อนมากขึ้นและอาจมีการติดตั้งมากเกินไป มีข้อดีข้อเสียคำแนะนำในวรรณคดีอื่น ๆ หรือไม่ฉันควรพิจารณาเมื่อตัดสินใจว่าจะใช้วิธีการใด ฉันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาการสร้างแบบจำลองเฉพาะของฉันได้หากจะมีประโยชน์ แต่ฉันพยายามทำให้คำถามนี้กว้างพอที่จะเกี่ยวข้องกับคนอื่น


เส้นแนวนอนในโครงเรื่องแสดงถึงอะไร?
Bogdanovist

ฉันเชื่อว่ามันหมายถึง 1 SE ข้างต้นข้อผิดพลาดข้ามการตรวจสอบขั้นต่ำที่เป็นไปได้
ครึ่ง

หากคุณมีข้อมูลเพียงพอคุณสามารถลองแยกมันออกเป็นชุดฝึกอบรมและทดสอบข้อมูลแม้แต่ต้นไม้ สิ่งนี้อาจมีประโยชน์อย่างยิ่งหากคุณสนใจในการทำนายเป็นหลักเนื่องจากชุดข้อมูลการทดสอบจะให้การประมาณที่ดี อีกทางเลือกหนึ่งคือpartyแพ็คเกจที่ใช้การทดสอบอย่างมีนัยสำคัญ (ไม่ใช่สิ่งที่ฉันแนะนำ แต่ดูเหมือนว่าจะเกี่ยวข้องกับที่นี่) แม้ว่าเช่นเคยการทดสอบที่ดีที่สุดคือประโยชน์และความรู้สึก โดยเฉพาะอย่างยิ่งหากคุณสนใจคำอธิบายเป็นหลัก
Peter Flom - Reinstate Monica

ฉันขอโทษสำหรับการตอบสนองช้า เพื่อชี้แจงฉันคิดว่าโดยการใช้การตรวจสอบข้ามเพื่อคำนวณข้อผิดพลาดที่ขนาดต้นไม้ที่แตกต่างกันฉันได้แยกข้อมูลอย่างมีประสิทธิภาพซ้ำแล้วซ้ำอีกในชุดการฝึกอบรมและการทดสอบ การแยกการฝึกอบรม / การทดสอบอื่นจะเป็นการสำรองในกรณีนั้นหรือไม่ ฉันเข้าใจคุณผิดหรือเปล่า?
half-pass

การแบ่งข้อมูลในรถไฟ / การทดสอบและการตรวจสอบความถูกต้องของพารามิเตอร์ cp โดยใช้ข้อมูลรถไฟเท่านั้นจะทำซ้ำการทดสอบการทำนายที่เหมือนจริง (ซึ่งคุณไม่สามารถใช้ข้อมูลในอนาคตเพื่อประเมิน cp) ดังนั้น CV แรกจะเป็น cp ข้อผิดพลาดในการทำนายสำหรับโมเดลโดยรวม (รวมถึง cp โดยประมาณ)
Robert Kubrick

คำตอบ:


6

ในทางปฏิบัติฉันได้เห็นทั้งสองแนวทางและฉันคิดว่าโดยทั่วไปผลลัพธ์ของคุณจะไม่ได้รับการคาดหวังว่าจะแตกต่างกันมากนัก

ที่ถูกกล่าวว่า Hastie et al แนะนำกฎ "ข้อผิดพลาดมาตรฐานเดียว" ในองค์ประกอบของการเรียนรู้ทางสถิติและฉันมักจะเชื่อมั่นการตัดสินใจของพวกเขา (มาตรา 7.10, pg. 244 ในรุ่นของฉัน) คำพูดที่เกี่ยวข้องคือ:

บ่อยครั้งที่กฎ "ข้อผิดพลาดมาตรฐานเดียว" ถูกนำมาใช้กับการตรวจสอบความถูกต้องข้ามซึ่งเราเลือกรูปแบบที่มีค่ามากที่สุดซึ่งข้อผิดพลาดไม่เกินหนึ่งข้อผิดพลาดมาตรฐานเหนือข้อผิดพลาดของแบบจำลองที่ดีที่สุด "

สัญชาตญาณของคุณว่าทำไมใครจะปฏิบัติตามกฎข้อผิดพลาดมาตรฐานเดียว - คุณจะทำเช่นนั้นเพื่อหลีกเลี่ยงการเลือกรูปแบบที่เหมาะสมกับข้อมูล


1

คุณควรเริ่มต้นด้วยการใช้อาร์กิวเมนต์minsplit=0และcp=0(พารามิเตอร์ความซับซ้อน) จากนั้นใช้ฟังก์ชันplotcp(T.max)และprintcp(T.max)เลือกค่าของcpข้อผิดพลาดสัมพัทธ์ขั้นต่ำที่สอดคล้องกันและตัดต้นไม้ตามฟังก์ชันprune.rpart(T.max, cp=....)

สิ่งนี้จะทำให้คุณได้รับแผนภูมิการจำแนกที่เหมาะสมเนื่องจากมีแนวโน้มที่จะมองโลกในแง่ดีเกินไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.