วิธีการเลือกจำนวนของการแยกใน rpart ()?


9

ฉันได้ใช้rpart.controlสำหรับการminsplit=2และได้ผลลัพธ์ที่ต่อไปนี้จากrpart()ฟังก์ชั่น เพื่อหลีกเลี่ยงการโอเวอร์โหลดข้อมูลฉันต้องใช้แยก 3 หรือแยก 7 หรือไม่ ฉันไม่ควรใช้ splits 7 ใช่ไหม โปรดแจ้งให้เราทราบ

ตัวแปรที่ใช้จริงในการสร้างต้นไม้:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

1
ฉันตอบคำถามนี้ในการติดตามผลที่คุณโพสต์ไปที่คำถามก่อนหน้านี้เนื่องจากไม่จำเป็นต้องทำสิ่งนี้ ฉันบอกว่าคุณไม่ควรแก้ไข Q เพื่อติดตามผลสำหรับการอ้างอิงในอนาคต !
Gavin Simpson

1
เพื่อหลีกเลี่ยงการค้นหาสำหรับคำถามที่เกี่ยวข้องในอนาคตนี่คือการเชื่อมโยงไปก่อนหน้านี้ Q: การstats.stackexchange.com/questions/13446/...
chl

คำตอบ:


10

การประชุมคือการใช้ทรีที่ดีที่สุด (ข้อผิดพลาดสัมพัทธ์ข้ามการตรวจสอบต่ำสุด) หรือทรีที่เล็กที่สุด (ง่ายที่สุด) ภายในข้อผิดพลาดมาตรฐานเดียวของทรีที่ดีที่สุด ต้นไม้ที่ดีที่สุดอยู่ในแถว 8 (7 แยก) แต่ต้นไม้ในแถว 7 (6 แยก) ทำหน้าที่เดียวกันได้อย่างมีประสิทธิภาพ ( xerrorสำหรับต้นไม้ในแถว 7 = 0.21761 ซึ่งอยู่ภายใน (เล็กกว่า) xerrorต้นไม้ที่ดีที่สุดบวกหนึ่งมาตรฐาน ข้อผิดพลาด, xstd(0.21076 + 0.042196) = 0.252956) และง่ายขึ้นดังนั้นกฎข้อผิดพลาดมาตรฐาน 1 ข้อจะเลือก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.