คำถามติดแท็ก cart

'ต้นไม้จำแนกและถดถอย' รถเข็นเป็นเทคนิคการเรียนรู้ของเครื่องที่ได้รับความนิยมและเป็นพื้นฐานสำหรับเทคนิคเช่นฟอเรสต์แบบสุ่มและการใช้งานทั่วไปของเครื่องเพิ่มระดับความลาดชัน

2
ป่าสุ่มที่มีผลผลิตหลายรายการจะเป็นไปได้ / ในทางปฏิบัติหรือไม่?
ป่าสุ่ม (RFs) เป็นการสร้างแบบจำลองข้อมูลการแข่งขัน / วิธีการขุด RF model มีหนึ่งเอาต์พุต - ตัวแปรเอาต์พุต / การทำนาย วิธีการที่ไร้เดียงสาในการสร้างแบบจำลองเอาต์พุตจำนวนมากที่มี RFs คือการสร้าง RF สำหรับตัวแปรเอาต์พุตแต่ละตัว ดังนั้นเราจึงมีโมเดลอิสระ N และที่ใดที่มีความสัมพันธ์ระหว่างตัวแปรเอาต์พุตเราจะมีโครงสร้างโมเดลซ้ำซ้อน / ซ้ำกัน นี่อาจสิ้นเปลืองอย่างมากแน่นอน นอกจากนี้ในฐานะที่เป็นกฎทั่วไปมากขึ้นตัวแปรรูปแบบหมายถึงรูปแบบ overfit มากขึ้น (การวางหลักเกณฑ์ทั่วไปน้อยกว่า) ไม่แน่ใจว่าสิ่งนี้ใช้ที่นี่ แต่อาจเป็นไปได้ โดยหลักการแล้วเราอาจมี RF ที่มีเอาต์พุตหลายตัว ตัวแปรการทำนายตอนนี้เป็นเวกเตอร์ (n-tuple) โหนดการตัดสินใจในต้นไม้การตัดสินใจแต่ละชุดจะแยกชุดของเวกเตอร์เป้าหมาย / การทำนายโดยใช้เวกเตอร์จุดเริ่มต้นฉันคิดว่าเกณฑ์นี้ถูกนำมาใช้เป็นระนาบในพื้นที่ n- มิติดังนั้นเราจึงสามารถกำหนดด้านใดของเกณฑ์ เวกเตอร์เป้าหมายแต่ละตัวเปิดอยู่ ค่าการทำนายที่เหมาะสมที่สุดสำหรับแต่ละด้านของการแยกการตัดสินใจคือค่าเฉลี่ย (centroid) ที่คำนวณสำหรับเวกเตอร์ในแต่ละด้าน การค้นหาจุดแยกที่เหมาะสมที่สุดเมื่อทำงานกับตัวแปรเดี่ยวนั้นมีความสำคัญและรวดเร็ว / มีประสิทธิภาพในการคำนวณ สำหรับ n-tuple เราไม่สามารถหาการแยกที่ดีที่สุด (หรืออย่างน้อยก็กลายเป็น …

2
การเลือกพารามิเตอร์ความซับซ้อนใน CART
ในรูทีน rpart () เพื่อสร้างโมเดลรถเข็นคุณระบุพารามิเตอร์ความซับซ้อนที่คุณต้องการตัดต้นไม้ของคุณ ฉันเห็นคำแนะนำที่แตกต่างกันสองข้อสำหรับการเลือกพารามิเตอร์ความซับซ้อน: เลือกพารามิเตอร์ความซับซ้อนที่เกี่ยวข้องกับข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ วิธีนี้แนะนำโดยQuick-Rและ HSAUR เลือกพารามิเตอร์ความซับซ้อนที่ยิ่งใหญ่ที่สุดซึ่งมีข้อผิดพลาดการตรวจสอบข้ามโดยประมาณยังอยู่ใน SE ของข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ นี่คือการตีความเอกสารแพคเกจของฉันซึ่งบอกว่า: "ตัวเลือกที่ดีของ cp สำหรับการตัดแต่งมักเป็นค่าทางซ้ายสุดที่ค่าเฉลี่ยอยู่ต่ำกว่าเส้นแนวนอน" ในการอ้างอิงถึงพล็อตนี้ cp สองตัวเลือกให้สร้างต้นไม้ที่แตกต่างกันมากในชุดข้อมูลของฉัน ดูเหมือนว่าวิธีแรกจะสร้างต้นไม้ที่มีความซับซ้อนมากขึ้นและอาจมีการติดตั้งมากเกินไป มีข้อดีข้อเสียคำแนะนำในวรรณคดีอื่น ๆ หรือไม่ฉันควรพิจารณาเมื่อตัดสินใจว่าจะใช้วิธีการใด ฉันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาการสร้างแบบจำลองเฉพาะของฉันได้หากจะมีประโยชน์ แต่ฉันพยายามทำให้คำถามนี้กว้างพอที่จะเกี่ยวข้องกับคนอื่น
16 r  cart  rpart 

1
ผลรวมของต้นไม้ตัดสินใจสองอันนั้นเท่ากับต้นไม้ตัดสินใจเดี่ยวหรือไม่?
สมมติว่าเรามีต้นไม้สองถดถอย (ต้นไม้และต้นไม้ B) ที่ป้อนข้อมูลแผนที่การส่งออกปี ∈ R Let Y = F ( x )สำหรับต้นไม้และฉB ( x )ต้นไม้บีต้นไม้แต่ละต้นใช้ไบนารีแยกกับ hyperplanes เป็นฟังก์ชั่นแยกx ∈ Rdx∈Rdx \in \mathbb{R}^dY^∈ RY^∈R\hat{y} \in \mathbb{R}Y^= fA( x )Y^=ฉA(x)\hat{y} = f_A(x)ฉB( x )ฉB(x)f_B(x) ทีนี้สมมติว่าเรารับผลรวมถ่วงน้ำหนักของต้นไม้ออกมา: ฉค( x ) = wA ฉA( x ) + wB ฉB( x )ฉค(x)=WA ฉA(x)+WB ฉB(x)f_C(x) = w_A …

1
Gini ลดลงและ Gini ไม่บริสุทธิ์ของโหนดลูก
ฉันกำลังทำงานกับตัววัดความสำคัญของคุณลักษณะ Gini สำหรับฟอเรสต์แบบสุ่ม ดังนั้นฉันจำเป็นต้องคำนวณการลดลงของ Gini ในโหนดที่ไม่บริสุทธิ์ นี่คือวิธีที่ฉันทำซึ่งนำไปสู่ความขัดแย้งกับคำนิยามแนะนำว่าฉันต้องผิดที่ไหนสักแห่ง ... :) สำหรับต้นไม้ไบนารีและได้รับความน่าจะเป็นของลูกซ้ายและขวาฉันสามารถคำนวณความไม่บริสุทธิ์ของ Gini ของโหนด :nnn i(n)=1−p2l−p2ri(n)=1−pl2−pr2 i(n) = 1 - p_l^2 - p_r^2 และ Gini ลดลง: Δi(n)=i(n)−pli(nl)−pri(nr)Δi(n)=i(n)−pli(nl)−pri(nr) \Delta i(n) = i(n) - p_li(n_l) - p_ri(n_r) ดังนั้นสำหรับตัวอย่างนี้มีการสังเกต 110 จุดบนโหนด: - node (110) - left (100) - left_left (60) - left_right (40) - right …

2
การแบ่งพาร์ติชันต้นไม้ใน R: party vs. rpart
ไม่นานมานี้ตั้งแต่ฉันดูที่การแยกต้นไม้ ครั้งล่าสุดที่ฉันทำสิ่งนี้ฉันชอบปาร์ตี้ใน R (สร้างโดย Hothorn) แนวคิดของการอนุมานแบบมีเงื่อนไขผ่านการสุ่มตัวอย่างทำให้ฉันมีเหตุผล แต่ rpart ก็มีการอุทธรณ์ ในแอปพลิเคชันปัจจุบัน (ฉันไม่สามารถให้รายละเอียดได้ แต่เกี่ยวข้องกับการพยายามกำหนดว่าใครจะเข้าคุกในกลุ่มตัวอย่างขนาดใหญ่ของผู้ถูกจับกุม) ฉันไม่สามารถใช้วิธีการขั้นสูงเช่นป่าสุ่มการบรรจุถุงการส่งเสริมเป็นต้น - ฉันต้องการความสะดวก กฎ. ฉันจะยังชอบที่จะมีบางส่วนที่ควบคุมด้วยตนเองมากกว่าที่โหนดแยกตามที่แนะนำในวอชิงตันโพสต์และนักร้อง (2010) ซ้ำพาร์ทิชันและการประยุกต์ใช้ ฟรีแวร์ที่มาพร้อมกับหนังสือเล่มนี้อนุญาตให้ทำเช่นนี้ได้ แต่จะค่อนข้างดั้งเดิมในการป้อนข้อมูลของผู้ใช้ คำแนะนำหรือข้อเสนอแนะ?
15 r  cart  rpart  partitioning 

1
ต้นไม้การตัดสินใจแยกควรนำไปใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง
ฉันกำลังเขียนการนำป่าสุ่มมาใช้ แต่ฉันเชื่อว่าคำถามนี้มีความเฉพาะเจาะจงกับต้นไม้ตัดสินใจ (เป็นอิสระจาก RFs) บริบทคือฉันกำลังสร้างโหนดในแผนผังการตัดสินใจและทั้งการทำนายและตัวแปรเป้าหมายนั้นต่อเนื่อง โหนดมีเกณฑ์แยกเพื่อแบ่งพาร์ติชันข้อมูลออกเป็นสองชุดและฉันสร้างการทำนายใหม่สำหรับแต่ละชุดย่อยตามค่าเป้าหมายเฉลี่ยในแต่ละชุด นี่เป็นวิธีที่ถูกต้องหรือไม่? เหตุผลที่ฉันถามคือเมื่อทำนายตัวแปรไบนารีฉันเชื่อว่าวิธีการทั่วไป (ถูกต้อง?) คือการแบ่งข้อมูลออกเป็น 0 และ 1 ชุดย่อยโดยไม่ต้องเฉลี่ยค่าเฉลี่ยในแถวข้อมูลในแต่ละชุดย่อย การแยกตามมาจะแบ่งออกเป็นชุดย่อยที่ละเอียดยิ่งขึ้นและรับค่าเฉลี่ยในแต่ละการแยกผลลัพธ์ที่ตามมาแยก (ลดลงต้นไม้การตัดสินใจ) ปฏิบัติการในสิ่งที่ตอนนี้ตัวแปรต่อเนื่องมากกว่าตัวแปรไบนารี (เพราะเราทำงานในค่าความผิดพลาดที่เหลือ เป้าหมาย) คำถามข้างเคียง: ความแตกต่างระหว่างทั้งสองวิธีนั้นมีความสำคัญหรือไม่หรือพวกเขาจะให้ผลลัพธ์ที่เหมือนกันสำหรับต้นไม้การตัดสินใจที่สมบูรณ์หรือไม่

4
ทำไมต้นไม้การตัดสินใจมีอคติต่ำ & ความแปรปรวนสูง
คำถาม มันขึ้นอยู่กับว่าต้นไม้จะตื้นหรือลึก? หรือเราจะพูดสิ่งนี้โดยไม่คำนึงถึงความลึก / ระดับของต้นไม้? ทำไมอคติต่ำและความแปรปรวนสูง โปรดอธิบายโดยสังหรณ์ใจและเชิงคณิตศาสตร์

1
ความลึกของต้นไม้ตัดสินใจ
เนื่องจากอัลกอริธึมแผนผังการตัดสินใจแยกบนแอ็ตทริบิวต์ในทุกขั้นตอนความลึกสูงสุดของแผนผังการตัดสินใจจะเท่ากับจำนวนของแอ็ตทริบิวต์ของข้อมูล ถูกต้องหรือไม่

3
อัลกอริธึมทรีถดถอยด้วยโมเดลการถดถอยเชิงเส้นในแต่ละใบไม้
ฉบับย่อ:ฉันกำลังมองหาแพ็คเกจ R ที่สามารถสร้างแผนภูมิการตัดสินใจในขณะที่ใบไม้แต่ละใบในแผนผังการตัดสินใจเป็นรูปแบบการถดถอยเชิงเส้นเต็มรูปแบบ AFAIK ไลบรารีrpartสร้างแผนผังการตัดสินใจที่ตัวแปรตามคงที่ในแต่ละใบไม้ มีห้องสมุดอื่น (หรือการrpartตั้งค่าที่ฉันไม่ทราบ) ที่สามารถสร้างต้นไม้ดังกล่าวได้หรือไม่? รุ่นยาว:ฉันกำลังมองหาอัลกอริทึมที่สร้างแผนภูมิการตัดสินใจตามชุดข้อมูลการฝึกอบรม การตัดสินใจแต่ละครั้งในต้นไม้จะแยกข้อมูลการฝึกอบรมออกเป็นสองส่วนตามเงื่อนไขของหนึ่งในตัวแปรอิสระ รูทของทรีมีชุดข้อมูลแบบเต็มและแต่ละไอเท็มในชุดข้อมูลนั้นมีอยู่ในโหนดใบเดียว อัลกอริทึมเป็นดังนี้: เริ่มต้นด้วยชุดข้อมูลแบบเต็มซึ่งเป็นโหนดรูทของทรี เลือกโหนดนี้และเรียกว่าNNNN สร้างรูปแบบการถดถอยเชิงเส้นกับข้อมูลในNNNN หากโมเดลเชิงเส้นของNสูงกว่าขีด จำกัด บางθ R 2 แสดงว่าเราเสร็จด้วยNดังนั้นให้ทำเครื่องหมายNR2R2R^2NNNθR2θR2\theta_{R^2}NNNNNNเป็นใบและข้ามไปยังขั้นตอนที่ 5 ลองตัดสินใจแบบสุ่มและเลือกหนึ่งที่มีอัตราผลตอบแทนที่ดีที่สุดR 2ในโหนดย่อยนี้: nnnR2R2R^2 เลือกตัวแปรอิสระแบบสุ่มเช่นเดียวกับเกณฑ์แบบสุ่มθ iviviv_iθiθi\theta_iฉัน การตัดสินใจแยกชุดข้อมูลของN เป็นสองโหนดใหม่ Nและ~ Nvi≤θivi≤θiv_i \leq \theta_iNNNN^N^\hat{N}N~N~\tilde{N} N สร้างแบบจำลองการถดถอยเชิงเส้นทั้งNและ~ NและคำนวณของพวกเขาR 2 (เรียกพวกเขาrและ~ RN^N^\hat{N}N~N~\tilde{N}R2R2R^2r^r^\hat{r}r~r~\tilde{r} ) จากทั้งหมดที่ tuples ( วีฉัน , θ ฉัน , R , …
14 r  regression  rpart  cart 

3
โมเดลรถเข็นสามารถสร้างความแข็งแกร่งได้หรือไม่?
เพื่อนร่วมงานคนหนึ่งในสำนักงานของฉันพูดกับฉันในวันนี้ว่า "แบบจำลองต้นไม้ไม่ดีเพราะพวกเขาถูกจับด้วยการสังเกตอย่างหนัก" การค้นหาที่นี่ส่งผลให้เธรดนี้รองรับการอ้างสิทธิ์โดยทั่วไป ข้อใดทำให้ฉันมีคำถาม - โมเดลรถเข็น CART ในสถานการณ์ใดจะมีประสิทธิภาพและจะแสดงได้อย่างไร?

2
คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย
ใครช่วยอธิบายคณิตศาสตร์บางส่วนที่อยู่ในการจัดประเภทในรถเข็นได้บ้าง ฉันกำลังมองหาที่จะเข้าใจว่าสองขั้นตอนหลักเกิดขึ้นได้อย่างไร เช่นฉันฝึกตัวแยกประเภท CART บนชุดข้อมูลและใช้ชุดข้อมูลการทดสอบเพื่อทำเครื่องหมายประสิทธิภาพการทำนาย แต่: รากแรกของต้นไม้ถูกเลือกอย่างไร ทำไมแต่ละสาขาจึงเกิดขึ้น? ชุดข้อมูลของฉันเป็นระเบียน 400,000 รายการที่มี 15 คอลัมน์และ 23 คลาสที่ได้รับความถูกต้อง 100% จากเมทริกซ์ความสับสนฉันใช้การข้ามค่าช่วงเวลา 10 เท่าของชุดข้อมูล ฉันจะยิ่งใหญ่จริง ๆ ถ้าใครสามารถช่วยอธิบายขั้นตอนของการจัดประเภทรถเข็นได้

5
อัลกอริธึมป่าไม้และต้นไม้ตัดสินใจแบบสุ่ม
ป่าสุ่มคือชุดของต้นไม้ตัดสินใจตามแนวคิดการบรรจุถุง เมื่อเราย้ายจากต้นไม้ตัดสินใจหนึ่งไปสู่ต้นไม้ตัดสินใจถัดไปข้อมูลที่เรียนรู้จากต้นไม้ตัดสินใจสุดท้ายจะเลื่อนไปข้างหน้าอย่างไร เพราะตามความเข้าใจของฉันไม่มีอะไรเหมือนแบบฝึกที่ถูกสร้างขึ้นสำหรับต้นไม้การตัดสินใจทุกครั้งและจากนั้นโหลดก่อนต้นไม้การตัดสินใจครั้งต่อไปเริ่มเรียนรู้จากข้อผิดพลาดที่ผิดประเภท แล้วมันทำงานอย่างไร

3
ฟอเรสต์แบบสุ่มในข้อมูลที่มีโครงสร้างหลายระดับ / ลำดับชั้น
ฉันค่อนข้างใหม่กับการเรียนรู้ด้วยเครื่องจักรเทคนิคของ CART และสิ่งที่คล้ายกันและฉันหวังว่าไร้เดียงสาของฉันจะไม่ชัดเจนเกินไป Random Forest จัดการโครงสร้างข้อมูลหลายระดับ / ลำดับชั้นได้อย่างไร (ตัวอย่างเช่นเมื่อการโต้ตอบข้ามระดับเป็นที่สนใจ) นั่นคือชุดข้อมูลที่มีหน่วยการวิเคราะห์ในหลายระดับชั้น ( เช่นนักเรียนซ้อนกันภายในโรงเรียนพร้อมข้อมูลเกี่ยวกับทั้งนักเรียนและโรงเรียน) ยกตัวอย่างเช่นพิจารณาชุดข้อมูลหลายระดับที่มีบุคคลในระดับแรก ( เช่นข้อมูลพฤติกรรมการลงคะแนนประชากร ฯลฯ ) ซ้อนกันภายในประเทศในระดับที่สอง (พร้อมข้อมูลระดับประเทศเช่นประชากร): ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 …

9
กระตุ้นการตัดสินใจต้นไม้ในหลาม? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 เดือนที่ผ่านมา มีห้องสมุดไพ ธ อนที่ดีสำหรับการฝึกอบรมต้นไม้ตัดสินใจหรือไม่
13 python  cart  boosting 

2
เราจะวาด ROC curve สำหรับต้นไม้ตัดสินใจได้อย่างไร?
โดยปกติเราไม่สามารถวาดเส้นโค้ง ROC สำหรับตัวแยกประเภทแยกเช่นต้นไม้ตัดสินใจ ฉันถูกไหม? มีวิธีใดในการวาดเส้นโค้ง ROC สำหรับ Dtrees หรือไม่?
13 roc  cart 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.