คำถามติดแท็ก rpart

"rpart" คือแพ็กเกจ R ที่มีรูทีนจำนวนหนึ่งที่เกี่ยวข้องกับทรีการถดถอยและอัลกอริธึมการแบ่งพาร์ติชันแบบเรียกซ้ำ แพคเกจนี้มักใช้สำหรับปัญหาการจำแนกประเภท

3
Deviance คืออะไร (โดยเฉพาะใน CART / rpart)
"Deviance" คืออะไรคำนวณอย่างไรและการใช้งานในด้านต่าง ๆ ของสถิติคืออะไร โดยเฉพาะอย่างยิ่งฉันมีความสนใจเป็นการส่วนตัวในการใช้งาน CART (และการนำไปใช้ใน rpart ใน R) ฉันถามสิ่งนี้เนื่องจากบทความ wikiดูเหมือนว่าค่อนข้างขาดและข้อมูลเชิงลึกของคุณจะได้รับการต้อนรับมากที่สุด
45 r  cart  rpart  deviance 

4
วิธีวัด / จัดอันดับ“ ความสำคัญของตัวแปร” เมื่อใช้ CART (โดยเฉพาะการใช้ {rpart} จาก R)
เมื่อสร้างโมเดล CART (โดยเฉพาะแผนผังการจำแนกหมวดหมู่) โดยใช้ rpart (ใน R) มันมักจะน่าสนใจที่จะรู้ว่าอะไรคือความสำคัญของตัวแปรต่างๆที่นำมาใช้กับโมเดล ดังนั้นคำถามของฉันคือ: มีมาตรการทั่วไปสำหรับการจัดอันดับ / การวัดความสำคัญของตัวแปรของตัวแปรที่มีส่วนร่วมในรูปแบบ CART อย่างไร และสิ่งนี้จะคำนวณได้อย่างไรโดยใช้ R (ตัวอย่างเช่นเมื่อใช้แพ็คเกจ rpart) ตัวอย่างเช่นต่อไปนี้เป็นรหัสจำลองสร้างขึ้นเพื่อให้คุณแสดงโซลูชันของคุณ ตัวอย่างนี้มีโครงสร้างเพื่อให้ชัดเจนว่าตัวแปร x1 และ x2 เป็น "สำคัญ" ในขณะที่ (ในบางแง่) x1 มีความสำคัญมากกว่า x2 (เนื่องจาก x1 ควรใช้กับกรณีเพิ่มเติมดังนั้นจึงมีผลต่อโครงสร้างของข้อมูลมากขึ้น จากนั้น x2) set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- …

2
การเลือกพารามิเตอร์ความซับซ้อนใน CART
ในรูทีน rpart () เพื่อสร้างโมเดลรถเข็นคุณระบุพารามิเตอร์ความซับซ้อนที่คุณต้องการตัดต้นไม้ของคุณ ฉันเห็นคำแนะนำที่แตกต่างกันสองข้อสำหรับการเลือกพารามิเตอร์ความซับซ้อน: เลือกพารามิเตอร์ความซับซ้อนที่เกี่ยวข้องกับข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ วิธีนี้แนะนำโดยQuick-Rและ HSAUR เลือกพารามิเตอร์ความซับซ้อนที่ยิ่งใหญ่ที่สุดซึ่งมีข้อผิดพลาดการตรวจสอบข้ามโดยประมาณยังอยู่ใน SE ของข้อผิดพลาดการตรวจสอบข้ามขั้นต่ำที่เป็นไปได้ นี่คือการตีความเอกสารแพคเกจของฉันซึ่งบอกว่า: "ตัวเลือกที่ดีของ cp สำหรับการตัดแต่งมักเป็นค่าทางซ้ายสุดที่ค่าเฉลี่ยอยู่ต่ำกว่าเส้นแนวนอน" ในการอ้างอิงถึงพล็อตนี้ cp สองตัวเลือกให้สร้างต้นไม้ที่แตกต่างกันมากในชุดข้อมูลของฉัน ดูเหมือนว่าวิธีแรกจะสร้างต้นไม้ที่มีความซับซ้อนมากขึ้นและอาจมีการติดตั้งมากเกินไป มีข้อดีข้อเสียคำแนะนำในวรรณคดีอื่น ๆ หรือไม่ฉันควรพิจารณาเมื่อตัดสินใจว่าจะใช้วิธีการใด ฉันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับปัญหาการสร้างแบบจำลองเฉพาะของฉันได้หากจะมีประโยชน์ แต่ฉันพยายามทำให้คำถามนี้กว้างพอที่จะเกี่ยวข้องกับคนอื่น
16 r  cart  rpart 

2
การแบ่งพาร์ติชันต้นไม้ใน R: party vs. rpart
ไม่นานมานี้ตั้งแต่ฉันดูที่การแยกต้นไม้ ครั้งล่าสุดที่ฉันทำสิ่งนี้ฉันชอบปาร์ตี้ใน R (สร้างโดย Hothorn) แนวคิดของการอนุมานแบบมีเงื่อนไขผ่านการสุ่มตัวอย่างทำให้ฉันมีเหตุผล แต่ rpart ก็มีการอุทธรณ์ ในแอปพลิเคชันปัจจุบัน (ฉันไม่สามารถให้รายละเอียดได้ แต่เกี่ยวข้องกับการพยายามกำหนดว่าใครจะเข้าคุกในกลุ่มตัวอย่างขนาดใหญ่ของผู้ถูกจับกุม) ฉันไม่สามารถใช้วิธีการขั้นสูงเช่นป่าสุ่มการบรรจุถุงการส่งเสริมเป็นต้น - ฉันต้องการความสะดวก กฎ. ฉันจะยังชอบที่จะมีบางส่วนที่ควบคุมด้วยตนเองมากกว่าที่โหนดแยกตามที่แนะนำในวอชิงตันโพสต์และนักร้อง (2010) ซ้ำพาร์ทิชันและการประยุกต์ใช้ ฟรีแวร์ที่มาพร้อมกับหนังสือเล่มนี้อนุญาตให้ทำเช่นนี้ได้ แต่จะค่อนข้างดั้งเดิมในการป้อนข้อมูลของผู้ใช้ คำแนะนำหรือข้อเสนอแนะ?
15 r  cart  rpart  partitioning 

3
อัลกอริธึมทรีถดถอยด้วยโมเดลการถดถอยเชิงเส้นในแต่ละใบไม้
ฉบับย่อ:ฉันกำลังมองหาแพ็คเกจ R ที่สามารถสร้างแผนภูมิการตัดสินใจในขณะที่ใบไม้แต่ละใบในแผนผังการตัดสินใจเป็นรูปแบบการถดถอยเชิงเส้นเต็มรูปแบบ AFAIK ไลบรารีrpartสร้างแผนผังการตัดสินใจที่ตัวแปรตามคงที่ในแต่ละใบไม้ มีห้องสมุดอื่น (หรือการrpartตั้งค่าที่ฉันไม่ทราบ) ที่สามารถสร้างต้นไม้ดังกล่าวได้หรือไม่? รุ่นยาว:ฉันกำลังมองหาอัลกอริทึมที่สร้างแผนภูมิการตัดสินใจตามชุดข้อมูลการฝึกอบรม การตัดสินใจแต่ละครั้งในต้นไม้จะแยกข้อมูลการฝึกอบรมออกเป็นสองส่วนตามเงื่อนไขของหนึ่งในตัวแปรอิสระ รูทของทรีมีชุดข้อมูลแบบเต็มและแต่ละไอเท็มในชุดข้อมูลนั้นมีอยู่ในโหนดใบเดียว อัลกอริทึมเป็นดังนี้: เริ่มต้นด้วยชุดข้อมูลแบบเต็มซึ่งเป็นโหนดรูทของทรี เลือกโหนดนี้และเรียกว่าNNNN สร้างรูปแบบการถดถอยเชิงเส้นกับข้อมูลในNNNN หากโมเดลเชิงเส้นของNสูงกว่าขีด จำกัด บางθ R 2 แสดงว่าเราเสร็จด้วยNดังนั้นให้ทำเครื่องหมายNR2R2R^2NNNθR2θR2\theta_{R^2}NNNNNNเป็นใบและข้ามไปยังขั้นตอนที่ 5 ลองตัดสินใจแบบสุ่มและเลือกหนึ่งที่มีอัตราผลตอบแทนที่ดีที่สุดR 2ในโหนดย่อยนี้: nnnR2R2R^2 เลือกตัวแปรอิสระแบบสุ่มเช่นเดียวกับเกณฑ์แบบสุ่มθ iviviv_iθiθi\theta_iฉัน การตัดสินใจแยกชุดข้อมูลของN เป็นสองโหนดใหม่ Nและ~ Nvi≤θivi≤θiv_i \leq \theta_iNNNN^N^\hat{N}N~N~\tilde{N} N สร้างแบบจำลองการถดถอยเชิงเส้นทั้งNและ~ NและคำนวณของพวกเขาR 2 (เรียกพวกเขาrและ~ RN^N^\hat{N}N~N~\tilde{N}R2R2R^2r^r^\hat{r}r~r~\tilde{r} ) จากทั้งหมดที่ tuples ( วีฉัน , θ ฉัน , R , …
14 r  regression  rpart  cart 

1
ความแตกต่างในการใช้งานของการแยกไบนารีในต้นไม้การตัดสินใจ
ผมอยากรู้เกี่ยวกับการดำเนินการในทางปฏิบัติของการแยกไบนารีในต้นไม้ตัดสินใจ - เป็นที่เกี่ยวกับระดับของเด็ดขาดทำนาย{J}XjXjX{j} โดยเฉพาะฉันมักจะใช้รูปแบบการสุ่มตัวอย่างบางอย่าง (เช่นการบรรจุถุงการใส่ตัวอย่างมากเกินไป) เมื่อสร้างแบบจำลองการทำนายโดยใช้ต้นไม้การตัดสินใจ - เพื่อปรับปรุงความแม่นยำและความมั่นคงของการทำนาย ในระหว่างขั้นตอนการสุ่มตัวอย่างเหล่านี้เป็นไปได้ที่ตัวแปรหมวดหมู่จะถูกนำเสนอไปยังอัลกอริทึมการปรับแต่งแบบต้นไม้ที่น้อยกว่าชุดระดับที่สมบูรณ์ พูดตัวแปร X {A,B,C,D,E}จะใช้เวลาในระดับ ในตัวอย่างอาจจะเพียงระดับ{A,B,C,D}ที่มีอยู่ จากนั้นเมื่อมีการใช้ต้นไม้ผลลัพธ์สำหรับการทำนายอาจจะมีชุดเต็ม ต่อจากตัวอย่างนี้พูดต้นไม้แยกบน X และส่ง{A,B}ไปทางซ้ายและ{C,D}ไปทางขวา ฉันคาดว่าตรรกะของการแบ่งไบนารีจะพูดเมื่อต้องเผชิญกับข้อมูลใหม่: "ถ้า X มีค่า A หรือ B ให้ส่งไปทางซ้ายมิฉะนั้นส่งกรณีนี้ไปทางขวา" สิ่งที่ดูเหมือนจะเกิดขึ้นในการนำไปใช้งานบางอย่างคือ "ถ้า X มีค่า A หรือ B ส่งไปทางซ้ายถ้า X มีค่า C หรือ D ส่งไปทางขวา" เมื่อกรณีนี้ใช้กับค่า E อัลกอริธึมจะพังลง วิธี "ถูกต้อง" สำหรับการแยกแบบไบนารีที่จะจัดการคืออะไร? ดูเหมือนว่าจะมีการใช้วิธีที่มีประสิทธิภาพมากกว่านี้ แต่ไม่เสมอไป (ดู Rpart ด้านล่าง) …

2
จัดระเบียบแผนภูมิการจัดหมวดหมู่ (ใน rpart) เป็นชุดของกฎหรือไม่
มีวิธีที่เมื่อต้นไม้การจำแนกที่ซับซ้อนถูกสร้างขึ้นโดยใช้ rpart (ใน R) เพื่อจัดระเบียบกฎการตัดสินใจสำหรับแต่ละชั้นหรือไม่? ดังนั้นแทนที่จะได้รับต้นไม้ใหญ่หนึ่งต้นเราจะได้ชุดของกฎสำหรับแต่ละชั้นเรียน (ถ้าเป็นเช่นนั้นได้อย่างไร) นี่คือตัวอย่างรหัสง่ายๆที่จะแสดงตัวอย่างใน: fit <- rpart(Kyphosis ~ Age + Number + Start, data=kyphosis) ขอบคุณ
11 r  classification  cart  rpart 

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
วิธีการประเมินความดีของความพอดีสำหรับฟังก์ชั่นการเอาตัวรอด
ฉันเป็นนักวิเคราะห์การรอดชีวิตคนใหม่แม้ว่าฉันจะมีความรู้ในการจำแนกและการถดถอย สำหรับการถดถอยเรามีสถิติ MSE และ R กำลังสอง แต่เราจะบอกได้อย่างไรว่าแบบจำลองการเอาชีวิตรอด A นั้นเหนือกว่าแบบจำลองการเอาชีวิตรอด B นอกเหนือจากกราฟฟิค (KM curve) บางชนิด? หากเป็นไปได้โปรดอธิบายความแตกต่างด้วยตัวอย่าง (เช่น rpart package ใน R) คุณจะแสดงให้เห็นได้อย่างไรว่าต้นไม้การอยู่รอดของ CART หนึ่งต้นนั้นดีกว่าต้นไม้การอยู่รอดของ CART อีกต้น สามารถใช้การวัดใดได้บ้าง

1
วิธีการเลือกจำนวนของการแยกใน rpart ()?
ฉันได้ใช้rpart.controlสำหรับการminsplit=2และได้ผลลัพธ์ที่ต่อไปนี้จากrpart()ฟังก์ชั่น เพื่อหลีกเลี่ยงการโอเวอร์โหลดข้อมูลฉันต้องใช้แยก 3 หรือแยก 7 หรือไม่ ฉันไม่ควรใช้ splits 7 ใช่ไหม โปรดแจ้งให้เราทราบ ตัวแปรที่ใช้จริงในการสร้างต้นไม้: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 …
9 r  cart  rpart 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.