คำถามติดแท็ก cart

'ต้นไม้จำแนกและถดถอย' รถเข็นเป็นเทคนิคการเรียนรู้ของเครื่องที่ได้รับความนิยมและเป็นพื้นฐานสำหรับเทคนิคเช่นฟอเรสต์แบบสุ่มและการใช้งานทั่วไปของเครื่องเพิ่มระดับความลาดชัน

1
การตัดสินใจปรับต้นไม้ทรีตัวแปร (คุณสมบัติ) และตัวแปร (ฟีเจอร์) การปรับมาตรฐาน
ในอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากการปรับขนาด (หรือที่เรียกว่าการปรับขนาดตัวแปรการทำให้เป็นมาตรฐาน) เป็นขั้นตอนการเตรียมความพร้อมร่วมกันWikipedia - Feature Scaling - คำถามนี้ปิดคำถาม # 41704 - การปรับมาตรฐานและการปรับขนาด ฉันมีสองคำถามโดยเฉพาะเกี่ยวกับต้นไม้ตัดสินใจ: มีการใช้งานต้นไม้ตัดสินใจที่จะต้องมีการปรับขนาด? ฉันรู้สึกว่าเกณฑ์การแยกของอัลกอริทึมส่วนใหญ่ไม่ได้สัดส่วน พิจารณาตัวแปรเหล่านี้: (1) หน่วย, (2) ชั่วโมง, (3) หน่วยต่อชั่วโมง - เป็นการดีที่สุดที่จะปล่อยให้ตัวแปรทั้งสามนี้ "ตามสภาพ" เมื่อถูกป้อนเข้าสู่ต้นไม้การตัดสินใจหรือเราเจอความขัดแย้งบางประเภท เนื่องจากตัวแปร "normalized" (3) สัมพันธ์กับ (1) และ (2)? นั่นคือคุณจะโจมตีสถานการณ์นี้โดยการโยนตัวแปรทั้งสามลงในการผสมหรือคุณจะเลือกการรวมกันของทั้งสามหรือเพียงแค่ใช้คุณสมบัติ "ปกติ / มาตรฐาน" (3)?

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
ขนาดของต้นไม้ในการไล่ระดับต้นไม้ไล่สี
การไล่ระดับต้นไม้แบบไล่ตามที่เสนอโดยฟรีดแมนใช้ต้นไม้ตัดสินใจด้วยJโหนดขั้ว (= ใบ) เป็นผู้เรียนพื้นฐาน มีหลายวิธีในการปลูกต้นไม้ที่มีJจุดตรงตัวอย่างเช่นสามารถปลูกต้นไม้ในแบบลึกแรกหรือแบบกว้างแรก ... มีวิธีการที่กำหนดไว้ในการปลูกต้นไม้ด้วยJโหนดเทอร์มินัลสำหรับการไล่ระดับสีต้นไม้หรือไม่? ฉันตรวจสอบขั้นตอนการปลูกต้นไม้ของgbmแพ็คเกจของ R และดูเหมือนว่ามันจะขยายต้นไม้ในลักษณะที่ลึกเป็นอันดับแรกและใช้การวิเคราะห์แบบฮิวริสติกโดยปรับปรุงข้อผิดพลาดเพื่อเลือกว่าจะขยายโหนดด้านซ้ายหรือโหนดลูกที่ถูกต้องหรือไม่
10 r  cart  boosting 

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
กำลังตรวจสอบความแตกต่างระหว่างประชากร
บอกว่าเรามีตัวอย่างจากประชากรสองกลุ่ม A: และA Bสมมติว่าประชากรเหล่านี้ทำจากบุคคลและเราเลือกที่จะอธิบายบุคคลในแง่ของคุณสมบัติ คุณสมบัติบางอย่างเหล่านี้มีการจัดหมวดหมู่ (เช่นพวกเขาขับรถไปทำงานหรือไม่) และบางส่วนเป็นตัวเลข (เช่นความสูง) ขอเรียกคุณสมบัติเหล่านี้:X_n เรารวบรวมคุณลักษณะเหล่านี้หลายร้อยรายการ (เช่น n = 200) สมมติว่าใช้งานง่ายโดยไม่มีข้อผิดพลาดหรือเสียงรบกวนในทุกคนX1...XnX1...XnX_1 \ldots X_n เราตั้งสมมติฐานว่าประชากรสองคนนั้นแตกต่างกัน เป้าหมายของเราคือการตอบคำถามสองข้อต่อไปนี้: จริง ๆ แล้วพวกเขาแตกต่างกันอย่างมีนัยสำคัญ? อะไรคือความแตกต่างระหว่างพวกเขา? วิธีการเช่นต้นไม้ตัดสินใจ (เช่นป่าสุ่ม) และการวิเคราะห์การถดถอยเชิงเส้นสามารถช่วยได้ ตัวอย่างเช่นเราสามารถดูความสำคัญของคุณลักษณะในป่าสุ่มหรือสัมประสิทธิ์ที่เหมาะสมในการถดถอยเชิงเส้นเพื่อทำความเข้าใจกับสิ่งที่อาจแยกแยะกลุ่มเหล่านี้และสำรวจความสัมพันธ์ระหว่างคุณลักษณะและประชากร ก่อนที่ฉันจะไปตามเส้นทางนี้ฉันต้องการเข้าใจตัวเลือกของฉันที่นี่สิ่งที่ดีและทันสมัยกับการปฏิบัติที่ไม่ดี โปรดทราบว่าเป้าหมายของฉันไม่ใช่การคาดการณ์ต่อการทดสอบและการค้นหาความแตกต่างที่สำคัญระหว่างกลุ่ม อะไรคือหลักการในการแก้ไขปัญหานี้ ต่อไปนี้เป็นข้อกังวลของฉัน: วิธีการเช่นการวิเคราะห์การถดถอยเชิงเส้นอาจไม่ตอบอย่างเต็มที่ (2) ใช่ไหม? เช่นความพอดีสามารถช่วยค้นหาความแตกต่างบางอย่าง แต่ไม่ใช่ความแตกต่างที่สำคัญทั้งหมด ตัวอย่างเช่นความหลากหลายหลายระดับอาจทำให้เราไม่สามารถค้นหาคุณลักษณะทั้งหมดที่แตกต่างกันในแต่ละกลุ่ม (อย่างน้อยก็ในรูปแบบเดียว) ด้วยเหตุผลเดียวกันฉันคาดหวังว่า ANOVA จะไม่สามารถให้คำตอบเต็ม (2) ได้เช่นกัน ยังไม่ชัดเจนว่าวิธีการคาดการณ์จะตอบได้อย่างไร (1) ตัวอย่างเช่นฟังก์ชั่นการสูญเสียการจำแนกประเภท / การทำนายใดที่เราควรลด และเราจะทดสอบได้อย่างไรว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญเมื่อเรามีความเหมาะสมหรือไม่? ในที่สุดฉันกังวลว่าคำตอบที่ฉันได้รับ …

2
ต้นไม้ประมาณเสมอลำเอียงหรือไม่?
ฉันกำลังทำการบ้านบนต้นไม้ตัดสินใจและหนึ่งในคำถามที่ฉันต้องตอบคือ "ทำไมตัวประมาณถูกสร้างขึ้นจากต้นไม้ลำเอียงและการห่อถุงช่วยลดความแปรปรวนได้อย่างไร" ตอนนี้ฉันรู้ว่าแบบจำลองที่ติดตั้งแล้วมีแนวโน้มที่จะมีอคติต่ำมากเพราะพวกเขาพยายามจัดวางจุดข้อมูลทั้งหมด และฉันมีสคริปต์ใน Python ที่ติดตั้งทรีกับชุดข้อมูลบางส่วน (มีคุณสมบัติเดียวมันเป็นเพียงไซน์ไซด์โดยมีจุดปิดบางภาพด้านล่าง) ดังนั้นฉันสงสัยว่า "ดีถ้าฉัน reeeeally overfit ข้อมูลฉันจะได้รับอคติเป็นศูนย์หรือไม่" และมันกลับกลายเป็นว่าแม้จะมีความลึก 10,000 ยังคงมีบางจุดที่เส้นโค้งไม่ผ่าน ฉันพยายามค้นหาสาเหตุ แต่ไม่พบคำอธิบายจริงๆ ฉันเดาว่าอาจมีต้นไม้บางต้นที่สามารถผ่านทุกจุดได้อย่างสมบูรณ์แบบและต้นไม้ที่ฉันได้รับก็คือ "โชคร้าย" หรือนั่นอาจเป็นชุดข้อมูลที่แตกต่างกันอาจให้ผลลัพธ์ที่ไม่เอนเอียง (อาจเป็นไซนัสที่สมบูรณ์แบบ?) หรือแม้แต่นั้นการตัดที่เกิดขึ้นในตอนต้นทำให้เป็นไปไม่ได้ที่การตัดเพิ่มเติมจะแยกจุดทั้งหมดอย่างสมบูรณ์ ดังนั้นเมื่อคำนึงถึงชุดข้อมูลนี้ (เนื่องจากอาจแตกต่างกับชุดอื่น ๆ ) คำถามของฉันคือ: เป็นไปได้หรือไม่ที่จะปรับต้นไม้จนจุดที่อคตินั้นมีค่าเป็นศูนย์หรือว่าจะมีอคติอยู่บ้าง ขนาดเล็ก? และถ้าอย่างน้อยก็มีอคติเสมอทำไมมันถึงเกิดขึ้น? PS ฉันไม่รู้ว่ามันอาจเกี่ยวข้องหรือไม่ แต่ฉันใช้DecisionTreeRegressorจากsklearnเพื่อให้พอดีกับโมเดลกับข้อมูล
9 cart  bias 

2
ต้นไม้ CART จับการโต้ตอบระหว่างผู้ทำนายหรือไม่?
บทความนี้อ้างว่าใน CART เนื่องจากมีการดำเนินการแยกแบบไบนารีใน covariate เดียวในแต่ละขั้นตอนการแยกทั้งหมดเป็นแบบมุมฉากดังนั้นจึงไม่ถือว่าการมีปฏิสัมพันธ์ระหว่าง covariates อย่างไรก็ตามมีการอ้างอิงที่จริงจังมากที่อ้างว่าโครงสร้างแบบลำดับชั้นของต้นไม้รับประกันได้ว่าการโต้ตอบระหว่างตัวทำนายจะถูกสร้างแบบจำลองโดยอัตโนมัติ (เช่นเอกสารนี้และแน่นอน Hastie) ถูกต้องใคร ต้นไม้ที่ปลูกในรถเข็นสามารถจับการโต้ตอบระหว่างตัวแปรอินพุตได้ไหม

2
วิธีการประเมินความดีของความพอดีสำหรับฟังก์ชั่นการเอาตัวรอด
ฉันเป็นนักวิเคราะห์การรอดชีวิตคนใหม่แม้ว่าฉันจะมีความรู้ในการจำแนกและการถดถอย สำหรับการถดถอยเรามีสถิติ MSE และ R กำลังสอง แต่เราจะบอกได้อย่างไรว่าแบบจำลองการเอาชีวิตรอด A นั้นเหนือกว่าแบบจำลองการเอาชีวิตรอด B นอกเหนือจากกราฟฟิค (KM curve) บางชนิด? หากเป็นไปได้โปรดอธิบายความแตกต่างด้วยตัวอย่าง (เช่น rpart package ใน R) คุณจะแสดงให้เห็นได้อย่างไรว่าต้นไม้การอยู่รอดของ CART หนึ่งต้นนั้นดีกว่าต้นไม้การอยู่รอดของ CART อีกต้น สามารถใช้การวัดใดได้บ้าง

1
วิธีการเลือกจำนวนของการแยกใน rpart ()?
ฉันได้ใช้rpart.controlสำหรับการminsplit=2และได้ผลลัพธ์ที่ต่อไปนี้จากrpart()ฟังก์ชั่น เพื่อหลีกเลี่ยงการโอเวอร์โหลดข้อมูลฉันต้องใช้แยก 3 หรือแยก 7 หรือไม่ ฉันไม่ควรใช้ splits 7 ใช่ไหม โปรดแจ้งให้เราทราบ ตัวแปรที่ใช้จริงในการสร้างต้นไม้: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel error xerror xstd 1 0.615208 0 1.000000 1.05013 0.189409 2 0.181446 1 0.384792 0.54650 0.084423 3 0.044878 2 0.203346 0.31439 0.063681 4 0.027653 …
9 r  cart  rpart 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.