คำถามติดแท็ก cart

'ต้นไม้จำแนกและถดถอย' รถเข็นเป็นเทคนิคการเรียนรู้ของเครื่องที่ได้รับความนิยมและเป็นพื้นฐานสำหรับเทคนิคเช่นฟอเรสต์แบบสุ่มและการใช้งานทั่วไปของเครื่องเพิ่มระดับความลาดชัน

9
ได้รับความรู้จากป่าสุ่ม
ป่าสุ่มถือเป็นกล่องดำ แต่เมื่อเร็ว ๆ นี้ฉันกำลังคิดว่าจะได้ความรู้อะไรจากป่าสุ่ม? สิ่งที่ชัดเจนที่สุดคือความสำคัญของตัวแปรในตัวแปรที่ง่ายที่สุดสามารถทำได้เพียงแค่คำนวณจำนวนการเกิดขึ้นของตัวแปร สิ่งที่สองที่ฉันคิดคือการโต้ตอบ ฉันคิดว่าถ้าจำนวนต้นไม้มีขนาดใหญ่เพียงพอจำนวนของตัวแปรคู่ที่สามารถทดสอบได้ (เช่นความเป็นอิสระของไคสแควร์) สิ่งที่สามคือความไม่แปรปรวนของตัวแปร ความคิดแรกของฉันคือการดูแผนภูมิของคะแนน Vs ตัวแปร แต่ฉันยังไม่แน่ใจว่ามันสมเหตุสมผลหรือไม่ เพิ่ม 23.01.2012 แรงจูงใจ ฉันต้องการใช้ความรู้นี้เพื่อปรับปรุงแบบจำลอง logit ฉันคิดว่า (หรืออย่างน้อยก็หวังว่า) เป็นไปได้ที่จะพบปฏิสัมพันธ์และความไม่เป็นเชิงเส้นที่ถูกมองข้าม

2
ต้นไม้ไล่ระดับสีไล่ระดับเทียบกับป่าสุ่ม
การส่งเสริมต้นไม้ไล่โทนสีตามที่เสนอโดยฟรีดแมนใช้ต้นไม้ตัดสินใจเป็นผู้เรียนพื้นฐาน ฉันสงสัยว่าเราควรสร้างแผนภูมิการตัดสินใจพื้นฐานที่ซับซ้อนที่สุดเท่าที่จะเป็นไปได้ (โตเต็มที่) หรือง่ายกว่านี้หรือไม่? มีคำอธิบายสำหรับการเลือกหรือไม่? ป่าสุ่มเป็นอีกวิธีการหนึ่งที่ใช้ต้นไม้ตัดสินใจเป็นฐานในการเรียนรู้ จากความเข้าใจของฉันเรามักใช้ต้นไม้ตัดสินใจที่โตเต็มที่ในการทำซ้ำแต่ละครั้ง ฉันถูกไหม?

1
ต้นไม้อนุมานแบบมีเงื่อนไขเทียบกับต้นไม้ตัดสินใจแบบดั้งเดิม
ใครสามารถอธิบายความแตกต่างหลักระหว่างต้นไม้การอนุมานแบบมีเงื่อนไข ( ctreeจากpartyแพ็คเกจใน R) เทียบกับอัลกอริทึมการตัดสินใจแบบดั้งเดิมมากขึ้น (เช่นrpartใน R) อะไรทำให้ต้นไม้ CI แตกต่างกัน จุดแข็งและจุดอ่อน? Update: ฉันได้ดูบทความโดย Horthorn และคณะที่ Chi อ้างถึงในความคิดเห็น ฉันไม่สามารถทำตามได้อย่างสมบูรณ์ - ทุกคนสามารถอธิบายได้ว่าตัวแปรถูกเลือกโดยใช้วิธีเรียงสับเปลี่ยน (เช่นฟังก์ชันอิทธิพลมีอะไร) ขอบคุณ!

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
คำถามเชิงปฏิบัติเกี่ยวกับการปรับแต่งป่าสุ่ม
คำถามของฉันเกี่ยวกับป่าสุ่ม แนวคิดของลักษณนามที่สวยงามนี้ชัดเจนสำหรับฉัน แต่ยังมีคำถามการใช้งานมากมาย น่าเสียดายที่ฉันล้มเหลวในการหาคู่มือที่เป็นประโยชน์สำหรับ RF (ฉันค้นหาบางสิ่งเช่น "คู่มือปฏิบัติสำหรับเครื่อง Boltzman ที่ จำกัด การฝึกอบรม" โดย Geoffrey Hinton แต่สำหรับป่าสุ่ม! หนึ่งวิธีสามารถปรับคลื่นความถี่วิทยุในทางปฏิบัติได้อย่างไร? จริงหรือที่ต้นไม้จำนวนมากจะดีกว่าเสมอ มีข้อ จำกัด ที่สมเหตุสมผล (ยกเว้นความสามารถของ บริษัท แน่นอน) ในการเพิ่มจำนวนต้นไม้และวิธีการประมาณสำหรับชุดข้อมูลที่กำหนดหรือไม่? ความลึกของต้นไม้ล่ะ? วิธีการเลือกที่เหมาะสมหรือไม่ มีความรู้สึกอย่างไรในการทดสอบต้นไม้ที่มีความยาวต่างกันในป่าหนึ่งและคำแนะนำสำหรับสิ่งนั้นคืออะไร? มีพารามิเตอร์อื่น ๆ ที่ควรพิจารณาเมื่อฝึกอบรม RF หรือไม่ อาจสร้าง Algos สำหรับต้นไม้แต่ละต้น? เมื่อพวกเขาพูดว่า RF ทนต่อการ overfitting ความจริงเป็นอย่างไร ฉันจะขอบคุณคำตอบและ / หรือลิงก์ไปยังคู่มือหรือบทความที่ฉันอาจพลาดไปในขณะที่ค้นหา

3
วิธีการพล็อตแผนภูมิตัวอย่างจาก randomForest :: getTree () จริง ๆ ได้อย่างไร? [ปิด]
ทุกคนมีคำแนะนำห้องสมุดหรือรหัสเกี่ยวกับวิธีการพล็อตตัวอย่างต้นไม้สองสามต้นจาก: getTree(rfobj, k, labelVar=TRUE) (ใช่ฉันรู้ว่าคุณไม่ควรทำสิ่งนี้ในเชิงปฏิบัติ RF เป็นกล่องดำ ฯลฯ ฯลฯ ฉันต้องการให้มีสติตรวจสายตาต้นไม้เพื่อดูว่าตัวแปรใดที่ทำงานผิดพลาดหรือไม่จำเป็นต้องปรับแต่ง / รวม / แยก / แปลง / ตรวจสอบ ปัจจัยที่เข้ารหัสของฉันทำงานได้ดีเพียงใด ฯลฯ ) คำถามก่อนหน้าโดยไม่มีคำตอบที่ดี: วิธีที่จะทำให้ป่าสุ่มตีความได้มากขึ้น? นอกจากนี้ยังได้รับความรู้จากป่าสุ่ม ที่จริงผมอยากจะพล็อตต้นไม้ตัวอย่าง ดังนั้นอย่าเถียงกับฉันเกี่ยวกับเรื่องนี้อยู่แล้ว ฉันไม่ได้ถามเกี่ยวกับvarImpPlot(Variance Importance Plot) หรือpartialPlotหรือMDSPlotหรือแปลงอื่น ๆ เหล่านี้ฉันมีอยู่แล้ว แต่พวกมันไม่ได้ใช้แทนการดูต้นไม้ตัวอย่าง getTree(...,labelVar=TRUE)ใช่ครับผมสายตาสามารถตรวจสอบการส่งออกของ (ฉันเดาว่าplot.rf.tree()ผลงานจะได้รับการตอบรับดีมาก)

3
Deviance คืออะไร (โดยเฉพาะใน CART / rpart)
"Deviance" คืออะไรคำนวณอย่างไรและการใช้งานในด้านต่าง ๆ ของสถิติคืออะไร โดยเฉพาะอย่างยิ่งฉันมีความสนใจเป็นการส่วนตัวในการใช้งาน CART (และการนำไปใช้ใน rpart ใน R) ฉันถามสิ่งนี้เนื่องจากบทความ wikiดูเหมือนว่าค่อนข้างขาดและข้อมูลเชิงลึกของคุณจะได้รับการต้อนรับมากที่สุด
45 r  cart  rpart  deviance 

4
ฝึกอบรมโครงสร้างการตัดสินใจเทียบกับข้อมูลที่ไม่สมดุล
ฉันยังใหม่กับการขุดข้อมูลและฉันพยายามฝึกอบรมต้นไม้ตัดสินใจกับชุดข้อมูลที่ไม่สมดุลกันมาก อย่างไรก็ตามฉันมีปัญหากับความแม่นยำในการทำนายที่ไม่ดี ข้อมูลประกอบด้วยนักเรียนที่เรียนหลักสูตรและตัวแปรระดับคือสถานะของหลักสูตรที่มีสองค่า - ถอนตัวหรือปัจจุบัน อายุ เชื้อชาติ เพศ หลักสูตร ... สถานะของหลักสูตร ในชุดข้อมูลมีอินสแตนซ์อีกมากมายซึ่งเป็นปัจจุบันกว่าถอนออก การถอนอินสแตนซ์นั้นคิดเป็นเพียง 2% ของอินสแตนซ์ทั้งหมด ฉันต้องการสร้างแบบจำลองที่สามารถทำนายความน่าจะเป็นที่คน ๆ หนึ่งจะถอนตัวในอนาคต อย่างไรก็ตามเมื่อทำการทดสอบแบบจำลองกับข้อมูลการฝึกอบรมความแม่นยำของแบบจำลองนั้นแย่มาก ฉันมีปัญหาที่คล้ายกันกับต้นไม้การตัดสินใจที่ข้อมูลถูกครอบงำโดยหนึ่งหรือสองชั้น ฉันจะใช้วิธีใดในการแก้ปัญหานี้และสร้างลักษณนามที่แม่นยำยิ่งขึ้น

3
ทำไมต้นไม้การตัดสินใจจึงไม่ได้มีราคาแพง
ในการแนะนำการเรียนรู้เชิงสถิติด้วยแอปพลิเคชันใน Rผู้เขียนเขียนว่าการติดตั้งต้นไม้ตัดสินใจอย่างรวดเร็ว แต่สิ่งนี้ไม่สมเหตุสมผลสำหรับฉัน อัลกอริทึมต้องผ่านทุกคุณสมบัติและแบ่งพาร์ติชันในทุกวิถีทางเท่าที่จะเป็นไปได้ สำหรับฟีเจอร์ตัวเลขที่มีการสังเกตสิ่งนี้อาจส่งผลให้พาร์ติชันnสำหรับแต่ละคุณลักษณะnnnnnn ฉันเข้าใจผิดว่าการแยกแบบไบนารีนั้นทำงานอย่างไร หรือมีเหตุผลที่อัลกอริทึมนี้จะใช้เวลาไม่นาน?
38 cart 

6
เหตุใดฉันจึงได้รับแผนผังการตัดสินใจที่มีความแม่นยำ 100%
ฉันได้รับความแม่นยำ 100% สำหรับแผนภูมิการตัดสินใจของฉัน ผมทำอะไรผิดหรือเปล่า? นี่คือรหัสของฉัน: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import …

4
ต้นไม้ด้านการตัดสินใจที่อ่อนแอคืออะไร?
ต้นไม้ตัดสินใจดูเหมือนจะเป็นวิธีการเรียนรู้ด้วยเครื่องที่เข้าใจได้ง่ายมาก เมื่อสร้างแล้วสามารถตรวจสอบได้ง่ายโดยมนุษย์ซึ่งเป็นข้อได้เปรียบที่ดีในการใช้งานบางอย่าง อะไรคือจุดอ่อนด้านการปฏิบัติของต้นไม้การตัดสินใจ?

1
ความสำคัญของตัวแปรเชิงสัมพันธ์สำหรับการส่งเสริม
ฉันกำลังมองหาคำอธิบายว่าวิธีคำนวณความสำคัญของตัวแปรแบบสัมพันธ์ในต้นไม้ที่เพิ่มขึ้นแบบไล่ระดับสีซึ่งไม่ธรรมดา / ง่ายเกินไป: มาตรการจะขึ้นอยู่กับจำนวนครั้งที่ตัวแปรถูกเลือกสำหรับการแยกถ่วงน้ำหนักด้วยการปรับปรุงยกกำลังสองกับรูปแบบเป็นผลของแต่ละแยกและเฉลี่ยมากกว่าต้นไม้ทั้งหมด [ Elith และคณะ 2008, คู่มือการทำงานเพื่อเพิ่มความแข็งแกร่งให้กับต้นไม้ถดถอย ] และนั่นก็เป็นนามธรรมน้อยกว่า: ผม2J^( T) = ∑t = 1J- 1ผม2เสื้อ^1 ( vเสื้อ= j )ผมJ2^(T)=Σเสื้อ=1J-1ผมเสื้อ2^1(โวลต์เสื้อ=J)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) โดยที่การรวมอยู่เหนือโหนดที่ไม่ใช่เทอร์มินัลของโหนดทรี ,คือตัวแปรการแยกที่เชื่อมโยงกับโหนดและเป็นการปรับปรุงเชิงประจักษ์ในข้อผิดพลาดกำลังสอง เป็นผลมาจากการแยกหมายถึงโดยที่คือการตอบสนองของลูกสาวด้านซ้ายและขวาตามลำดับและเป็นจำนวนเงินที่สอดคล้องกันของน้ำหนัก J T v t t ^ i 2 t i 2 ( R l , R r ) = w l w rเสื้อเสื้อtJJJTTTโวลต์เสื้อโวลต์เสื้อv_{t}เสื้อเสื้อtผม2เสื้อ^ผมเสื้อ2^\hat{i_{t}^2}ผม2( …

3
ป่าสุ่มไม่ไวต่อค่าผิดปกติอย่างไร
ฉันได้อ่านในแหล่งข้อมูลไม่กี่แห่งซึ่งรวมถึงอันนี้ว่าป่าสุ่มไม่ไวต่อค่าผิดปกติ (เช่นวิธีการที่ Logistic Regression และวิธีการ ML อื่น ๆ เป็นตัวอย่าง) อย่างไรก็ตามสัญชาตญาณสองชิ้นบอกฉันเป็นอย่างอื่น: เมื่อใดก็ตามที่ต้นไม้การตัดสินใจถูกสร้างขึ้นคะแนนทั้งหมดจะต้องจำแนก ซึ่งหมายความว่าแม้แต่ผู้ผิดกฎหมายก็จะถูกจัดประเภทและด้วยเหตุนี้จะส่งผลต่อต้นไม้การตัดสินใจที่พวกเขาได้รับเลือกในระหว่างการส่งเสริม Bootstrapping เป็นส่วนหนึ่งของการสุ่มตัวอย่างแบบสุ่มป่าไม้ การบูตสแตรปมีความอ่อนไหวต่อค่าผิดปกติ มีวิธีใดบ้างที่จะกระทบยอดปรีชาญาณของฉันเกี่ยวกับความอ่อนไหวต่อผู้ผิดกฎหมายกับแหล่งที่ไม่เห็นด้วยหรือไม่?

1
แนวทางที่มีประโยชน์สำหรับพารามิเตอร์ GBM คืออะไร
แนวทางที่มีประโยชน์สำหรับการทดสอบพารามิเตอร์ (เช่นความลึกของการโต้ตอบ, minchild, อัตราตัวอย่าง ฯลฯ ) โดยใช้ GBM คืออะไร? สมมติว่าฉันมีคุณสมบัติ 70-100 ประชากร 200,000 และฉันต้องการทดสอบความลึกของการโต้ตอบที่ 3 และ 4 ชัดเจนว่าฉันต้องทำการทดสอบบางอย่างเพื่อดูว่าการรวมกันของพารามิเตอร์ใดถือตัวอย่างที่ดีที่สุด ข้อเสนอแนะเกี่ยวกับวิธีการออกแบบการทดสอบนี้?

4
วิธีวัด / จัดอันดับ“ ความสำคัญของตัวแปร” เมื่อใช้ CART (โดยเฉพาะการใช้ {rpart} จาก R)
เมื่อสร้างโมเดล CART (โดยเฉพาะแผนผังการจำแนกหมวดหมู่) โดยใช้ rpart (ใน R) มันมักจะน่าสนใจที่จะรู้ว่าอะไรคือความสำคัญของตัวแปรต่างๆที่นำมาใช้กับโมเดล ดังนั้นคำถามของฉันคือ: มีมาตรการทั่วไปสำหรับการจัดอันดับ / การวัดความสำคัญของตัวแปรของตัวแปรที่มีส่วนร่วมในรูปแบบ CART อย่างไร และสิ่งนี้จะคำนวณได้อย่างไรโดยใช้ R (ตัวอย่างเช่นเมื่อใช้แพ็คเกจ rpart) ตัวอย่างเช่นต่อไปนี้เป็นรหัสจำลองสร้างขึ้นเพื่อให้คุณแสดงโซลูชันของคุณ ตัวอย่างนี้มีโครงสร้างเพื่อให้ชัดเจนว่าตัวแปร x1 และ x2 เป็น "สำคัญ" ในขณะที่ (ในบางแง่) x1 มีความสำคัญมากกว่า x2 (เนื่องจาก x1 ควรใช้กับกรณีเพิ่มเติมดังนั้นจึงมีผลต่อโครงสร้างของข้อมูลมากขึ้น จากนั้น x2) set.seed(31431) n <- 400 x1 <- rnorm(n) x2 <- rnorm(n) x3 <- rnorm(n) x4 <- …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.