คำถามติดแท็ก decision-trees

แผนผังการตัดสินใจเป็นเครื่องมือสนับสนุนการตัดสินใจที่ใช้กราฟหรือแบบจำลองการตัดสินใจที่มีลักษณะเหมือนต้นไม้และผลที่ตามมารวมถึงผลลัพธ์ของเหตุการณ์ที่เป็นไปได้ต้นทุนทรัพยากรและยูทิลิตี้ เป็นวิธีหนึ่งในการแสดงอัลกอริทึม

8
เมื่อใดที่ฉันควรใช้ Gini Impurity เมื่อเทียบกับการได้รับข้อมูล
ใครบางคนสามารถอธิบายเหตุผลเบื้องหลังความไม่บริสุทธิ์ของ GiniกับInformation gain (อิงจากเอนโทรปี) ได้หรือไม่? ตัวชี้วัดใดดีกว่าที่จะใช้ในสถานการณ์ต่างๆในขณะที่ใช้แผนผังการตัดสินใจ

6
สตริงเป็นคุณลักษณะในต้นไม้ตัดสินใจ / ฟอเรสต์แบบสุ่ม
ฉันกำลังทำปัญหาบางอย่างกับการใช้ต้นไม้ตัดสินใจ / ป่าสุ่ม ฉันกำลังพยายามหาปัญหาที่มีตัวเลขและสตริง (เช่นชื่อประเทศ) เป็นคุณลักษณะ ตอนนี้ห้องสมุดscikit-learnจะใช้ตัวเลขเป็นพารามิเตอร์เท่านั้น แต่ฉันต้องการฉีดสตริงรวมถึงมีความรู้จำนวนมาก ฉันจะจัดการสถานการณ์ดังกล่าวได้อย่างไร ฉันสามารถแปลงสตริงเป็นตัวเลขโดยกลไกบางอย่างเช่น hashing ใน Python แต่ฉันต้องการทราบวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับวิธีการจัดการสตริงในปัญหาต้นไม้การตัดสินใจ

3
ทำไมเราต้องมี XGBoost และ Random Forest?
ฉันไม่ชัดเจนเกี่ยวกับแนวคิดสองประการ: XGBoost แปลงผู้เรียนที่อ่อนแอเป็นผู้เรียนที่แข็งแกร่ง อะไรคือข้อดีของการทำเช่นนี้? รวมผู้เรียนที่อ่อนแอหลายคนเข้าด้วยกันแทนที่จะใช้ต้นไม้ต้นเดียว? ป่าสุ่มใช้ตัวอย่างต่าง ๆ จากต้นไม้เพื่อสร้างต้นไม้ อะไรคือข้อดีของวิธีนี้แทนที่จะใช้ต้นไม้เอกพจน์

5
อัลกอริทึมต้นไม้ตัดสินใจเป็นแบบเชิงเส้นหรือไม่เชิงเส้น
เมื่อเร็ว ๆ นี้เพื่อนของฉันถูกถามว่าอัลกอริทึมการตัดสินใจต้นไม้เป็นขั้นตอนวิธีเชิงเส้นหรือไม่เชิงเส้นในการสัมภาษณ์ ฉันพยายามค้นหาคำตอบสำหรับคำถามนี้ แต่ไม่พบคำอธิบายที่น่าพอใจ ทุกคนสามารถตอบและอธิบายวิธีแก้ปัญหาสำหรับคำถามนี้ได้หรือไม่? นอกจากนี้ยังมีตัวอย่างอื่น ๆ ของอัลกอริทึมการเรียนรู้ด้วยเครื่องไม่เชิงเส้นคืออะไร?

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
วิธีการทำนายความน่าจะเป็นใน xgboost?
ฟังก์ชันการทำนายด้านล่างให้ค่า -ve เช่นกันดังนั้นจึงไม่น่าจะเป็น param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) ฉันลองใช้ Google แล้วpred_s <- predict(bst, x_mat_s2,type="response") แต่มันไม่ทำงาน คำถาม จะทำนายความน่าจะเป็นแทนได้อย่างไร?

1
จุดแยกถูกเลือกสำหรับตัวแปรต่อเนื่องในต้นไม้การตัดสินใจอย่างไร
ฉันมีคำถามสองข้อที่เกี่ยวข้องกับต้นไม้ตัดสินใจ: หากเรามีคุณลักษณะแบบต่อเนื่องเราจะเลือกค่าการแยกได้อย่างไร ตัวอย่าง: อายุ = (20,29,50,40 .... ) ลองนึกภาพว่าเรามีคุณลักษณะอย่างต่อเนื่องที่มีค่าในR ฉันสามารถเขียนขั้นตอนวิธีการที่พบแยกจุดโวลต์เพื่อที่ว่าเมื่อเราแยกฉโดยโวลต์เรามีกำไรขั้นต่ำสำหรับฉ> วี ?fffRRRvvvfffvvvf>vf>vf>v

4
ต้นไม้การตัดสินใจกับ KNN
ในกรณีใดดีกว่าที่จะใช้แผนผังการตัดสินใจและกรณีอื่นเป็น KNN เหตุใดจึงต้องใช้หนึ่งในนั้นในบางกรณี และอื่น ๆ ในกรณีที่แตกต่างกันอย่างไร (โดยดูที่ฟังก์ชันการทำงานไม่ใช่ที่อัลกอริทึม) ใครมีคำอธิบายหรือการอ้างอิงเกี่ยวกับเรื่องนี้บ้าง?

4
ต้นไม้ตัดสินใจหรือการถดถอยโลจิสติก?
ฉันกำลังทำงานกับปัญหาการจำแนก ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดและตัวแปรต่อเนื่องจำนวนเท่ากัน ฉันจะรู้เทคนิคการใช้งานได้อย่างไร? ระหว่างต้นไม้ตัดสินใจกับการถดถอยโลจิสติกส์? การสมมติว่าการถดถอยโลจิสติกจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่องและต้นไม้ตัดสินใจจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่อง + หมวดหมู่หรือไม่

1
ต้นไม้ที่เพิ่มการไล่ระดับสีสามารถใส่ฟังก์ชั่นใด ๆ ได้หรือไม่?
สำหรับเครือข่ายประสาทเรามีทฤษฎีบทประมาณสากลซึ่งระบุว่าเครือข่ายประสาทสามารถใกล้เคียงกับฟังก์ชั่นอย่างต่อเนื่องใด ๆ ในส่วนย่อยกะทัดรัดของ nRnRnR^n มีผลที่คล้ายกันสำหรับต้นไม้ที่เพิ่มการไล่ระดับสีหรือไม่? ดูเหมือนว่าสมเหตุสมผลเนื่องจากคุณสามารถเพิ่มสาขาได้มากขึ้น แต่ฉันไม่สามารถหาหัวข้อสนทนาที่เป็นทางการได้ แก้ไข: คำถามของฉันดูเหมือนจะคล้ายกับ ต้นไม้ถดถอยสามารถทำนายได้อย่างต่อเนื่อง? แม้ว่าอาจจะไม่ได้ถามในสิ่งเดียวกัน แต่ดูคำถามนั้นสำหรับการสนทนาที่เกี่ยวข้อง

1
ต้นไม้ตัดสินใจ: ต้นไม้ฉลาด (ดีที่สุดก่อน) และระดับต้นไม้ฉลาด
ปัญหาที่ 1: ฉันสับสนกับคำอธิบายของ LightGBMเกี่ยวกับวิธีการขยายต้นไม้ พวกเขาระบุ: ขั้นตอนวิธีการเรียนรู้ต้นไม้ตัดสินใจส่วนใหญ่จะปลูกต้นไม้ตามระดับ (ความลึก) ในแนวนอนเช่นภาพต่อไปนี้: คำถามที่ 1 : อัลกอริทึม "ส่วนใหญ่" ใดถูกนำมาใช้ในลักษณะนี้ เท่าที่ฉันรู้ C4.5 และ CART ใช้ DFS XGBoost ใช้ BFS อัลกอริธึมหรือแพ็คเกจอื่นใดที่ใช้ BFS สำหรับต้นไม้ตัดสินใจ ปัญหาที่ 2: สถานะ LightGBM: LightGBM ปลูกต้นไม้ตามใบฉลาด (ดีที่สุดก่อน) มันจะเลือกใบไม้ที่มีการสูญเสียเดลต้าสูงสุดที่จะเติบโต เมื่อปลูกใบเดียวกันอัลกอริทึมใบไม้ฉลาดสามารถลดการสูญเสียมากกว่าอัลกอริทึมระดับฉลาด คำถามที่ 2 : ถูกต้องหรือไม่ที่จะบอกว่าต้นไม้เจริญเติบโตที่ชาญฉลาดระดับจะมีความลึกเท่ากันสำหรับใบไม้ทั้งหมด? คำถามที่ 3:หากคำถามที่ 2 ไม่ถูกต้องต้นไม้จากการเติบโตในระดับที่ฉลาดและใบไม้จะมีลักษณะเหมือนกันในตอนท้ายของการสำรวจเส้นทาง (โดยไม่ต้องตัดแต่งกิ่ง ฯลฯ ) มันเป็นคำสั่งที่ถูกต้องหรือไม่ คำถามที่ 4:ถ้าคำถามที่ 3 …

1
XGBRegressor vs. xgboost.train ความแตกต่างความเร็วสูงหรือไม่?
ถ้าฉันฝึกโมเดลของฉันโดยใช้รหัสต่อไปนี้: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) มันเสร็จในเวลาประมาณ 1 นาที ถ้าฉันฝึกโมเดลของฉันโดยใช้วิธีการเรียนรู้ Sci-Kit: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = …

3
คลาสที่ไม่สมดุล - วิธีการลดเชิงลบที่ผิดพลาดให้น้อยที่สุดได้อย่างไร
ฉันมีชุดข้อมูลที่มีคุณลักษณะคลาสไบนารี มีอินสแตนซ์ 623 คลาส +1 (บวกมะเร็ง) และ 101,671 อินสแตนซ์กับคลาส -1 (ลบมะเร็ง) ฉันได้ลองอัลกอริธึมที่หลากหลาย (Naive Bayes, Random Forest, AODE, C4.5) และทั้งหมดนั้นมีอัตราส่วนลบติดลบที่ยอมรับไม่ได้ ป่าสุ่มมีความแม่นยำในการทำนายโดยรวมสูงสุด (99.5%) และอัตราส่วนลบติดลบต่ำสุด แต่ก็ยังพลาด 79% ของคลาสบวก (เช่นไม่สามารถตรวจจับ 79% ของเนื้องอกมะเร็ง) ความคิดใดที่ฉันสามารถปรับปรุงสถานการณ์นี้ได้? ขอบคุณ!

3
ต้นไม้ถดถอยสามารถทำนายได้อย่างต่อเนื่องหรือไม่?
สมมติว่าฉันมีฟังก์ชั่นได้อย่างราบรื่นเช่น 2 ฉันมีชุดการฝึกอบรมD \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \}และแน่นอนฉันไม่รู้fถึงแม้ว่าฉันสามารถประเมินfทุกที่ที่ฉันต้องการฉ( x , y) = x2+ y2ฉ(x,Y)=x2+Y2f(x, y) = x^2+y^2D ⊊ { ( ( x , y) , ฉ( x , y) ) | ( x , y) ∈ …

2
วิธีปรับมาตรฐานข้อมูลสำหรับโครงข่ายประสาทและฟอเรสต์ตัดสินใจ
ฉันมีชุดข้อมูลที่มี 20,000 ตัวอย่างแต่ละตัวมีคุณสมบัติที่แตกต่างกัน 12 แบบ ตัวอย่างแต่ละตัวอย่างเป็นหมวดหมู่ 0 หรือ 1 ฉันต้องการฝึกโครงข่ายประสาทและกลุ่มฟอเรสต์ตัดสินใจจัดกลุ่มตัวอย่างเพื่อให้ฉันสามารถเปรียบเทียบผลลัพธ์และเทคนิคทั้งสองได้ สิ่งแรกที่ฉันสะดุดคือการฟื้นฟูข้อมูลที่เหมาะสม คุณลักษณะหนึ่งอยู่ในช่วงอีกคุณลักษณะหนึ่งในและมีคุณลักษณะหนึ่งที่ใช้ค่า 8 และบางครั้งส่วนใหญ่ 7 ดังนั้นเมื่อฉันอ่านในแหล่งที่แตกต่างกัน ข้อมูลเป็นสิ่งสำคัญสำหรับเครือข่ายประสาท ดังที่ฉันค้นพบมีวิธีที่เป็นไปได้มากมายในการทำให้ข้อมูลเป็นมาตรฐานเช่น:[0,106][0,106][0,10^6][30,40][30,40][30,40] การปรับสภาพให้ต่ำสุด - สูงสุด : ช่วงอินพุตจะถูกแปลงเชิงเส้นเป็นช่วง (หรืออีกทางหนึ่งมีความสำคัญหรือไม่?)[0,1][0,1][0,1][−1,1][−1,1][-1,1] การทำให้เป็นมาตรฐานของ Z : ข้อมูลถูกแปลงให้มีค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย: ynew=yold−meanVar−−−√ynew=yold−meanVary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} ฉันควรเลือกบรรทัดฐานใด การฟื้นฟูสภาพป่าเป็นสิ่งจำเป็นสำหรับการตัดสินใจด้วยหรือไม่? ด้วยการทำให้เป็นมาตรฐาน Z คะแนนคุณสมบัติที่แตกต่างของข้อมูลการทดสอบของฉันไม่ได้อยู่ในช่วงเดียวกัน นี่อาจเป็นปัญหาหรือไม่? คุณสมบัติทุกอย่างควรทำให้เป็นมาตรฐานด้วยอัลกอริทึมเดียวกันดังนั้นฉันจึงตัดสินใจใช้ Min-Max สำหรับคุณสมบัติทั้งหมดหรือ Z-Score สำหรับคุณสมบัติทั้งหมด มีการรวมกันที่ข้อมูลถูกแมปไปที่และยังมีค่าเฉลี่ยเป็นศูนย์ (ซึ่งจะบอกเป็นนัยถึงการแปลงแบบไม่เป็นเชิงเส้นของข้อมูลและด้วยเหตุนี้การเปลี่ยนแปลงในความแปรปรวนและคุณสมบัติอื่น ๆ ของข้อมูลอินพุต)[−1,1][−1,1][-1,1] ฉันรู้สึกว่าหายไปเล็กน้อยเพราะฉันไม่สามารถหาข้อมูลอ้างอิงที่ตอบคำถามเหล่านี้ได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.