วิทยาศาสตร์ข้อมูล decision-trees

8

เมื่อใดที่ฉันควรใช้ Gini Impurity เมื่อเทียบกับการได้รับข้อมูล

ใครบางคนสามารถอธิบายเหตุผลเบื้องหลังความไม่บริสุทธิ์ของ GiniกับInformation gain (อิงจากเอนโทรปี) ได้หรือไม่? ตัวชี้วัดใดดีกว่าที่จะใช้ในสถานการณ์ต่างๆในขณะที่ใช้แผนผังการตัดสินใจ

66 machine-learning decision-trees

6

สตริงเป็นคุณลักษณะในต้นไม้ตัดสินใจ / ฟอเรสต์แบบสุ่ม

ฉันกำลังทำปัญหาบางอย่างกับการใช้ต้นไม้ตัดสินใจ / ป่าสุ่ม ฉันกำลังพยายามหาปัญหาที่มีตัวเลขและสตริง (เช่นชื่อประเทศ) เป็นคุณลักษณะ ตอนนี้ห้องสมุดscikit-learnจะใช้ตัวเลขเป็นพารามิเตอร์เท่านั้น แต่ฉันต้องการฉีดสตริงรวมถึงมีความรู้จำนวนมาก ฉันจะจัดการสถานการณ์ดังกล่าวได้อย่างไร ฉันสามารถแปลงสตริงเป็นตัวเลขโดยกลไกบางอย่างเช่น hashing ใน Python แต่ฉันต้องการทราบวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับวิธีการจัดการสตริงในปัญหาต้นไม้การตัดสินใจ

64 machine-learning python scikit-learn random-forest decision-trees

3

ทำไมเราต้องมี XGBoost และ Random Forest?

ฉันไม่ชัดเจนเกี่ยวกับแนวคิดสองประการ: XGBoost แปลงผู้เรียนที่อ่อนแอเป็นผู้เรียนที่แข็งแกร่ง อะไรคือข้อดีของการทำเช่นนี้? รวมผู้เรียนที่อ่อนแอหลายคนเข้าด้วยกันแทนที่จะใช้ต้นไม้ต้นเดียว? ป่าสุ่มใช้ตัวอย่างต่าง ๆ จากต้นไม้เพื่อสร้างต้นไม้ อะไรคือข้อดีของวิธีนี้แทนที่จะใช้ต้นไม้เอกพจน์

25 machine-learning data-mining random-forest decision-trees xgboost

5

อัลกอริทึมต้นไม้ตัดสินใจเป็นแบบเชิงเส้นหรือไม่เชิงเส้น

เมื่อเร็ว ๆ นี้เพื่อนของฉันถูกถามว่าอัลกอริทึมการตัดสินใจต้นไม้เป็นขั้นตอนวิธีเชิงเส้นหรือไม่เชิงเส้นในการสัมภาษณ์ ฉันพยายามค้นหาคำตอบสำหรับคำถามนี้ แต่ไม่พบคำอธิบายที่น่าพอใจ ทุกคนสามารถตอบและอธิบายวิธีแก้ปัญหาสำหรับคำถามนี้ได้หรือไม่? นอกจากนี้ยังมีตัวอย่างอื่น ๆ ของอัลกอริทึมการเรียนรู้ด้วยเครื่องไม่เชิงเส้นคืออะไร?

21 machine-learning classification decision-trees algorithms pac-learning

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

วิธีการทำนายความน่าจะเป็นใน xgboost?

ฟังก์ชันการทำนายด้านล่างให้ค่า -ve เช่นกันดังนั้นจึงไม่น่าจะเป็น param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) ฉันลองใช้ Google แล้วpred_s <- predict(bst, x_mat_s2,type="response") แต่มันไม่ทำงาน คำถาม จะทำนายความน่าจะเป็นแทนได้อย่างไร?

16 machine-learning r predictive-modeling decision-trees

1

จุดแยกถูกเลือกสำหรับตัวแปรต่อเนื่องในต้นไม้การตัดสินใจอย่างไร

ฉันมีคำถามสองข้อที่เกี่ยวข้องกับต้นไม้ตัดสินใจ: หากเรามีคุณลักษณะแบบต่อเนื่องเราจะเลือกค่าการแยกได้อย่างไร ตัวอย่าง: อายุ = (20,29,50,40 .... ) ลองนึกภาพว่าเรามีคุณลักษณะอย่างต่อเนื่องที่มีค่าในR ฉันสามารถเขียนขั้นตอนวิธีการที่พบแยกจุดโวลต์เพื่อที่ว่าเมื่อเราแยกฉโดยโวลต์เรามีกำไรขั้นต่ำสำหรับฉ> วี ?fffRRRvvvfffvvvf>vf>vf>v

15 classification data decision-trees

4

ต้นไม้การตัดสินใจกับ KNN

ในกรณีใดดีกว่าที่จะใช้แผนผังการตัดสินใจและกรณีอื่นเป็น KNN เหตุใดจึงต้องใช้หนึ่งในนั้นในบางกรณี และอื่น ๆ ในกรณีที่แตกต่างกันอย่างไร (โดยดูที่ฟังก์ชันการทำงานไม่ใช่ที่อัลกอริทึม) ใครมีคำอธิบายหรือการอ้างอิงเกี่ยวกับเรื่องนี้บ้าง?

15 machine-learning data-mining decision-trees

4

ต้นไม้ตัดสินใจหรือการถดถอยโลจิสติก?

ฉันกำลังทำงานกับปัญหาการจำแนก ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดและตัวแปรต่อเนื่องจำนวนเท่ากัน ฉันจะรู้เทคนิคการใช้งานได้อย่างไร? ระหว่างต้นไม้ตัดสินใจกับการถดถอยโลจิสติกส์? การสมมติว่าการถดถอยโลจิสติกจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่องและต้นไม้ตัดสินใจจะเหมาะสมกว่าสำหรับตัวแปรต่อเนื่อง + หมวดหมู่หรือไม่

14 classification logistic-regression decision-trees

1

ต้นไม้ที่เพิ่มการไล่ระดับสีสามารถใส่ฟังก์ชั่นใด ๆ ได้หรือไม่?

สำหรับเครือข่ายประสาทเรามีทฤษฎีบทประมาณสากลซึ่งระบุว่าเครือข่ายประสาทสามารถใกล้เคียงกับฟังก์ชั่นอย่างต่อเนื่องใด ๆ ในส่วนย่อยกะทัดรัดของ nRnRnR^n มีผลที่คล้ายกันสำหรับต้นไม้ที่เพิ่มการไล่ระดับสีหรือไม่? ดูเหมือนว่าสมเหตุสมผลเนื่องจากคุณสามารถเพิ่มสาขาได้มากขึ้น แต่ฉันไม่สามารถหาหัวข้อสนทนาที่เป็นทางการได้ แก้ไข: คำถามของฉันดูเหมือนจะคล้ายกับ ต้นไม้ถดถอยสามารถทำนายได้อย่างต่อเนื่อง? แม้ว่าอาจจะไม่ได้ถามในสิ่งเดียวกัน แต่ดูคำถามนั้นสำหรับการสนทนาที่เกี่ยวข้อง

14 decision-trees

1

ต้นไม้ตัดสินใจ: ต้นไม้ฉลาด (ดีที่สุดก่อน) และระดับต้นไม้ฉลาด

ปัญหาที่ 1: ฉันสับสนกับคำอธิบายของ LightGBMเกี่ยวกับวิธีการขยายต้นไม้ พวกเขาระบุ: ขั้นตอนวิธีการเรียนรู้ต้นไม้ตัดสินใจส่วนใหญ่จะปลูกต้นไม้ตามระดับ (ความลึก) ในแนวนอนเช่นภาพต่อไปนี้: คำถามที่ 1 : อัลกอริทึม "ส่วนใหญ่" ใดถูกนำมาใช้ในลักษณะนี้ เท่าที่ฉันรู้ C4.5 และ CART ใช้ DFS XGBoost ใช้ BFS อัลกอริธึมหรือแพ็คเกจอื่นใดที่ใช้ BFS สำหรับต้นไม้ตัดสินใจ ปัญหาที่ 2: สถานะ LightGBM: LightGBM ปลูกต้นไม้ตามใบฉลาด (ดีที่สุดก่อน) มันจะเลือกใบไม้ที่มีการสูญเสียเดลต้าสูงสุดที่จะเติบโต เมื่อปลูกใบเดียวกันอัลกอริทึมใบไม้ฉลาดสามารถลดการสูญเสียมากกว่าอัลกอริทึมระดับฉลาด คำถามที่ 2 : ถูกต้องหรือไม่ที่จะบอกว่าต้นไม้เจริญเติบโตที่ชาญฉลาดระดับจะมีความลึกเท่ากันสำหรับใบไม้ทั้งหมด? คำถามที่ 3:หากคำถามที่ 2 ไม่ถูกต้องต้นไม้จากการเติบโตในระดับที่ฉลาดและใบไม้จะมีลักษณะเหมือนกันในตอนท้ายของการสำรวจเส้นทาง (โดยไม่ต้องตัดแต่งกิ่ง ฯลฯ ) มันเป็นคำสั่งที่ถูกต้องหรือไม่ คำถามที่ 4:ถ้าคำถามที่ 3 …

14 decision-trees xgboost

1

XGBRegressor vs. xgboost.train ความแตกต่างความเร็วสูงหรือไม่?

ถ้าฉันฝึกโมเดลของฉันโดยใช้รหัสต่อไปนี้: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) มันเสร็จในเวลาประมาณ 1 นาที ถ้าฉันฝึกโมเดลของฉันโดยใช้วิธีการเรียนรู้ Sci-Kit: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = …

13 machine-learning python decision-trees xgboost efficiency

3

คลาสที่ไม่สมดุล - วิธีการลดเชิงลบที่ผิดพลาดให้น้อยที่สุดได้อย่างไร

ฉันมีชุดข้อมูลที่มีคุณลักษณะคลาสไบนารี มีอินสแตนซ์ 623 คลาส +1 (บวกมะเร็ง) และ 101,671 อินสแตนซ์กับคลาส -1 (ลบมะเร็ง) ฉันได้ลองอัลกอริธึมที่หลากหลาย (Naive Bayes, Random Forest, AODE, C4.5) และทั้งหมดนั้นมีอัตราส่วนลบติดลบที่ยอมรับไม่ได้ ป่าสุ่มมีความแม่นยำในการทำนายโดยรวมสูงสุด (99.5%) และอัตราส่วนลบติดลบต่ำสุด แต่ก็ยังพลาด 79% ของคลาสบวก (เช่นไม่สามารถตรวจจับ 79% ของเนื้องอกมะเร็ง) ความคิดใดที่ฉันสามารถปรับปรุงสถานการณ์นี้ได้? ขอบคุณ!

11 classification random-forest decision-trees unbalanced-classes

3

ต้นไม้ถดถอยสามารถทำนายได้อย่างต่อเนื่องหรือไม่?

สมมติว่าฉันมีฟังก์ชั่นได้อย่างราบรื่นเช่น 2 ฉันมีชุดการฝึกอบรมD \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \}และแน่นอนฉันไม่รู้fถึงแม้ว่าฉันสามารถประเมินfทุกที่ที่ฉันต้องการฉ( x , y) = x2+ y2ฉ(x,Y)=x2+Y2f(x, y) = x^2+y^2D ⊊ { ( ( x , y) , ฉ( x , y) ) | ( x , y) ∈ …

11 predictive-modeling regression decision-trees

2

วิธีปรับมาตรฐานข้อมูลสำหรับโครงข่ายประสาทและฟอเรสต์ตัดสินใจ

ฉันมีชุดข้อมูลที่มี 20,000 ตัวอย่างแต่ละตัวมีคุณสมบัติที่แตกต่างกัน 12 แบบ ตัวอย่างแต่ละตัวอย่างเป็นหมวดหมู่ 0 หรือ 1 ฉันต้องการฝึกโครงข่ายประสาทและกลุ่มฟอเรสต์ตัดสินใจจัดกลุ่มตัวอย่างเพื่อให้ฉันสามารถเปรียบเทียบผลลัพธ์และเทคนิคทั้งสองได้ สิ่งแรกที่ฉันสะดุดคือการฟื้นฟูข้อมูลที่เหมาะสม คุณลักษณะหนึ่งอยู่ในช่วงอีกคุณลักษณะหนึ่งในและมีคุณลักษณะหนึ่งที่ใช้ค่า 8 และบางครั้งส่วนใหญ่ 7 ดังนั้นเมื่อฉันอ่านในแหล่งที่แตกต่างกัน ข้อมูลเป็นสิ่งสำคัญสำหรับเครือข่ายประสาท ดังที่ฉันค้นพบมีวิธีที่เป็นไปได้มากมายในการทำให้ข้อมูลเป็นมาตรฐานเช่น:[0,106][0,106][0,10^6][30,40][30,40][30,40] การปรับสภาพให้ต่ำสุด - สูงสุด : ช่วงอินพุตจะถูกแปลงเชิงเส้นเป็นช่วง (หรืออีกทางหนึ่งมีความสำคัญหรือไม่?)[0,1][0,1][0,1][−1,1][−1,1][-1,1] การทำให้เป็นมาตรฐานของ Z : ข้อมูลถูกแปลงให้มีค่าเฉลี่ยศูนย์และความแปรปรวนของหน่วย: ynew=yold−meanVar−−−√ynew=yold−meanVary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} ฉันควรเลือกบรรทัดฐานใด การฟื้นฟูสภาพป่าเป็นสิ่งจำเป็นสำหรับการตัดสินใจด้วยหรือไม่? ด้วยการทำให้เป็นมาตรฐาน Z คะแนนคุณสมบัติที่แตกต่างของข้อมูลการทดสอบของฉันไม่ได้อยู่ในช่วงเดียวกัน นี่อาจเป็นปัญหาหรือไม่? คุณสมบัติทุกอย่างควรทำให้เป็นมาตรฐานด้วยอัลกอริทึมเดียวกันดังนั้นฉันจึงตัดสินใจใช้ Min-Max สำหรับคุณสมบัติทั้งหมดหรือ Z-Score สำหรับคุณสมบัติทั้งหมด มีการรวมกันที่ข้อมูลถูกแมปไปที่และยังมีค่าเฉลี่ยเป็นศูนย์ (ซึ่งจะบอกเป็นนัยถึงการแปลงแบบไม่เป็นเชิงเส้นของข้อมูลและด้วยเหตุนี้การเปลี่ยนแปลงในความแปรปรวนและคุณสมบัติอื่น ๆ ของข้อมูลอินพุต)[−1,1][−1,1][-1,1] ฉันรู้สึกว่าหายไปเล็กน้อยเพราะฉันไม่สามารถหาข้อมูลอ้างอิงที่ตอบคำถามเหล่านี้ได้

10 neural-network decision-trees normalization

คำถามติดแท็ก decision-trees