คำถามติดแท็ก classification

อินสแตนซ์ของการเรียนรู้ภายใต้การดูแลที่ระบุหมวดหมู่หรือหมวดหมู่ที่อินสแตนซ์ใหม่ของชุดข้อมูลเป็นของ

8
วิธีการตั้งค่าน้ำหนักของคลาสสำหรับคลาสที่ไม่สมดุลใน Keras
ฉันรู้ว่ามีความเป็นไปได้ใน Keras ด้วยclass_weightsพจนานุกรมพารามิเตอร์ที่เหมาะสม แต่ฉันไม่พบตัวอย่างใด ๆ ใครบางคนจะใจดีที่จะให้อย่างใดอย่างหนึ่ง? โดยวิธีการในกรณีนี้แพรคซิที่เหมาะสมเป็นเพียงการเพิ่มน้ำหนักให้กับชนกลุ่มน้อยตามสัดส่วนการแสดง?

6
ความคล้ายคลึงกันของโคไซน์กับจุดผลิตภัณฑ์เป็นตัวชี้วัดระยะทาง
ดูเหมือนความคล้ายคลึงของโคไซน์ของคุณสมบัติสองอย่างนี้เป็นเพียงแค่ผลิตภัณฑ์ดอทของพวกเขาถูกย่อส่วนโดยผลคูณของขนาด โคไซน์ที่คล้ายคลึงกันสร้างระยะทางที่ดีกว่าผลิตภัณฑ์จุดเมื่อใด เช่นเดียวกับ dot product และ cosine คล้ายคลึงกันมีจุดแข็งหรือจุดอ่อนต่างกันในสถานการณ์ที่แตกต่างกันหรือไม่?

1
Keras รุ่นที่ดีที่สุดสำหรับการจำแนกประเภทหลายประเภทคืออะไร?
ฉันกำลังทำงานวิจัยที่จำเป็นที่จะต้องเป็นหนึ่งในประเภทของผู้ชนะสามเหตุการณ์ = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 รุ่นปัจจุบันของฉันคือ: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model …

5
Deep Learning vs gradient boosting: เมื่อไรที่จะใช้อะไร
ฉันมีปัญหาข้อมูลขนาดใหญ่กับชุดข้อมูลขนาดใหญ่ (ใช้เวลา 50 ล้านแถวและ 200 คอลัมน์) ชุดข้อมูลประกอบด้วยคอลัมน์ตัวเลขประมาณ 100 คอลัมน์และคอลัมน์หมวด 100 คอลัมน์และคอลัมน์ตอบกลับที่แสดงถึงปัญหาระดับไบนารี ความสำคัญของแต่ละคอลัมน์ที่มีค่าน้อยกว่า 50 ฉันต้องการรู้เบื้องต้นว่าฉันควรจะไปเรียนรู้วิธีการเรียนรู้แบบลึกหรือวิธีการเรียนรู้ด้วยต้นไม้ทั้งมวล (เช่นการไล่ระดับสีไล่ระดับ, adaboost หรือป่าสุ่ม) มีการวิเคราะห์ข้อมูลเชิงสำรวจหรือเทคนิคอื่น ๆ ที่สามารถช่วยฉันตัดสินใจเลือกวิธีหนึ่งมากกว่าวิธีอื่นได้หรือไม่?

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
คู่มือฉบับย่อเกี่ยวกับการฝึกอบรมชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีปัญหาการจัดหมวดหมู่โดยมี 1,000 ตัวอย่างบวกและลบ 10,000 ตัวอย่างในชุดการฝึกอบรม ดังนั้นชุดข้อมูลนี้จึงค่อนข้างไม่สมดุล ป่าสุ่มธรรมดา ๆ กำลังพยายามทำเครื่องหมายตัวอย่างการทดสอบทั้งหมดว่าเป็นเสียงส่วนใหญ่ คำตอบที่ดีเกี่ยวกับการสุ่มตัวอย่างย่อยและการสุ่มน้ำหนักป่ามีให้ที่นี่: อะไรคือความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูง? วิธีการจำแนกประเภทใดนอกจาก RF สามารถจัดการปัญหาได้อย่างดีที่สุด?

4
เมื่อใดที่จะใช้ Random Forest เหนือ SVM และในทางกลับกัน
เมื่อไหร่จะใช้Random Forestซ้ำSVMและในทางกลับกัน? ฉันเข้าใจว่าcross-validationและการเปรียบเทียบแบบจำลองเป็นสิ่งสำคัญในการเลือกแบบจำลอง แต่ที่นี่ฉันต้องการเรียนรู้เพิ่มเติมเกี่ยวกับกฎง่ายๆและการวิเคราะห์พฤติกรรมของทั้งสองวิธี บางคนช่วยอธิบายรายละเอียดปลีกย่อยจุดแข็งและจุดอ่อนของตัวแยกประเภทรวมทั้งปัญหาที่เหมาะสมที่สุดสำหรับแต่ละคนได้หรือไม่?

4
ฉันควรใช้อัลกอริทึมใดเพื่อจำแนกงานตามข้อมูลประวัติย่อ
โปรดทราบว่าฉันกำลังทำทุกอย่างในอาร์ ปัญหาเกิดขึ้นดังนี้: โดยทั่วไปฉันมีรายการเรซูเม่ (CVs) ผู้สมัครบางคนจะมีประสบการณ์การทำงานมาก่อนและบางคนไม่ เป้าหมายที่นี่คือ: ขึ้นอยู่กับข้อความในประวัติส่วนตัวของพวกเขาฉันต้องการแบ่งพวกเขาออกเป็นภาคงานที่แตกต่างกัน โดยเฉพาะอย่างยิ่งฉันในกรณีเหล่านี้ซึ่งผู้สมัครไม่มีประสบการณ์ใด ๆ / เป็นนักเรียนและฉันต้องการที่จะทำนายการจำแนกประเภทของงานที่ผู้สมัครคนนี้น่าจะเป็นหลังจบการศึกษา คำถามที่ 1: ฉันรู้อัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามฉันไม่เคยทำ NLP มาก่อน ฉันเจอการปันส่วน Dirichlet ของ Latent บนอินเทอร์เน็ต อย่างไรก็ตามฉันไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุดในการแก้ไขปัญหาของฉันหรือไม่ ความคิดเดิมของฉัน: ทำให้การเรียนรู้นี้ภายใต้การดูแลปัญหา สมมติว่าเรามีข้อมูลที่มีป้ายกำกับจำนวนมากอยู่แล้วซึ่งหมายความว่าเรามีการติดป้ายชื่อหมวดงานให้ถูกต้องสำหรับรายชื่อผู้สมัคร เราฝึกอบรมแบบจำลองโดยใช้อัลกอริธึม ML (เช่นเพื่อนบ้านที่ใกล้ที่สุด ... ) และป้อนข้อมูลในข้อมูลที่ไม่มีป้ายกำกับซึ่งเป็นผู้สมัครที่ไม่มีประสบการณ์การทำงาน / เป็นนักเรียนและพยายามคาดการณ์ว่าพวกเขาจะอยู่ในภาคส่วนใด อัปเดต คำถามที่ 2: เป็นการดีหรือไม่ที่จะสร้างไฟล์ข้อความโดยแยกทุกอย่างในประวัติย่อและพิมพ์ข้อมูลเหล่านี้ออกมาในไฟล์ข้อความเพื่อให้แต่ละเรซูเม่เกี่ยวข้องกับไฟล์ข้อความซึ่งมีสตริงที่ไม่มีโครงสร้างและจากนั้นเรา นำเทคนิคการขุดข้อความไปใช้กับไฟล์ข้อความและทำให้ข้อมูลมีโครงสร้างหรือแม้กระทั่งการสร้างเมทริกซ์ความถี่ของคำที่ใช้จากไฟล์ข้อความ? ตัวอย่างเช่นไฟล์ข้อความอาจมีลักษณะดังนี้: I deployed ML algorithm in this project and... Skills: Java, …

4
วิธีรับความแม่นยำ F1 ความแม่นยำและการเรียกคืนสำหรับโมเดล keras ได้อย่างไร
ฉันต้องการคำนวณความแม่นยำการเรียกคืนและคะแนน F1 สำหรับโมเดล KerasClassifier ไบนารีของฉัน แต่ไม่พบวิธีแก้ปัญหาใด ๆ นี่คือรหัสจริงของฉัน: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = …

5
อัลกอริทึมต้นไม้ตัดสินใจเป็นแบบเชิงเส้นหรือไม่เชิงเส้น
เมื่อเร็ว ๆ นี้เพื่อนของฉันถูกถามว่าอัลกอริทึมการตัดสินใจต้นไม้เป็นขั้นตอนวิธีเชิงเส้นหรือไม่เชิงเส้นในการสัมภาษณ์ ฉันพยายามค้นหาคำตอบสำหรับคำถามนี้ แต่ไม่พบคำอธิบายที่น่าพอใจ ทุกคนสามารถตอบและอธิบายวิธีแก้ปัญหาสำหรับคำถามนี้ได้หรือไม่? นอกจากนี้ยังมีตัวอย่างอื่น ๆ ของอัลกอริทึมการเรียนรู้ด้วยเครื่องไม่เชิงเส้นคืออะไร?

3
ความแตกต่างระหว่างการจำแนกข้อความและตัวแบบหัวข้อคืออะไร?
ฉันรู้ความแตกต่างระหว่างการจัดกลุ่มและการจัดหมวดหมู่ในการเรียนรู้ของเครื่อง แต่ฉันไม่เข้าใจความแตกต่างระหว่างการจัดกลุ่มข้อความและการสร้างแบบจำลองหัวข้อสำหรับเอกสาร ฉันสามารถใช้การสร้างแบบจำลองหัวข้อบนเอกสารเพื่อระบุหัวข้อได้หรือไม่ ฉันสามารถใช้วิธีการจัดหมวดหมู่เพื่อจำแนกข้อความในเอกสารเหล่านี้ได้หรือไม่?

4
ข้อมูลมัลติคลาสที่ไม่สมดุลกับ XGBoost
ฉันมี 3 คลาสพร้อมการกระจายนี้: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 และฉันใช้xgboostสำหรับการจำแนกประเภท scale_pos_weightฉันรู้ว่ามีพารามิเตอร์ที่เรียกว่า แต่จะจัดการกับกรณี 'มัลติคลาส' ได้อย่างไรและฉันจะตั้งค่าได้อย่างไร

2
การจัดหมวดหมู่ข้อความ: รวมคุณสมบัติที่แตกต่าง
ปัญหาที่ฉันแก้ปัญหาคือการจัดหมวดหมู่ข้อความสั้น ๆ เป็นหลายคลาส วิธีการปัจจุบันของฉันคือการใช้ความถี่เทอม tf-idf และเรียนรู้ลักษณนามเชิงเส้นอย่างง่าย (การถดถอยโลจิสติก) วิธีนี้ใช้ได้ดีพอสมควร (มาโคร 90% F-1 ในชุดทดสอบเกือบ 100% สำหรับชุดฝึกอบรม) ปัญหาใหญ่คือสิ่งที่มองไม่เห็นคำ / n-g ฉันพยายามปรับปรุงตัวจําแนกโดยการเพิ่มคุณสมบัติอื่น ๆ เช่นเวกเตอร์ขนาดคงที่ที่คำนวณโดยใช้ความคล้ายคลึงกันแบบกระจาย (ตามที่คำนวณโดย word2vec) หรือคุณสมบัติหมวดหมู่อื่น ๆ ของตัวอย่าง ความคิดของฉันคือการเพิ่มคุณสมบัติให้กับคุณสมบัติการป้อนข้อมูลแบบเบาบางจากถุงคำ อย่างไรก็ตามผลลัพธ์นี้มีประสิทธิภาพที่แย่ลงในชุดการทดสอบและการฝึกอบรม คุณสมบัติเพิ่มเติมด้วยตัวเองให้ประมาณ 80% F-1 ในชุดทดสอบดังนั้นพวกเขาจึงไม่ขยะ การขยายคุณสมบัติไม่ได้ช่วยเช่นกัน ความคิดปัจจุบันของฉันคือคุณสมบัติเหล่านี้ไม่เข้ากันได้ดีกับคุณลักษณะถุงคำ (เบาบาง) ดังนั้นคำถามคือสมมติว่าคุณสมบัติเพิ่มเติมให้ข้อมูลเพิ่มเติมวิธีที่ดีที่สุดที่จะรวมพวกเขาคืออะไร? สามารถแยกตัวแยกประเภทและรวมพวกมันในงานวงดนตรีบางประเภทได้หรือไม่ (นี่อาจเป็นข้อเสียเปรียบที่จะไม่มีการโต้ตอบระหว่างคุณลักษณะของตัวแยกประเภทที่แตกต่างกัน) มีรุ่นอื่นที่ซับซ้อนกว่านี้ที่ฉันควรพิจารณาอีกหรือไม่

4
เมื่อไหร่ที่จะใช้ระยะทางแมนฮัตตันเมื่อเทียบกับระยะทางแบบยุคลิด
ฉันพยายามหาเหตุผลที่ดีว่าทำไมคนเราถึงใช้ระยะทางแมนฮัตตันเหนือระยะทางแบบยุคลิดในการเรียนรู้ของเครื่องจักร สิ่งที่ใกล้เคียงผมพบว่าการโต้แย้งที่ดีเพื่อให้ห่างไกลในการบรรยายนี้เอ็มไอที ที่ 36:15 คุณสามารถดูคำสั่งต่อไปนี้บนสไลด์: "โดยทั่วไปใช้ตัวชี้วัดแบบยุคลิดแมนฮัตตันอาจเหมาะสมถ้าขนาดที่แตกต่างกันไม่สามารถเทียบเคียงได้ " ไม่นานหลังจากอาจารย์บอกว่าเนื่องจากจำนวนขาของสัตว์เลื้อยคลานแตกต่างกันไปตั้งแต่ 0 ถึง 4 (ในขณะที่คุณสมบัติอื่น ๆ เป็นแบบไบนารี่แตกต่างกันเพียงตั้งแต่ 0 ถึง 1) คุณลักษณะ "จำนวนขา" จะจบลงด้วยความสูงกว่ามาก น้ำหนักถ้าใช้ระยะทางแบบยุคลิด แน่นอนว่าถูกต้องแน่นอน แต่สิ่งหนึ่งก็จะมีปัญหานั้นเช่นกันหากใช้ระยะทางแมนฮัตตัน (เฉพาะที่ปัญหาจะลดลงเล็กน้อยเพราะเราไม่ได้ยกกำลังสองความแตกต่างเหมือนที่เราทำกับระยะทางแบบยุคลิดแทน) วิธีที่ดีกว่าในการแก้ปัญหาข้างต้นคือการทำให้ปกติคุณสมบัติ "จำนวนขา" ดังนั้นค่าของมันจะอยู่ระหว่าง 0 ถึง 1 ดังนั้นเนื่องจากมีวิธีที่ดีกว่าในการแก้ปัญหามันรู้สึกเหมือนข้อโต้แย้งของการใช้ระยะทางแมนฮัตตันในกรณีนี้ไม่มีจุดแข็งกว่าอย่างน้อยในความคิดของฉัน ไม่มีใครรู้ว่าทำไมและเมื่อไหร่ที่ใครบางคนจะใช้ระยะทางแมนฮัตตันเหนือยุคลิด ทุกคนสามารถให้ตัวอย่างฉันซึ่งใช้ระยะทางแมนฮัตตันจะให้ผลลัพธ์ที่ดีกว่า?

2
วิธีเพิ่มความแม่นยำของตัวจําแนก
ฉันใช้ตัวอย่าง OpenCV letter_recog.cpp เพื่อทดลองบนต้นไม้แบบสุ่มและตัวแยกประเภทอื่น ๆ ตัวอย่างนี้มีการใช้งานของตัวแยกประเภทหกตัว - ต้นไม้แบบสุ่ม, การส่งเสริม, MLP, kNN, ไร้เดียงสา Bayes และ SVM ชุดข้อมูลการรู้จำจดหมาย UCI ที่มีอินสแตนซ์ 20,000 ตัวและมีฟีเจอร์ 16 ตัวซึ่งฉันแบ่งครึ่งสำหรับการฝึกอบรมและการทดสอบ ฉันมีประสบการณ์กับ SVM ดังนั้นฉันจึงตั้งค่าข้อผิดพลาดการรู้จำเป็น 3.3% หลังจากการทดลองสิ่งที่ฉันได้รับคือ: การรับรู้จดหมาย UCI: RTrees - 5.3% เพิ่ม - 13% MLP - 7.9% kNN (k = 3) - 6.5% เบย์ - 11.5% SVM - 3.3% …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.