คำถามติดแท็ก unbalanced-classes

5
ฉันควรจะไปที่ชุดข้อมูล 'สมดุล' หรือชุดข้อมูล 'ตัวแทน'?
งาน 'การเรียนรู้ของเครื่อง' ของฉันคือการแยกการรับส่งข้อมูลอินเทอร์เน็ตที่ไม่เป็นอันตรายออกจากการรับส่งข้อมูลที่เป็นอันตราย ในสถานการณ์โลกแห่งความเป็นจริงการรับส่งข้อมูลทางอินเทอร์เน็ตส่วนใหญ่ (90% ขึ้นไป) นั้นไม่เป็นอันตราย ดังนั้นฉันรู้สึกว่าฉันควรเลือกการตั้งค่าข้อมูลที่คล้ายกันสำหรับการฝึกอบรมโมเดลของฉันเช่นกัน แต่ฉันเจอบทความวิจัยหนึ่งหรือสองเรื่อง (ในพื้นที่ที่ฉันทำงาน) ซึ่งใช้วิธีการ "จัดสมดุลคลาส" เพื่อฝึกอบรมนางแบบซึ่งหมายถึงจำนวนอินสแตนซ์ของการรับส่งข้อมูลที่ไม่เป็นอันตรายและเป็นอันตราย โดยทั่วไปถ้าฉันสร้างแบบจำลองการเรียนรู้ของเครื่องฉันควรจะไปหาชุดข้อมูลซึ่งเป็นตัวแทนของปัญหาโลกแห่งความจริงหรือเป็นชุดข้อมูลที่มีความสมดุลที่ดีกว่าเหมาะสำหรับการสร้างแบบจำลอง (เนื่องจากตัวแยกประเภทบางตัว เนื่องจากเหตุผลอื่น ๆ ที่ฉันไม่รู้จัก)? คนที่สามารถหลั่งน้ำตาแสงเพิ่มเติมเกี่ยวกับข้อดีและข้อเสียของทั้งสองทางเลือกและวิธีการที่จะตัดสินใจที่หนึ่งที่จะไปเลือก?

4
คู่มือฉบับย่อเกี่ยวกับการฝึกอบรมชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีปัญหาการจัดหมวดหมู่โดยมี 1,000 ตัวอย่างบวกและลบ 10,000 ตัวอย่างในชุดการฝึกอบรม ดังนั้นชุดข้อมูลนี้จึงค่อนข้างไม่สมดุล ป่าสุ่มธรรมดา ๆ กำลังพยายามทำเครื่องหมายตัวอย่างการทดสอบทั้งหมดว่าเป็นเสียงส่วนใหญ่ คำตอบที่ดีเกี่ยวกับการสุ่มตัวอย่างย่อยและการสุ่มน้ำหนักป่ามีให้ที่นี่: อะไรคือความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูง? วิธีการจำแนกประเภทใดนอกจาก RF สามารถจัดการปัญหาได้อย่างดีที่สุด?

4
ข้อมูลมัลติคลาสที่ไม่สมดุลกับ XGBoost
ฉันมี 3 คลาสพร้อมการกระจายนี้: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 และฉันใช้xgboostสำหรับการจำแนกประเภท scale_pos_weightฉันรู้ว่ามีพารามิเตอร์ที่เรียกว่า แต่จะจัดการกับกรณี 'มัลติคลาส' ได้อย่างไรและฉันจะตั้งค่าได้อย่างไร

4
ความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูงคืออะไร
ฉันมีชุดข้อมูลไบนารีที่มีอคติอย่างมาก - ฉันมีตัวอย่างของคลาสลบมากกว่าคลาสเชิงบวกจำนวน 1000 เท่า ฉันต้องการฝึกอบรมชุดทรี (เช่นต้นไม้สุ่มพิเศษหรือป่าสุ่ม) จากข้อมูลนี้ แต่มันยากที่จะสร้างชุดข้อมูลการฝึกอบรมที่มีตัวอย่างของชั้นเรียนที่ดีพอ อะไรคือความหมายของการทำวิธีการสุ่มตัวอย่างแบบแบ่งชั้นเพื่อทำให้จำนวนตัวอย่างที่เป็นบวกและลบเป็นปกติ? กล่าวอีกนัยหนึ่งมันเป็นความคิดที่ดีหรือไม่ที่จะพองตัวอย่างของจำนวนบวกในชั้นเรียนในชุดฝึกอบรม?

2
คุณใช้ SMOTE กับการจำแนกข้อความได้อย่างไร
Oversampling เทคนิคการสังเคราะห์ของผู้ถือหุ้นส่วนน้อย (SMOTE) เป็นเทคนิคการ oversampling ที่ใช้ในปัญหาชุดข้อมูลที่ไม่สมดุล จนถึงตอนนี้ฉันมีความคิดว่าจะใช้กับข้อมูลทั่วไปที่มีโครงสร้างได้อย่างไร แต่เป็นไปได้หรือไม่ที่จะใช้กับปัญหาการจำแนกข้อความ? ส่วนใดของข้อมูลที่คุณจำเป็นต้องใช้ในการดูตัวอย่าง มีอีกคำถามหนึ่งเกี่ยวกับเรื่องนี้ แต่ไม่มีคำตอบ ฉันสามารถเรียนรู้ที่จะเริ่มต้นกับสิ่งนี้ได้ที่ไหน?

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
คลาสที่ไม่สมดุล - วิธีการลดเชิงลบที่ผิดพลาดให้น้อยที่สุดได้อย่างไร
ฉันมีชุดข้อมูลที่มีคุณลักษณะคลาสไบนารี มีอินสแตนซ์ 623 คลาส +1 (บวกมะเร็ง) และ 101,671 อินสแตนซ์กับคลาส -1 (ลบมะเร็ง) ฉันได้ลองอัลกอริธึมที่หลากหลาย (Naive Bayes, Random Forest, AODE, C4.5) และทั้งหมดนั้นมีอัตราส่วนลบติดลบที่ยอมรับไม่ได้ ป่าสุ่มมีความแม่นยำในการทำนายโดยรวมสูงสุด (99.5%) และอัตราส่วนลบติดลบต่ำสุด แต่ก็ยังพลาด 79% ของคลาสบวก (เช่นไม่สามารถตรวจจับ 79% ของเนื้องอกมะเร็ง) ความคิดใดที่ฉันสามารถปรับปรุงสถานการณ์นี้ได้? ขอบคุณ!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.