วิทยาศาสตร์ข้อมูล multiclass-classification

6

Micro Average vs Macro Average ประสิทธิภาพในการตั้งค่าการจัดหมวดหมู่หลายคลาส

ฉันกำลังลองตั้งค่าการจำแนกประเภทหลายคลาสด้วย 3 คลาส การกระจายคลาสนั้นเบ้โดยข้อมูลส่วนใหญ่ตกหล่นใน 1 ใน 3 คลาส (เลเบลของคลาสเป็น 1,2,3 โดยมี 67.28% ของข้อมูลที่อยู่ในคลาสเลเบล 1, ข้อมูล 11.99% ในคลาส 2 และยังคงอยู่ในคลาส 3) ฉันกำลังฝึกตัวแยกประเภทหลายคลาสในชุดข้อมูลนี้และฉันได้รับประสิทธิภาพต่อไปนี้: Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 ฉันไม่แน่ใจว่าทำไม avg Micro ทั้งหมด การแสดงมีค่าเท่ากันและทำไมค่าเฉลี่ยมาโครจึงต่ำ

102 multiclass-classification evaluation

4

ข้อมูลมัลติคลาสที่ไม่สมดุลกับ XGBoost

ฉันมี 3 คลาสพร้อมการกระจายนี้: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 และฉันใช้xgboostสำหรับการจำแนกประเภท scale_pos_weightฉันรู้ว่ามีพารามิเตอร์ที่เรียกว่า แต่จะจัดการกับกรณี 'มัลติคลาส' ได้อย่างไรและฉันจะตั้งค่าได้อย่างไร

20 classification xgboost multiclass-classification unbalanced-classes

1

ฉันควรใช้เซลล์ LSTM กี่เซลล์

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

1

การจัดประเภทข้อความ - ปัญหา: Word2Vec / NN เป็นวิธีที่ดีที่สุดหรือไม่?

ฉันกำลังมองหาที่จะออกแบบระบบที่ให้ย่อหน้าของข้อความจะสามารถจัดหมวดหมู่มันและระบุบริบท: ได้รับการฝึกฝนกับย่อหน้าข้อความที่ผู้ใช้สร้างขึ้น (เช่นความเห็น / คำถาม / คำตอบ) แต่ละรายการในชุดการฝึกจะถูกติดแท็กด้วย ดังนั้นสำหรับเช่น ("หมวดหมู่ 1", "ย่อหน้าข้อความ") จะมีหลายร้อยหมวดหมู่ อะไรจะเป็นวิธีที่ดีที่สุดในการสร้างระบบเช่นนี้? ฉันได้ดูตัวเลือกที่แตกต่างกันเล็กน้อยและต่อไปนี้เป็นรายการของวิธีแก้ปัญหาที่เป็นไปได้ ตอนนี้ Word2Vec / NN เป็นทางออกที่ดีที่สุดหรือไม่? Recensive Neural Tensor Network เลี้ยงด้วยข้อมูล Word2Vec เฉลี่ย RNTN และเวกเตอร์ย่อหน้า ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )? TF-IDF ใช้ในเครือข่าย Deep Belief TF-IDF และ Logistic Regression กระเป๋าของคำและการจำแนก Naive Bayes

10 neural-network text-mining multiclass-classification word-embeddings

2

Keras หลาย“Softmax” ในชั้นสุดท้ายไปได้หรือไม่

เป็นไปได้หรือไม่ที่จะใช้ softmaxes mutiple ในเลเยอร์สุดท้ายใน Keras ดังนั้นผลรวมของโหนด 1-4 = 1; 5-8 = 1; เป็นต้น ฉันควรจะไปออกแบบเครือข่ายอื่นหรือไม่?

10 machine-learning keras multiclass-classification

4

SGDClassifier: การเรียนรู้ออนไลน์ / partial_fit ที่มีป้ายกำกับที่ไม่รู้จักก่อนหน้านี้

ชุดการฝึกอบรมของฉันมีรายการประมาณ 50k ซึ่งฉันได้เรียนรู้เบื้องต้น ทุกสัปดาห์จะมีการเพิ่ม ~ 5k รายการ แต่จำนวนเดียวกัน "หายไป" (เนื่องจากเป็นข้อมูลผู้ใช้ซึ่งจะต้องถูกลบหลังจากเวลาผ่านไป) ดังนั้นฉันใช้การเรียนรู้ออนไลน์เพราะฉันไม่สามารถเข้าถึงชุดข้อมูลแบบเต็มได้ในภายหลัง ขณะนี้ฉันกำลังใช้SGDClassifierที่ทำงาน แต่ปัญหาใหญ่ของฉัน: หมวดหมู่ใหม่จะปรากฏและตอนนี้ฉันไม่สามารถใช้รูปแบบของฉันใด ๆ fitเพิ่มเติมขณะที่พวกเขาไม่ได้อยู่ในการเริ่มต้น มีวิธีการกับSGDClassifierหรือบางรุ่นอื่น ๆ ? เรียนรู้อย่างลึกซึ้ง? ไม่สำคัญว่าฉันจะต้องเริ่มจากศูนย์ตอนนี้ (เช่นใช้อย่างอื่นที่ไม่ใช่SGDClassifier) แต่ฉันต้องการสิ่งที่ช่วยให้การเรียนรู้ออนไลน์ด้วยป้ายกำกับใหม่

9 multiclass-classification online-learning

1

ข้อมูลที่ไม่สมดุลทำให้เกิดการจำแนกผิดพลาดในชุดข้อมูลหลายคลาส

ฉันทำงานเกี่ยวกับการจำแนกข้อความที่ฉันมี 39 หมวดหมู่ / คลาสและ 8.5 ล้านบันทึก (ในอนาคตข้อมูลและหมวดหมู่จะเพิ่มขึ้น) โครงสร้างหรือรูปแบบของข้อมูลของฉันมีดังนี้ ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | …

9 machine-learning python classification scikit-learn multiclass-classification

คำถามติดแท็ก multiclass-classification