คำถามติดแท็ก multiclass-classification

6
Micro Average vs Macro Average ประสิทธิภาพในการตั้งค่าการจัดหมวดหมู่หลายคลาส
ฉันกำลังลองตั้งค่าการจำแนกประเภทหลายคลาสด้วย 3 คลาส การกระจายคลาสนั้นเบ้โดยข้อมูลส่วนใหญ่ตกหล่นใน 1 ใน 3 คลาส (เลเบลของคลาสเป็น 1,2,3 โดยมี 67.28% ของข้อมูลที่อยู่ในคลาสเลเบล 1, ข้อมูล 11.99% ในคลาส 2 และยังคงอยู่ในคลาส 3) ฉันกำลังฝึกตัวแยกประเภทหลายคลาสในชุดข้อมูลนี้และฉันได้รับประสิทธิภาพต่อไปนี้: Precision Recall F1-Score Micro Average 0.731 0.731 0.731 Macro Average 0.679 0.529 0.565 ฉันไม่แน่ใจว่าทำไม avg Micro ทั้งหมด การแสดงมีค่าเท่ากันและทำไมค่าเฉลี่ยมาโครจึงต่ำ

4
ข้อมูลมัลติคลาสที่ไม่สมดุลกับ XGBoost
ฉันมี 3 คลาสพร้อมการกระจายนี้: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 และฉันใช้xgboostสำหรับการจำแนกประเภท scale_pos_weightฉันรู้ว่ามีพารามิเตอร์ที่เรียกว่า แต่จะจัดการกับกรณี 'มัลติคลาส' ได้อย่างไรและฉันจะตั้งค่าได้อย่างไร

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
การจัดประเภทข้อความ - ปัญหา: Word2Vec / NN เป็นวิธีที่ดีที่สุดหรือไม่?
ฉันกำลังมองหาที่จะออกแบบระบบที่ให้ย่อหน้าของข้อความจะสามารถจัดหมวดหมู่มันและระบุบริบท: ได้รับการฝึกฝนกับย่อหน้าข้อความที่ผู้ใช้สร้างขึ้น (เช่นความเห็น / คำถาม / คำตอบ) แต่ละรายการในชุดการฝึกจะถูกติดแท็กด้วย ดังนั้นสำหรับเช่น ("หมวดหมู่ 1", "ย่อหน้าข้อความ") จะมีหลายร้อยหมวดหมู่ อะไรจะเป็นวิธีที่ดีที่สุดในการสร้างระบบเช่นนี้? ฉันได้ดูตัวเลือกที่แตกต่างกันเล็กน้อยและต่อไปนี้เป็นรายการของวิธีแก้ปัญหาที่เป็นไปได้ ตอนนี้ Word2Vec / NN เป็นทางออกที่ดีที่สุดหรือไม่? Recensive Neural Tensor Network เลี้ยงด้วยข้อมูล Word2Vec เฉลี่ย RNTN และเวกเตอร์ย่อหน้า ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )? TF-IDF ใช้ในเครือข่าย Deep Belief TF-IDF และ Logistic Regression กระเป๋าของคำและการจำแนก Naive Bayes

2
Keras หลาย“Softmax” ในชั้นสุดท้ายไปได้หรือไม่
เป็นไปได้หรือไม่ที่จะใช้ softmaxes mutiple ในเลเยอร์สุดท้ายใน Keras ดังนั้นผลรวมของโหนด 1-4 = 1; 5-8 = 1; เป็นต้น ฉันควรจะไปออกแบบเครือข่ายอื่นหรือไม่?

4
SGDClassifier: การเรียนรู้ออนไลน์ / partial_fit ที่มีป้ายกำกับที่ไม่รู้จักก่อนหน้านี้
ชุดการฝึกอบรมของฉันมีรายการประมาณ 50k ซึ่งฉันได้เรียนรู้เบื้องต้น ทุกสัปดาห์จะมีการเพิ่ม ~ 5k รายการ แต่จำนวนเดียวกัน "หายไป" (เนื่องจากเป็นข้อมูลผู้ใช้ซึ่งจะต้องถูกลบหลังจากเวลาผ่านไป) ดังนั้นฉันใช้การเรียนรู้ออนไลน์เพราะฉันไม่สามารถเข้าถึงชุดข้อมูลแบบเต็มได้ในภายหลัง ขณะนี้ฉันกำลังใช้SGDClassifierที่ทำงาน แต่ปัญหาใหญ่ของฉัน: หมวดหมู่ใหม่จะปรากฏและตอนนี้ฉันไม่สามารถใช้รูปแบบของฉันใด ๆ fitเพิ่มเติมขณะที่พวกเขาไม่ได้อยู่ในการเริ่มต้น มีวิธีการกับSGDClassifierหรือบางรุ่นอื่น ๆ ? เรียนรู้อย่างลึกซึ้ง? ไม่สำคัญว่าฉันจะต้องเริ่มจากศูนย์ตอนนี้ (เช่นใช้อย่างอื่นที่ไม่ใช่SGDClassifier) แต่ฉันต้องการสิ่งที่ช่วยให้การเรียนรู้ออนไลน์ด้วยป้ายกำกับใหม่

1
ข้อมูลที่ไม่สมดุลทำให้เกิดการจำแนกผิดพลาดในชุดข้อมูลหลายคลาส
ฉันทำงานเกี่ยวกับการจำแนกข้อความที่ฉันมี 39 หมวดหมู่ / คลาสและ 8.5 ล้านบันทึก (ในอนาคตข้อมูลและหมวดหมู่จะเพิ่มขึ้น) โครงสร้างหรือรูปแบบของข้อมูลของฉันมีดังนี้ ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.