คำถามติดแท็ก unbalanced-classes

ข้อมูลที่จัดแบ่งเป็นหมวดหมู่หรือ * คลาส * อาจแสดงปัญหาสำหรับการวิเคราะห์บางอย่างหากจำนวนการสังเกต ( ) ที่เป็นของแต่ละคลาสนั้นไม่คงที่ตลอดทั้งคลาส คลาสที่มีไม่เท่ากันคือ * ไม่สมดุลย์ * nn

2
f- วัดความหมายเหมือนกันกับความถูกต้อง?
ฉันเข้าใจว่า f- การวัด (ตามความแม่นยำและการเรียกคืน) เป็นค่าประมาณความแม่นยำของตัวจําแนก นอกจากนี้f-measure ยังได้รับความนิยมมากกว่าความถูกต้องเมื่อเรามีชุดข้อมูลที่ไม่สมดุล ฉันมีคำถามง่าย ๆ (ซึ่งเกี่ยวกับการใช้คำศัพท์ที่ถูกต้องมากกว่าเกี่ยวกับเทคโนโลยี) ฉันมีชุดข้อมูลที่ไม่สมดุลและฉันใช้การวัดแบบ f ในการทดลองของฉัน ฉันกำลังจะเขียนกระดาษซึ่งไม่ใช่สำหรับการเรียนรู้ด้วยเครื่องจักร / การประชุมการทำเหมืองข้อมูล ดังนั้นฉันสามารถอ้างถึงการวัดค่า f เหมือนกันกับความถูกต้องในบริบทนี้ ยกตัวอย่างเช่นฉันมี f- วัด 0.82 แล้วฉันจะบอกได้ว่าลักษณนามของฉันบรรลุการทำนายที่แม่นยำ 82%

1
ROC curves สำหรับชุดข้อมูลที่ไม่สมดุล
พิจารณาการป้อนข้อมูลเมทริกซ์และเอาท์พุทไบนารีYXXXyyy วิธีทั่วไปในการวัดประสิทธิภาพของตัวจําแนกคือการใช้ ROC curves ในพล็อต ROC เส้นทแยงมุมคือผลลัพธ์ที่จะได้รับจากตัวจําแนกแบบสุ่ม ในกรณีที่เอาต์พุตไม่สมดุลประสิทธิภาพของตัวจําแนกแบบสุ่มสามารถปรับปรุงได้โดยเลือกหรือมีความน่าจะเป็นต่างกันyyy000111 ประสิทธิภาพของลักษณนามดังกล่าวสามารถแสดงในพล็อตกราฟ ROC ได้อย่างไร? ฉันคิดว่ามันควรเป็นเส้นตรงที่มีมุมต่างกันและไม่ใช่เส้นทแยงมุมอีกต่อไปใช่ไหม

1
SMOTE พ่นข้อผิดพลาดสำหรับปัญหาความไม่สมดุลหลายระดับ
ฉันกำลังพยายามใช้ SMOTE เพื่อแก้ไขความไม่สมดุลในปัญหาการจำแนกประเภทของฉัน แม้ว่า SMOTE ทำงานได้อย่างสมบูรณ์บนชุดข้อมูล iris ตามเอกสารวิธีใช้ SMOTE แต่จะไม่ทำงานบนชุดข้อมูลที่คล้ายกัน นี่คือลักษณะของข้อมูลของฉัน หมายเหตุมันมีสามคลาสที่มีค่า 1, 2, 3 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
การใช้เกินขนาดด้วยตัวแปรเด็ดขาด
ฉันต้องการทำการรวมกันของการสุ่มตัวอย่างมากเกินไปและการ Undersampling เพื่อรักษาสมดุลของชุดข้อมูลของฉันกับลูกค้าประมาณ 4,000 คนแบ่งออกเป็นสองกลุ่มโดยที่หนึ่งในกลุ่มนั้นมีสัดส่วนประมาณ 15% ฉันดู SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) และ ROSE ( http://cran.r-project.org/web/packages/ROSE/) ROSE.pdf ) แต่ทั้งสองอย่างนี้สร้างตัวอย่างสังเคราะห์ใหม่โดยใช้การสังเกตที่มีอยู่และเช่น kNN อย่างไรก็ตามคุณลักษณะหลายอย่างที่เชื่อมโยงกับลูกค้านั้นเป็นหมวดหมู่ฉันไม่คิดว่านี่เป็นวิธีที่ถูกต้อง ตัวอย่างเช่นตัวแปรของฉันจำนวนมากเช่น Region_A และ Region_B นั้นไม่ได้เกิดร่วมกัน แต่การใช้ kNN การสังเกตใหม่อาจถูกวางไว้ทั้งใน Region_A และ Region_B คุณเห็นด้วยหรือไม่ว่านี่เป็นปัญหา ในกรณีดังกล่าว - เราจะทำอย่างใดอย่างหนึ่งการ oversampling ใน R โดยการทำซ้ำการสังเกตที่มีอยู่ซ้ำได้อย่างไร หรือนี่เป็นวิธีที่ผิดที่จะทำ?

1
เกณฑ์การจำแนกประเภทใน RandomForest-sklearn
1) ฉันจะเปลี่ยนเกณฑ์การจำแนกได้อย่างไร (ฉันคิดว่าเป็น 0.5 โดยค่าเริ่มต้น) ใน RandomForest ใน sklearn 2) ฉันจะตัวอย่างน้อยใน sklearn ได้อย่างไร 3) ฉันมีผลลัพธ์ต่อไปนี้จากลักษณนาม RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 เฉลี่ย / รวม 0.75 0.74 0.73 7076 ก่อนข้อมูลไม่สมดุล (30% จากคลาส 0 และ 70% จากคลาส …

1
วิธีที่ดีที่สุดในการจัดการชุดข้อมูลมัลติคลาสที่ไม่สมดุลด้วย SVM
ฉันกำลังพยายามสร้างแบบจำลองการทำนายด้วย SVM บนข้อมูลที่ไม่สมดุล เลเบล / เอาต์พุตของฉันมีสามคลาส, บวก, เป็นกลางและลบ ฉันจะบอกว่าตัวอย่างบวกทำประมาณ 10 - 20% ของข้อมูลของฉันเป็นกลางประมาณ 50 - 60% และลบประมาณ 30 - 40% ฉันพยายามที่จะสร้างความสมดุลให้กับชั้นเรียนเนื่องจากค่าใช้จ่ายที่เกี่ยวข้องกับการทำนายที่ไม่ถูกต้องในชั้นเรียนนั้นไม่เหมือนกัน วิธีหนึ่งคือการสุ่มข้อมูลการฝึกอบรมซ้ำและสร้างชุดข้อมูลที่มีความสมดุลเท่ากันซึ่งใหญ่กว่าแบบเดิม ที่น่าสนใจเมื่อฉันทำเช่นนั้นฉันมักจะได้รับการคาดการณ์ที่ดีกว่าสำหรับชั้นเรียนอื่น (เช่นเมื่อฉันสร้างความสมดุลให้กับข้อมูลฉันเพิ่มจำนวนตัวอย่างสำหรับชั้นเรียนที่เป็นบวก แต่จากการคาดการณ์ตัวอย่าง ทุกคนสามารถอธิบายได้โดยทั่วไปว่าทำไมสิ่งนี้เกิดขึ้น ถ้าฉันเพิ่มจำนวนตัวอย่างสำหรับคลาสลบฉันจะได้อะไรที่คล้ายกับคลาสบวกจากการคาดการณ์ตัวอย่าง (เช่นการคาดคะเนที่ดีขึ้น) นอกจากนี้ยังเปิดกว้างมากสำหรับความคิดอื่น ๆ เกี่ยวกับวิธีที่ฉันสามารถจัดการกับข้อมูลที่ไม่สมดุลทั้งผ่านการกำหนดค่าใช้จ่ายที่แตกต่างกันในการจัดประเภทที่ผิดพลาดหรือการใช้ตุ้มน้ำหนักระดับใน LibSVM (ไม่แน่ใจว่าจะเลือก /
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.