คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

1
ทดสอบสัดส่วนและตัวจําแนกไบนารี
ฉันมีเครื่องผลิตชิ้นส่วนต้นแบบ ในการทดสอบครั้งแรกเครื่องผลิตชิ้นส่วนและลักษณนามไบนารีบอกฉันว่าd 1ส่วนมีข้อบกพร่อง ( d 1 &lt; N 1มักจะวันที่1 / N 1 &lt; 0.01และN 1 ≈ 10 4 ) และN 1 - d 1ชิ้นส่วนเป็นสิ่งที่ดียังไม่มีข้อความ1N1N_1d1d1d_1d1&lt; N1d1&lt;N1d_1 < N_1d1/ N1&lt; 0.01d1/N1&lt;0.01d_1/N_1<0.01ยังไม่มีข้อความ1≈ 104N1≈104N_1\approx10^4ยังไม่มีข้อความ1- d1N1−d1N_1-d_1 จากนั้นช่างเทคนิคจะทำการเปลี่ยนแปลงบางอย่างในเครื่องเพื่อลดจำนวนชิ้นส่วนที่บกพร่อง ในการทดสอบที่สองและต่อไปนี้การปรับเปลี่ยนเครื่องผลิตชิ้นส่วนและลักษณนามไบนารีเดียวกัน (แตะต้อง) บอกผมว่าd 2ส่วนมีข้อบกพร่องอยู่แล้ววันที่2 / N 2ค่อนข้างคล้ายกับd 1 / N 1ยังไม่มีข้อความ2N2N_2d2d2d_2d2/ N2d2/N2d_2/N_2d1/ N1d1/N1d_1/N_1 ช่างต้องการทราบว่าการเปลี่ยนแปลงของเขามีประสิทธิภาพหรือไม่ สมมติว่าตัวแยกประเภทสมบูรณ์แบบ (ความไวของมันคือ 100% และความเฉพาะเจาะจงของมันคือ …

1
MFCCs เป็นวิธีที่ดีที่สุดในการแสดงเพลงไปยังระบบดึงข้อมูลหรือไม่?
เทคนิคการประมวลสัญญาณที่Mel frequency Cepstrumมักใช้เพื่อดึงข้อมูลจากชิ้นดนตรีเพื่อใช้ในงานการเรียนรู้ของเครื่อง วิธีนี้ให้สเปกตรัมพลังงานระยะสั้นและค่าสัมประสิทธิ์ถูกใช้เป็นอินพุต ในการออกแบบระบบดึงเพลงค่าสัมประสิทธิ์ดังกล่าวถือเป็นลักษณะของชิ้นส่วน (เห็นได้ชัดว่าไม่จำเป็นต้องเป็นเอกลักษณ์ แต่แตกต่าง) มีคุณสมบัติใดบ้างที่เหมาะกับการเรียนรู้กับเครือข่ายมากขึ้น? ลักษณะที่เปลี่ยนแปลงตามเวลาเช่นความก้าวหน้าของเสียงเบสของชิ้นส่วนที่ใช้ในบางอย่างเช่นเครือข่าย Elmanทำงานได้อย่างมีประสิทธิภาพมากขึ้นหรือไม่ ลักษณะใดที่จะก่อให้เกิดการจัดหมวดหมู่ที่ครอบคลุมพอที่จะเกิดขึ้น

4
การปรับปรุงการจำแนกประเภท SVM ของโรคเบาหวาน
ฉันใช้ SVM เพื่อทำนายโรคเบาหวาน ฉันใช้ชุดข้อมูลBRFSSเพื่อจุดประสงค์นี้ ชุดข้อมูลมีขนาดและเบ้ ร้อยละของในตัวแปรเป้าหมายคือขณะที่s เป็นการส่วนที่เหลืออีก\%432607 × 136432607×136432607 \times 136Y89 %11 %11%11\%N89 %89%89\% ฉันกำลังใช้เพียง15ออกจาก136ตัวแปรอิสระจากชุดข้อมูล หนึ่งในเหตุผลในการลดชุดข้อมูลคือต้องมีตัวอย่างการฝึกอบรมเพิ่มเติมเมื่อNAละเว้นแถวที่มีs 15ตัวแปรเหล่านี้ถูกเลือกหลังจากใช้วิธีการทางสถิติเช่นต้นไม้สุ่มการถดถอยโลจิสติกส์และการค้นหาว่าตัวแปรใดมีความสำคัญจากตัวแบบผลลัพธ์ ตัวอย่างเช่นหลังจากรันการถดถอยโลจิสติกเราใช้p-valueในการสั่งซื้อตัวแปรที่สำคัญที่สุด วิธีการเลือกตัวแปรของฉันถูกต้องหรือไม่ ข้อเสนอแนะใด ๆ ที่จะยินดีอย่างมาก ต่อไปนี้คือRการดำเนินการของฉัน library(e1071) # Support Vector Machines #-------------------------------------------------------------------- # read brfss file (huge 135 MB file) #-------------------------------------------------------------------- y &lt;- read.csv("http://www.hofroe.net/stat579/brfss%2009/brfss-2009-clean.csv") indicator &lt;- c("DIABETE2", "GENHLTH", "PERSDOC2", "SEX", "FLUSHOT3", "PNEUVAC3", "X_RFHYPE5", …

2
K- เพื่อนบ้านที่ใกล้เคียงที่สุดกับตัวแปรต่อเนื่องและไบนารี
ฉันมีชุดข้อมูลที่มีคอลัมน์a b c(3 คุณลักษณะ) aเป็นตัวเลขและต่อเนื่องในขณะที่bและcเป็นหมวดหมู่แต่ละคนมีสองระดับ ฉันใช้ K-เพื่อนบ้านที่ใกล้ที่สุดวิธีการในการจำแนกaและบนb cดังนั้นเพื่อให้สามารถวัดระยะทางที่ผมเปลี่ยนชุดข้อมูลของฉันโดยการลบbและการเพิ่มและb.level1 b.level2หากสังเกตiมีระดับเป็นครั้งแรกในbประเภทและb.level1[i]=1b.level2[i]=0 ตอนนี้ฉันสามารถวัดระยะทางในชุดข้อมูลใหม่ของฉัน: a b.level1 b.level2 จากมุมมองเชิงทฤษฎี / คณิตศาสตร์: คุณสามารถทำการ K- ใกล้เคียงเพื่อนบ้าน (KNN) ด้วยข้อมูลไบนารีและต่อเนื่องได้หรือไม่ ฉันใช้FNNแพ็คเกจใน R และฟังก์ชั่นknn()

3
วิธีการจำแนกชุดข้อมูลที่ไม่สมดุลโดย Convolutional Neural Networks (CNN)
ฉันมีชุดข้อมูลที่ไม่สมดุลในงานการจำแนกแบบไบนารีซึ่งจำนวนบวกกับจำนวนเชิงลบคือ 0.3% เทียบกับ 99.7% ช่องว่างระหว่างผลบวกและเชิงลบนั้นมีขนาดใหญ่มาก เมื่อฉันฝึก CNN ด้วยโครงสร้างที่ใช้ในปัญหา MNIST ผลการทดสอบจะแสดงอัตราลบติดลบสูง นอกจากนี้เส้นโค้งข้อผิดพลาดในการฝึกอบรมจะลดลงอย่างรวดเร็วในช่วงเวลาสองสามตอนที่เริ่มต้น แต่ยังคงเป็นค่าเดียวกันในยุคต่อไปนี้ คุณช่วยแนะนำวิธีแก้ไขปัญหานี้ให้ฉันได้ไหม? ขอบคุณ!

1
ป่าสุ่มสามารถทำได้ดีกว่าข้อผิดพลาดการทดสอบ 2.8% ใน MNIST หรือไม่?
ฉันไม่ได้พบวรรณกรรมใด ๆ เกี่ยวกับการใช้ Random Forests กับ MNIST, CIFAR, STL-10 ฯลฯ ดังนั้นฉันจึงคิดว่าฉันจะลองใช้มันด้วยMNIST ที่ไม่เปลี่ยนแปลง ในRฉันลอง: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) สิ่งนี้ใช้เวลา 2 ชั่วโมงและมีข้อผิดพลาดการทดสอบ 2.8% ฉันยังได้ลองscikit เรียนรู้ด้วย RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) หลังจาก 70 นาทีฉันได้รับข้อผิดพลาดการทดสอบ 2.9% แต่ด้วย n_estimators = 200 แทนฉันได้รับข้อผิดพลาดการทดสอบ 2.8% หลังจากเพียง 7 นาที ด้วยOpenCVฉันพยายาม rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) การดำเนินการนี้ใช้เวลา 6.5 นาทีและrfการคาดการณ์ทำให้ข้อผิดพลาดในการทดสอบ 15% ฉันไม่ทราบว่ามีต้นไม้กี่ต้นที่ได้รับการฝึกฝนเนื่องจาก …

1
SMOTE พ่นข้อผิดพลาดสำหรับปัญหาความไม่สมดุลหลายระดับ
ฉันกำลังพยายามใช้ SMOTE เพื่อแก้ไขความไม่สมดุลในปัญหาการจำแนกประเภทของฉัน แม้ว่า SMOTE ทำงานได้อย่างสมบูรณ์บนชุดข้อมูล iris ตามเอกสารวิธีใช้ SMOTE แต่จะไม่ทำงานบนชุดข้อมูลที่คล้ายกัน นี่คือลักษณะของข้อมูลของฉัน หมายเหตุมันมีสามคลาสที่มีค่า 1, 2, 3 &gt; data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 …

1
จำนวนส่วนประกอบที่เหมาะสมที่สุดในส่วนผสมของเกาส์เซียน
ดังนั้นการได้รับ "ความคิด" ของจำนวนที่ดีที่สุดของกลุ่มใน k- หมายถึงเป็นเอกสารที่ดี ฉันพบบทความเกี่ยวกับการทำเช่นนี้ในการผสมแบบเกาส์ แต่ไม่แน่ใจว่าฉันเชื่อมั่นในมันไม่เข้าใจดีนัก มี ... วิธีที่อ่อนโยนกว่าในการทำเช่นนี้?

3
สำหรับปัญหาการจำแนกถ้าตัวแปรคลาสมีการกระจายที่ไม่เท่ากันเราควรใช้เทคนิคใด?
สำหรับเช่น ถ้าฉันมีการให้คะแนนเครดิตระดับตัวแปรโดยมีสองคลาสดีและไม่ดีโดยที่ # (ดี) = 700 และ # (ไม่ดี) = 300 ฉันไม่ต้องการย่อข้อมูลของฉันให้สั้นลง ฉันควรใช้เทคนิคใด ฉันใช้ SVM แต่มันให้ผลดีกับการคาดการณ์ทั้งหมด

2
จะหารุ่นที่ได้รับการฝึกฝนมาก่อนแล้วสำหรับการเรียนรู้การถ่ายโอน [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ฉันยังใหม่กับสาขาการเรียนรู้ของเครื่อง แต่ฉันต้องการลองใช้อัลกอริธึมการจำแนกแบบง่าย ๆ กับ Keras น่าเสียดายที่ฉันมีชุดข้อมูลที่น้อยมากดังนั้นฉันจึงคิดว่าจะพยายามใช้การเรียนรู้การถ่ายโอนกับปัญหา อย่างไรก็ตามฉันไม่พบอะไรในโลกออนไลน์นี้ดังนั้นฉันจึงอยากเข้าใจว่าสถานที่ที่ดีที่สุดในการมองหาเครือข่ายประสาทที่ได้รับการฝึกฝนมาก่อน คุณมีข้อเสนอแนะในเรื่องนี้หรือไม่? เว็บไซต์ใดดีที่สุดในการรับแนวคิดเกี่ยวกับวิธีเริ่มโครงการเรียนรู้ของเครื่อง

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
เมื่อใดที่จะใช้รูปแบบการผสมแบบเกาส์?
ฉันยังใหม่กับการใช้ GMM ฉันไม่สามารถค้นหาความช่วยเหลือที่เหมาะสมออนไลน์ได้ ใครช่วยกรุณาให้ทรัพยากรที่ถูกต้องกับ "วิธีการตัดสินใจว่าการใช้ GMM เหมาะกับปัญหาของฉันหรือไม่" หรือในกรณีที่มีปัญหาการจัดหมวดหมู่ "จะตัดสินใจได้อย่างไรว่าฉันต้องใช้การจำแนกประเภท SVM หรือการจำแนกประเภท GMM"

1
ความแตกต่างระหว่างประเภทของ SVM
ฉันใหม่เพื่อรองรับเครื่องเวกเตอร์ คำอธิบายสั้น ๆ svmฟังก์ชั่นจากe1071แพคเกจใน R มีตัวเลือกต่างๆ: C-การจัดหมวดหมู่ nu-การจัดหมวดหมู่ การจำแนกประเภทหนึ่ง (สำหรับการตรวจจับสิ่งแปลกใหม่) eps-ถดถอย nu-ถดถอย อะไรคือความแตกต่างในการหยั่งรู้ระหว่างห้าประเภท? ควรใช้อันไหนในสถานการณ์ใด

2
ต้นไม้ CART จับการโต้ตอบระหว่างผู้ทำนายหรือไม่?
บทความนี้อ้างว่าใน CART เนื่องจากมีการดำเนินการแยกแบบไบนารีใน covariate เดียวในแต่ละขั้นตอนการแยกทั้งหมดเป็นแบบมุมฉากดังนั้นจึงไม่ถือว่าการมีปฏิสัมพันธ์ระหว่าง covariates อย่างไรก็ตามมีการอ้างอิงที่จริงจังมากที่อ้างว่าโครงสร้างแบบลำดับชั้นของต้นไม้รับประกันได้ว่าการโต้ตอบระหว่างตัวทำนายจะถูกสร้างแบบจำลองโดยอัตโนมัติ (เช่นเอกสารนี้และแน่นอน Hastie) ถูกต้องใคร ต้นไม้ที่ปลูกในรถเข็นสามารถจับการโต้ตอบระหว่างตัวแปรอินพุตได้ไหม

3
มิติ VC ของสี่เหลี่ยมผืนผ้า
หนังสือ "รู้เบื้องต้นเกี่ยวกับการเรียนรู้ของเครื่อง" โดย Ethem Alpaydınระบุว่ามิติ VC ของสี่เหลี่ยมผืนผ้าที่จัดเรียงตามแนวแกนคือ 4 แต่สี่เหลี่ยมจะแบ่งชุดของจุด collinear สี่จุดด้วยจุดบวกและลบอย่างไร บางคนสามารถอธิบายและพิสูจน์มิติ VC ของสี่เหลี่ยมได้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.