คำถามติดแท็ก classification

การจำแนกทางสถิติเป็นปัญหาของการระบุประชากรย่อยที่การสังเกตใหม่เป็นของที่ไม่ทราบตัวตนของประชากรย่อยบนพื้นฐานของชุดการฝึกอบรมของข้อมูลที่มีการสังเกตซึ่งมีประชากรย่อยเป็นที่รู้จัก ดังนั้นการจำแนกประเภทเหล่านี้จะแสดงพฤติกรรมที่เปลี่ยนแปลงได้ซึ่งสามารถศึกษาได้จากสถิติ

1
การลดจำนวนระดับของตัวแปรทำนายการจัดหมวดหมู่แบบไม่เรียงลำดับ
ฉันต้องการฝึกอบรมลักษณนามพูด SVM หรือฟอเรสต์แบบสุ่มหรือลักษณนามอื่น ๆ หนึ่งในคุณสมบัติในชุดข้อมูลเป็นตัวแปรเด็ดขาดที่มี 1,000 ระดับ เป็นวิธีที่ดีที่สุดในการลดจำนวนระดับในตัวแปรนี้คืออะไร ใน R มีฟังก์ชั่นที่เรียกว่าcombine.levels()ในแพ็คเกจHmiscซึ่งรวมระดับที่ไม่บ่อยนัก แต่ฉันกำลังมองหาคำแนะนำอื่น ๆ

2
จะเข้าใจเครือข่ายความเชื่ออย่างลึกซึ้งสำหรับการจำแนกประเภทเสียงได้อย่างไร?
ใน " เครือข่ายความเชื่อเชิงลึกของ Convolutional สำหรับการเรียนรู้ที่ไม่สามารถปรับขนาดได้ของการเป็นตัวแทนลำดับชั้น " โดย Lee et. al. ( PDF ) ข้อเสนอ DBN ของ Convolutional นอกจากนี้ยังมีการประเมินวิธีการสำหรับการจำแนกภาพ ฟังก์ชั่นนี้ดูสมเหตุสมผลเนื่องจากมีคุณสมบัติภาพในพื้นที่เป็นธรรมชาติเช่นมุมและขอบเล็ก ๆ เป็นต้น ใน " การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับการจำแนกประเภทเสียงโดยใช้เครือข่ายความเชื่อที่ลึกซึ้ง " อัล วิธีนี้ใช้สำหรับเสียงในการจำแนกประเภทต่าง ๆ การระบุลำโพง, การระบุเพศ, การจำแนกประเภทโทรศัพท์และการจำแนกประเภทเพลง / ศิลปิน ส่วนของเครือข่ายนี้สามารถตีความได้อย่างไรสำหรับเสียงเช่นมันสามารถอธิบายได้ว่าภาพเป็นขอบ?

3
ทำไมเราต้องใส่ลักษณนามเพื่อนบ้านที่ใกล้ที่สุด k-?
ดังที่ฉันเข้าใจ k-NN เป็นอัลกอริทึมสำหรับผู้เรียนที่ขี้เกียจและไม่จำเป็นต้องมีขั้นตอนการฝึกอบรม เหตุใดเราจึงต้องใช้.fit()กับ sklearn และจะเกิดอะไรขึ้นเมื่อเราใช้

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
เทคนิคการเรียนรู้ของเครื่องสำหรับการเรียนรู้รูปแบบสตริง
ฉันมีรายการคำที่เป็นของหมวดหมู่ที่กำหนดเองที่แตกต่างกัน แต่ละหมวดหมู่มีรูปแบบของตัวเอง (ตัวอย่างเช่นหมวดหนึ่งมีความยาวคงที่พร้อมด้วยอักขระพิเศษอีกประเภทหนึ่งมีตัวอักษรอยู่ซึ่งเกิดขึ้นเฉพาะในหมวดหมู่ "คำ", ... ) ตัวอย่างเช่น: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... ฉันกำลังค้นหาเทคนิคการเรียนรู้ของเครื่องเพื่อเรียนรู้รูปแบบเหล่านี้ด้วยตนเองตามข้อมูลการฝึกอบรม ฉันได้พยายามกำหนดตัวแปรตัวทำนายบางตัว (เช่นความยาวจำนวนตัวอักษรพิเศษ ... ) ด้วยตัวเองแล้วใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้และทำนายหมวดหมู่ แต่นั่นไม่ใช่สิ่งที่ฉันต้องการ ฉันต้องการเทคนิคเพื่อเรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่ด้วยตัวเอง - แม้กระทั่งเรียนรู้รูปแบบที่ฉันไม่เคยคิด ดังนั้นฉันจึงให้ข้อมูลการเรียนรู้อัลกอริทึม (ประกอบด้วยตัวอย่างหมวดคำ) และต้องการให้เรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่เพื่อทำนายหมวดหมู่ในภายหลังจากคำที่คล้ายกันหรือเท่ากัน มีวิธีการที่ทันสมัยในการทำมันได้หรือไม่ ขอบคุณสำหรับความช่วยเหลือของคุณ

3
ลักษณนามพร้อมความแม่นยำที่ปรับได้และการเรียกคืน
ฉันกำลังทำงานกับปัญหาการจำแนกเลขฐานสองซึ่งมันสำคัญมากกว่าที่จะไม่มีผลบวกปลอม ข้อผิดพลาดเชิงลบค่อนข้างมากก็โอเค ฉันใช้ตัวแยกประเภทจำนวนมากใน sklearn แต่ฉันคิดว่าไม่มีตัวใดที่สามารถปรับความแม่นยำในการจำคืนได้อย่างชัดเจน (พวกมันให้ผลลัพธ์ที่ดี แต่ไม่สามารถปรับได้) ตัวแยกประเภทใดที่สามารถปรับความแม่นยำ / เรียกคืนได้ มีวิธีใดบ้างที่จะส่งผลต่อความแม่นยำ / การเรียกคืนการแลกเปลี่ยนกับตัวแยกประเภทมาตรฐานเช่น Random Forest หรือ AdaBoost?

2
ทำไม Adaboost กับต้นไม้ตัดสินใจ?
ฉันอ่านบิตเกี่ยวกับการเพิ่มอัลกอริทึมสำหรับงานการจัดหมวดหมู่และ Adaboost โดยเฉพาะ ฉันเข้าใจว่าจุดประสงค์ของ Adaboost คือการใช้ "ผู้เรียนที่อ่อนแอ" หลายครั้งและผ่านการทำซ้ำในข้อมูลการฝึกอบรมให้ผู้จัดหมวดหมู่เรียนรู้ที่จะทำนายชั้นเรียนที่ตัวแบบทำผิดซ้ำ ๆ อย่างไรก็ตามฉันสงสัยว่าทำไมการอ่านจำนวนมากของฉันจึงได้ใช้ต้นไม้ตัดสินใจเป็นตัวจําแนกอ่อนแอ มีเหตุผลพิเศษสำหรับเรื่องนี้หรือไม่? มีตัวจําแนกบางอย่างที่ทําให้ผู้สมัครดีหรือไม่ดีกับ Adaboost โดยเฉพาะหรือไม่?

3
AUC ที่ดีสำหรับเส้นโค้งการเรียกคืนที่แม่นยำคืออะไร
เนื่องจากฉันมีชุดข้อมูลที่ไม่สมดุลมาก (ผลบวก 9%) ฉันจึงตัดสินใจว่ากราฟความแม่นยำในการเรียกคืนมีความเหมาะสมมากกว่าเส้นโค้ง ROC ฉันได้รับมาตรวัดสรุปพื้นที่แบบอะนาล็อกภายใต้เส้นโค้ง PR (.49 ถ้าคุณสนใจ) แต่ไม่แน่ใจว่าจะตีความมันอย่างไร ฉันได้ยินมาว่า. 8 หรือสูงกว่านั้นเป็น AUC ที่ดีสำหรับ ROC แต่การตัดทั่วไปจะเหมือนกันสำหรับ AUC สำหรับเส้นโค้งการเรียกคืนที่แม่นยำหรือไม่

1
ข้อดีของระยะทางของ Jeffries Matusita
ตามกระดาษที่ฉันกำลังอ่านมีการใช้ระยะทางของ Jeffries และ Matusita แต่ฉันไม่สามารถหาข้อมูลได้มากนักยกเว้นสูตรด้านล่าง JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} มันคล้ายกับระยะทางแบบยุคลิดยกเว้นสแควร์รูท E (x, y) =∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} ระยะทาง JM นั้นเชื่อถือได้มากกว่าระยะทางแบบยุคลิดในแง่ของการจำแนกประเภท ทุกคนสามารถอธิบายได้หรือไม่ว่าทำไมความแตกต่างนี้ทำให้ระยะทาง JM ดีขึ้น?

1
เราจะทำนายเหตุการณ์ที่หายากได้อย่างไร
ฉันกำลังพัฒนารูปแบบการทำนายความเสี่ยงด้านการประกันภัย โมเดลเหล่านี้เป็น "เหตุการณ์ที่หายาก" เช่นการคาดคะเนการไม่แสดงตัวตนของสายการบินการตรวจจับข้อผิดพลาดของฮาร์ดแวร์ ฯลฯ ขณะที่ฉันเตรียมชุดข้อมูลของฉันฉันพยายามใช้การจำแนกประเภท แต่ฉันไม่สามารถรับตัวแยกประเภทที่มีประโยชน์ได้ . ฉันไม่มีประสบการณ์ด้านสถิติและการสร้างแบบจำลองมากไปกว่าหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน อย่างที่ฉันคิดไว้ฉันคิดว่าจะใช้แบบจำลองกระบวนการปัวซองซึ่งมีความเป็นเนื้อเดียวกัน ฉันจัดประเภทตามข้อมูลเหตุการณ์ (date, lat, lon) เพื่อให้ได้ค่าประมาณความเสี่ยงที่ดี ณ เวลาใดเวลาหนึ่งของแต่ละวัน ฉันอยากรู้ว่าอะไรคือวิธีการ / ขั้นตอนวิธีในการทำนายเหตุการณ์ที่เกิดขึ้นได้ยาก คุณแนะนำอะไรเป็นวิธีแก้ไขปัญหานี้

1
วิธีการเลือกความน่าจะเป็นทางลัดสำหรับ Logistic Regression ที่หายาก
ฉันมีการสังเกต 100,000 ครั้ง (ตัวแปรตัวบ่งชี้จำลอง 9 ตัว) พร้อม 1,000 ผลบวก การถดถอยโลจิสติกควรทำงานได้ดีในกรณีนี้ แต่ความเป็นไปได้ที่จะตัดตัวฉัน ในวรรณกรรมทั่วไปเราเลือกตัด 50% เพื่อทำนาย 1s และ 0s ฉันทำสิ่งนี้ไม่ได้เพราะแบบจำลองของฉันให้ค่าสูงสุด ~ 1% ดังนั้นเกณฑ์อาจอยู่ที่ 0.007 หรือที่ใดที่หนึ่งโดยรอบ ฉันเข้าใจROCเส้นโค้งและพื้นที่ใต้เส้นโค้งสามารถช่วยฉันเลือกระหว่างรุ่น LR สองชุดสำหรับชุดข้อมูลเดียวกันได้อย่างไร อย่างไรก็ตาม ROC ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัดที่เหมาะสมที่สามารถใช้ในการทดสอบแบบจำลองกับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง ฉันควรใช้ค่า cutoff ที่ลดmisclassification rateหรือไม่ ( http://www2.sas.com/proceedings/sugi31/210-31.pdf ) เพิ่ม -> สำหรับอัตราเหตุการณ์ที่ต่ำเช่นนี้อัตราการผิดพลาดของฉันได้รับผลกระทบจากผลบวกปลอมจำนวนมาก ในขณะที่อัตราโดยรวมนั้นดูดีเนื่องจากขนาดของจักรวาลทั้งหมดยังใหญ่ แต่แบบจำลองของฉันไม่ควรมีผลบวกผิด ๆ มากมาย (เพราะเป็นแบบจำลองการคืนทุน) 5/10 coeff มีความสำคัญ

3
องค์ประกอบหลักแรกไม่ได้แยกคลาส แต่พีซีเครื่องอื่นทำ เป็นไปได้อย่างไร?
ฉันใช้ PCA ใน 17 ตัวแปรเชิงปริมาณเพื่อให้ได้ชุดของตัวแปรที่มีขนาดเล็กลงซึ่งเป็นองค์ประกอบหลักที่จะใช้ในการเรียนรู้ของเครื่องภายใต้การดูแลเพื่อแบ่งอินสแตนซ์ออกเป็นสองชั้น หลังจาก PCA บัญชี PC1 คิดเป็น 31% ของความแปรปรวนของข้อมูล PC2 คิดเป็น 17%, PC3 คิดเป็น 10%, PC4 คิดเป็น 8%, PC5 คิดเป็น 7% และ PC6 คิดเป็น 6% อย่างไรก็ตามเมื่อฉันดูความแตกต่างของพีซีระหว่างสองคลาสน่าประหลาดใจที่ PC1 ไม่ได้แยกแยะระหว่างสองคลาสได้ดี พีซีที่เหลืออยู่เป็นตัวเลือกที่ดี นอกจากนี้ PC1 จะไม่เกี่ยวข้องเมื่อใช้ในต้นไม้ตัดสินใจซึ่งหมายความว่าหลังจากตัดแต่งกิ่งต้นไม้มันจะไม่ปรากฏแม้แต่ในต้นไม้ แผนผังประกอบด้วย PC2-PC6 มีคำอธิบายใด ๆ สำหรับปรากฏการณ์นี้หรือไม่? มันเป็นสิ่งที่ผิดปกติกับตัวแปรที่ได้รับหรือไม่?

4
ลักษณนามสำหรับฉลากระดับที่ไม่แน่นอน
สมมติว่าฉันมีชุดของอินสแตนซ์ที่เกี่ยวข้องกับป้ายชื่อคลาส ไม่สำคัญว่าจะติดป้ายกำกับอินสแตนซ์เหล่านี้อย่างไรแต่ความแน่นอนของการเป็นสมาชิกคลาสของพวกเขาคืออะไร แต่ละ instancs อยู่ในระดับเดียวเท่านั้น สมมติว่าฉันสามารถวัดความแน่นอนของการเป็นสมาชิกแต่ละคลาสด้วยแอตทริบิวต์ที่ระบุซึ่งมีค่าตั้งแต่ 1 ถึง 3 (แน่นอนมากถึงไม่แน่ใจตามลำดับ) มีตัวจําแนกบางประเภทที่คํานึงถึงความแน่นอนดังกล่าวหรือไม่และถ้าใช่มันมีอยู่ในชุดเครื่องมือ WEKA หรือไม่? ฉันคิดว่าสถานการณ์นี้เกิดขึ้นค่อนข้างบ่อยตัวอย่างเช่นเมื่ออินสแตนซ์ถูกจำแนกตามมนุษย์ซึ่งไม่แน่ใจว่าสมบูรณ์แบบเสมอไป ในกรณีของฉันฉันต้องจำแนกรูปภาพและบางครั้งรูปภาพอาจเป็นของมากกว่าหนึ่งคลาส หากสิ่งนี้เกิดขึ้นฉันให้ชั้นเรียนมีความไม่แน่นอนสูง แต่ยังคงจัดประเภทไว้ด้วยคลาสเดียวเท่านั้น หรือมีวิธีอื่นในการแก้ไขปัญหานี้โดยไม่มีตัวจําแนกพิเศษ? เช่นเดียวกับการจัดหมวดหมู่ "แน่นอน" สำหรับการฝึกอบรมเท่านั้น? ฉันกลัวว่าในกรณีนี้จะมีการจัดประเภทผิดพลาดมากกว่าเนื่องจากคดี "ชายแดน" ไม่ครอบคลุม

1
แรงจูงใจเบื้องหลังขั้นตอนวิธีฟอเรสต์แบบสุ่ม
วิธีการที่ฉันคุ้นเคยกับการสร้างฟอเรสต์แบบสุ่มมีดังนี้: (จากhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) เพื่อสร้างต้นไม้ในป่าเรา: บูตตัวอย่างขนาด N ที่ N คือขนาดของชุดการฝึกอบรมของเรา ใช้ตัวอย่าง bootstrapped นี้เป็นชุดการฝึกอบรมสำหรับต้นไม้นี้ ที่แต่ละโหนดของต้นไม้สุ่มเลือก m ของคุณสมบัติ M ของเรา เลือกคุณสมบัติที่ดีที่สุดของ m เหล่านี้เพื่อแยก (โดยที่ m เป็นพารามิเตอร์ของป่าสุ่มของเรา) ปลูกต้นไม้แต่ละต้นให้มากที่สุดเท่าที่จะทำได้เช่นไม่มีการตัดแต่งกิ่ง ในขณะที่อัลกอริทึมนี้สมเหตุสมผลในระดับขั้นตอนและให้ผลลัพธ์ที่ดีแน่นอนฉันไม่ชัดเจนว่าแรงจูงใจทางทฤษฎีอยู่เบื้องหลังขั้นตอนที่ 1, 2 และ 3 ใครสามารถอธิบายสิ่งที่กระตุ้นให้คนที่มากับขั้นตอนนี้และทำไมมัน ทำงานได้ดีเหรอ ตัวอย่างเช่น: ทำไมเราต้องดำเนินการขั้นตอนที่ 1 ดูเหมือนว่าเรากำลังทำ bootstrapping เพื่อจุดประสงค์ในการลดความแปรปรวนตามปกติ

1
การประเมินตัวแยกประเภท: เส้นโค้งการเรียนรู้กับเส้นโค้ง ROC
ฉันต้องการเปรียบเทียบตัวแยกประเภทที่แตกต่างกัน 2 ตัวสำหรับปัญหาการจำแนกข้อความแบบหลายคลาสที่ใช้ชุดข้อมูลการฝึกอบรมขนาดใหญ่ ฉันสงสัยว่าฉันควรใช้ ROC curves หรือ learning curves เพื่อเปรียบเทียบ 2 ตัวแยกประเภท ในอีกด้านหนึ่งเส้นโค้งการเรียนรู้มีประโยชน์สำหรับการตัดสินใจขนาดของชุดข้อมูลการฝึกอบรมเนื่องจากคุณสามารถหาขนาดของชุดข้อมูลที่ตัวแยกประเภทหยุดการเรียนรู้ (และอาจลดระดับ) ดังนั้นตัวจําแนกที่ดีที่สุดในกรณีนี้อาจเป็นตัวจําแนกที่มีความแม่นยำสูงสุดด้วยขนาดชุดข้อมูลที่เล็กที่สุด ในทางกลับกัน ROC curves ช่วยให้คุณค้นหาจุดที่มีการแลกเปลี่ยนที่เหมาะสมระหว่างความไว / ความจำเพาะ ลักษณนามที่ดีที่สุดในกรณีนี้คือตัวที่ใกล้กับส่วนบนซ้ายมากที่สุดโดยมี TPR สูงสุดสำหรับ FPR ใด ๆ ฉันควรใช้วิธีการประเมินทั้งสองหรือไม่ เป็นไปได้หรือไม่ที่วิธีที่มีช่วงการเรียนรู้ที่ดีกว่ามีเส้นโค้ง ROC ที่แย่ลงและในทางกลับกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.