สถิติและข้อมูลขนาดใหญ่ classification

1

การลดจำนวนระดับของตัวแปรทำนายการจัดหมวดหมู่แบบไม่เรียงลำดับ

ฉันต้องการฝึกอบรมลักษณนามพูด SVM หรือฟอเรสต์แบบสุ่มหรือลักษณนามอื่น ๆ หนึ่งในคุณสมบัติในชุดข้อมูลเป็นตัวแปรเด็ดขาดที่มี 1,000 ระดับ เป็นวิธีที่ดีที่สุดในการลดจำนวนระดับในตัวแปรนี้คืออะไร ใน R มีฟังก์ชั่นที่เรียกว่าcombine.levels()ในแพ็คเกจHmiscซึ่งรวมระดับที่ไม่บ่อยนัก แต่ฉันกำลังมองหาคำแนะนำอื่น ๆ

11 classification svm random-forest many-categories

2

จะเข้าใจเครือข่ายความเชื่ออย่างลึกซึ้งสำหรับการจำแนกประเภทเสียงได้อย่างไร?

ใน " เครือข่ายความเชื่อเชิงลึกของ Convolutional สำหรับการเรียนรู้ที่ไม่สามารถปรับขนาดได้ของการเป็นตัวแทนลำดับชั้น " โดย Lee et. al. ( PDF ) ข้อเสนอ DBN ของ Convolutional นอกจากนี้ยังมีการประเมินวิธีการสำหรับการจำแนกภาพ ฟังก์ชั่นนี้ดูสมเหตุสมผลเนื่องจากมีคุณสมบัติภาพในพื้นที่เป็นธรรมชาติเช่นมุมและขอบเล็ก ๆ เป็นต้น ใน " การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับการจำแนกประเภทเสียงโดยใช้เครือข่ายความเชื่อที่ลึกซึ้ง " อัล วิธีนี้ใช้สำหรับเสียงในการจำแนกประเภทต่าง ๆ การระบุลำโพง, การระบุเพศ, การจำแนกประเภทโทรศัพท์และการจำแนกประเภทเพลง / ศิลปิน ส่วนของเครือข่ายนี้สามารถตีความได้อย่างไรสำหรับเสียงเช่นมันสามารถอธิบายได้ว่าภาพเป็นขอบ?

11 classification unsupervised-learning intuition deep-belief-networks

3

ทำไมเราต้องใส่ลักษณนามเพื่อนบ้านที่ใกล้ที่สุด k-?

ดังที่ฉันเข้าใจ k-NN เป็นอัลกอริทึมสำหรับผู้เรียนที่ขี้เกียจและไม่จำเป็นต้องมีขั้นตอนการฝึกอบรม เหตุใดเราจึงต้องใช้.fit()กับ sklearn และจะเกิดอะไรขึ้นเมื่อเราใช้

11 classification scikit-learn k-nearest-neighbour

1

R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน

mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

เทคนิคการเรียนรู้ของเครื่องสำหรับการเรียนรู้รูปแบบสตริง

ฉันมีรายการคำที่เป็นของหมวดหมู่ที่กำหนดเองที่แตกต่างกัน แต่ละหมวดหมู่มีรูปแบบของตัวเอง (ตัวอย่างเช่นหมวดหนึ่งมีความยาวคงที่พร้อมด้วยอักขระพิเศษอีกประเภทหนึ่งมีตัวอักษรอยู่ซึ่งเกิดขึ้นเฉพาะในหมวดหมู่ "คำ", ... ) ตัวอย่างเช่น: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... ฉันกำลังค้นหาเทคนิคการเรียนรู้ของเครื่องเพื่อเรียนรู้รูปแบบเหล่านี้ด้วยตนเองตามข้อมูลการฝึกอบรม ฉันได้พยายามกำหนดตัวแปรตัวทำนายบางตัว (เช่นความยาวจำนวนตัวอักษรพิเศษ ... ) ด้วยตัวเองแล้วใช้โครงข่ายประสาทเทียมเพื่อเรียนรู้และทำนายหมวดหมู่ แต่นั่นไม่ใช่สิ่งที่ฉันต้องการ ฉันต้องการเทคนิคเพื่อเรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่ด้วยตัวเอง - แม้กระทั่งเรียนรู้รูปแบบที่ฉันไม่เคยคิด ดังนั้นฉันจึงให้ข้อมูลการเรียนรู้อัลกอริทึม (ประกอบด้วยตัวอย่างหมวดคำ) และต้องการให้เรียนรู้รูปแบบสำหรับแต่ละหมวดหมู่เพื่อทำนายหมวดหมู่ในภายหลังจากคำที่คล้ายกันหรือเท่ากัน มีวิธีการที่ทันสมัยในการทำมันได้หรือไม่ ขอบคุณสำหรับความช่วยเหลือของคุณ

11 machine-learning classification similarities supervised-learning

3

ลักษณนามพร้อมความแม่นยำที่ปรับได้และการเรียกคืน

ฉันกำลังทำงานกับปัญหาการจำแนกเลขฐานสองซึ่งมันสำคัญมากกว่าที่จะไม่มีผลบวกปลอม ข้อผิดพลาดเชิงลบค่อนข้างมากก็โอเค ฉันใช้ตัวแยกประเภทจำนวนมากใน sklearn แต่ฉันคิดว่าไม่มีตัวใดที่สามารถปรับความแม่นยำในการจำคืนได้อย่างชัดเจน (พวกมันให้ผลลัพธ์ที่ดี แต่ไม่สามารถปรับได้) ตัวแยกประเภทใดที่สามารถปรับความแม่นยำ / เรียกคืนได้ มีวิธีใดบ้างที่จะส่งผลต่อความแม่นยำ / การเรียกคืนการแลกเปลี่ยนกับตัวแยกประเภทมาตรฐานเช่น Random Forest หรือ AdaBoost?

11 classification precision-recall

2

ทำไม Adaboost กับต้นไม้ตัดสินใจ?

ฉันอ่านบิตเกี่ยวกับการเพิ่มอัลกอริทึมสำหรับงานการจัดหมวดหมู่และ Adaboost โดยเฉพาะ ฉันเข้าใจว่าจุดประสงค์ของ Adaboost คือการใช้ "ผู้เรียนที่อ่อนแอ" หลายครั้งและผ่านการทำซ้ำในข้อมูลการฝึกอบรมให้ผู้จัดหมวดหมู่เรียนรู้ที่จะทำนายชั้นเรียนที่ตัวแบบทำผิดซ้ำ ๆ อย่างไรก็ตามฉันสงสัยว่าทำไมการอ่านจำนวนมากของฉันจึงได้ใช้ต้นไม้ตัดสินใจเป็นตัวจําแนกอ่อนแอ มีเหตุผลพิเศษสำหรับเรื่องนี้หรือไม่? มีตัวจําแนกบางอย่างที่ทําให้ผู้สมัครดีหรือไม่ดีกับ Adaboost โดยเฉพาะหรือไม่?

11 machine-learning classification algorithms boosting

3

AUC ที่ดีสำหรับเส้นโค้งการเรียกคืนที่แม่นยำคืออะไร

เนื่องจากฉันมีชุดข้อมูลที่ไม่สมดุลมาก (ผลบวก 9%) ฉันจึงตัดสินใจว่ากราฟความแม่นยำในการเรียกคืนมีความเหมาะสมมากกว่าเส้นโค้ง ROC ฉันได้รับมาตรวัดสรุปพื้นที่แบบอะนาล็อกภายใต้เส้นโค้ง PR (.49 ถ้าคุณสนใจ) แต่ไม่แน่ใจว่าจะตีความมันอย่างไร ฉันได้ยินมาว่า. 8 หรือสูงกว่านั้นเป็น AUC ที่ดีสำหรับ ROC แต่การตัดทั่วไปจะเหมือนกันสำหรับ AUC สำหรับเส้นโค้งการเรียกคืนที่แม่นยำหรือไม่

11 classification precision-recall auc

1

ข้อดีของระยะทางของ Jeffries Matusita

ตามกระดาษที่ฉันกำลังอ่านมีการใช้ระยะทางของ Jeffries และ Matusita แต่ฉันไม่สามารถหาข้อมูลได้มากนักยกเว้นสูตรด้านล่าง JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} มันคล้ายกับระยะทางแบบยุคลิดยกเว้นสแควร์รูท E (x, y) =∑(xi−yi)2−−−−−−−−−−√2∑(xi−yi)22\sqrt[2]{\sum(x_i-y_i)^2} ระยะทาง JM นั้นเชื่อถือได้มากกว่าระยะทางแบบยุคลิดในแง่ของการจำแนกประเภท ทุกคนสามารถอธิบายได้หรือไม่ว่าทำไมความแตกต่างนี้ทำให้ระยะทาง JM ดีขึ้น?

11 classification k-nearest-neighbour euclidean

1

เราจะทำนายเหตุการณ์ที่หายากได้อย่างไร

ฉันกำลังพัฒนารูปแบบการทำนายความเสี่ยงด้านการประกันภัย โมเดลเหล่านี้เป็น "เหตุการณ์ที่หายาก" เช่นการคาดคะเนการไม่แสดงตัวตนของสายการบินการตรวจจับข้อผิดพลาดของฮาร์ดแวร์ ฯลฯ ขณะที่ฉันเตรียมชุดข้อมูลของฉันฉันพยายามใช้การจำแนกประเภท แต่ฉันไม่สามารถรับตัวแยกประเภทที่มีประโยชน์ได้ . ฉันไม่มีประสบการณ์ด้านสถิติและการสร้างแบบจำลองมากไปกว่าหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน อย่างที่ฉันคิดไว้ฉันคิดว่าจะใช้แบบจำลองกระบวนการปัวซองซึ่งมีความเป็นเนื้อเดียวกัน ฉันจัดประเภทตามข้อมูลเหตุการณ์ (date, lat, lon) เพื่อให้ได้ค่าประมาณความเสี่ยงที่ดี ณ เวลาใดเวลาหนึ่งของแต่ละวัน ฉันอยากรู้ว่าอะไรคือวิธีการ / ขั้นตอนวิธีในการทำนายเหตุการณ์ที่เกิดขึ้นได้ยาก คุณแนะนำอะไรเป็นวิธีแก้ไขปัญหานี้

11 classification predictive-models scikit-learn poisson-process

1

วิธีการเลือกความน่าจะเป็นทางลัดสำหรับ Logistic Regression ที่หายาก

ฉันมีการสังเกต 100,000 ครั้ง (ตัวแปรตัวบ่งชี้จำลอง 9 ตัว) พร้อม 1,000 ผลบวก การถดถอยโลจิสติกควรทำงานได้ดีในกรณีนี้ แต่ความเป็นไปได้ที่จะตัดตัวฉัน ในวรรณกรรมทั่วไปเราเลือกตัด 50% เพื่อทำนาย 1s และ 0s ฉันทำสิ่งนี้ไม่ได้เพราะแบบจำลองของฉันให้ค่าสูงสุด ~ 1% ดังนั้นเกณฑ์อาจอยู่ที่ 0.007 หรือที่ใดที่หนึ่งโดยรอบ ฉันเข้าใจROCเส้นโค้งและพื้นที่ใต้เส้นโค้งสามารถช่วยฉันเลือกระหว่างรุ่น LR สองชุดสำหรับชุดข้อมูลเดียวกันได้อย่างไร อย่างไรก็ตาม ROC ไม่ได้ช่วยฉันเลือกความน่าจะเป็นทางลัดที่เหมาะสมที่สามารถใช้ในการทดสอบแบบจำลองกับข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่าง ฉันควรใช้ค่า cutoff ที่ลดmisclassification rateหรือไม่ ( http://www2.sas.com/proceedings/sugi31/210-31.pdf ) เพิ่ม -> สำหรับอัตราเหตุการณ์ที่ต่ำเช่นนี้อัตราการผิดพลาดของฉันได้รับผลกระทบจากผลบวกปลอมจำนวนมาก ในขณะที่อัตราโดยรวมนั้นดูดีเนื่องจากขนาดของจักรวาลทั้งหมดยังใหญ่ แต่แบบจำลองของฉันไม่ควรมีผลบวกผิด ๆ มากมาย (เพราะเป็นแบบจำลองการคืนทุน) 5/10 coeff มีความสำคัญ

11 regression logistic classification generalized-linear-model roc

3

องค์ประกอบหลักแรกไม่ได้แยกคลาส แต่พีซีเครื่องอื่นทำ เป็นไปได้อย่างไร?

ฉันใช้ PCA ใน 17 ตัวแปรเชิงปริมาณเพื่อให้ได้ชุดของตัวแปรที่มีขนาดเล็กลงซึ่งเป็นองค์ประกอบหลักที่จะใช้ในการเรียนรู้ของเครื่องภายใต้การดูแลเพื่อแบ่งอินสแตนซ์ออกเป็นสองชั้น หลังจาก PCA บัญชี PC1 คิดเป็น 31% ของความแปรปรวนของข้อมูล PC2 คิดเป็น 17%, PC3 คิดเป็น 10%, PC4 คิดเป็น 8%, PC5 คิดเป็น 7% และ PC6 คิดเป็น 6% อย่างไรก็ตามเมื่อฉันดูความแตกต่างของพีซีระหว่างสองคลาสน่าประหลาดใจที่ PC1 ไม่ได้แยกแยะระหว่างสองคลาสได้ดี พีซีที่เหลืออยู่เป็นตัวเลือกที่ดี นอกจากนี้ PC1 จะไม่เกี่ยวข้องเมื่อใช้ในต้นไม้ตัดสินใจซึ่งหมายความว่าหลังจากตัดแต่งกิ่งต้นไม้มันจะไม่ปรากฏแม้แต่ในต้นไม้ แผนผังประกอบด้วย PC2-PC6 มีคำอธิบายใด ๆ สำหรับปรากฏการณ์นี้หรือไม่? มันเป็นสิ่งที่ผิดปกติกับตัวแปรที่ได้รับหรือไม่?

11 machine-learning classification pca dimensionality-reduction

4

ลักษณนามสำหรับฉลากระดับที่ไม่แน่นอน

สมมติว่าฉันมีชุดของอินสแตนซ์ที่เกี่ยวข้องกับป้ายชื่อคลาส ไม่สำคัญว่าจะติดป้ายกำกับอินสแตนซ์เหล่านี้อย่างไรแต่ความแน่นอนของการเป็นสมาชิกคลาสของพวกเขาคืออะไร แต่ละ instancs อยู่ในระดับเดียวเท่านั้น สมมติว่าฉันสามารถวัดความแน่นอนของการเป็นสมาชิกแต่ละคลาสด้วยแอตทริบิวต์ที่ระบุซึ่งมีค่าตั้งแต่ 1 ถึง 3 (แน่นอนมากถึงไม่แน่ใจตามลำดับ) มีตัวจําแนกบางประเภทที่คํานึงถึงความแน่นอนดังกล่าวหรือไม่และถ้าใช่มันมีอยู่ในชุดเครื่องมือ WEKA หรือไม่? ฉันคิดว่าสถานการณ์นี้เกิดขึ้นค่อนข้างบ่อยตัวอย่างเช่นเมื่ออินสแตนซ์ถูกจำแนกตามมนุษย์ซึ่งไม่แน่ใจว่าสมบูรณ์แบบเสมอไป ในกรณีของฉันฉันต้องจำแนกรูปภาพและบางครั้งรูปภาพอาจเป็นของมากกว่าหนึ่งคลาส หากสิ่งนี้เกิดขึ้นฉันให้ชั้นเรียนมีความไม่แน่นอนสูง แต่ยังคงจัดประเภทไว้ด้วยคลาสเดียวเท่านั้น หรือมีวิธีอื่นในการแก้ไขปัญหานี้โดยไม่มีตัวจําแนกพิเศษ? เช่นเดียวกับการจัดหมวดหมู่ "แน่นอน" สำหรับการฝึกอบรมเท่านั้น? ฉันกลัวว่าในกรณีนี้จะมีการจัดประเภทผิดพลาดมากกว่าเนื่องจากคดี "ชายแดน" ไม่ครอบคลุม

11 classification weka uncertainty

1

แรงจูงใจเบื้องหลังขั้นตอนวิธีฟอเรสต์แบบสุ่ม

วิธีการที่ฉันคุ้นเคยกับการสร้างฟอเรสต์แบบสุ่มมีดังนี้: (จากhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) เพื่อสร้างต้นไม้ในป่าเรา: บูตตัวอย่างขนาด N ที่ N คือขนาดของชุดการฝึกอบรมของเรา ใช้ตัวอย่าง bootstrapped นี้เป็นชุดการฝึกอบรมสำหรับต้นไม้นี้ ที่แต่ละโหนดของต้นไม้สุ่มเลือก m ของคุณสมบัติ M ของเรา เลือกคุณสมบัติที่ดีที่สุดของ m เหล่านี้เพื่อแยก (โดยที่ m เป็นพารามิเตอร์ของป่าสุ่มของเรา) ปลูกต้นไม้แต่ละต้นให้มากที่สุดเท่าที่จะทำได้เช่นไม่มีการตัดแต่งกิ่ง ในขณะที่อัลกอริทึมนี้สมเหตุสมผลในระดับขั้นตอนและให้ผลลัพธ์ที่ดีแน่นอนฉันไม่ชัดเจนว่าแรงจูงใจทางทฤษฎีอยู่เบื้องหลังขั้นตอนที่ 1, 2 และ 3 ใครสามารถอธิบายสิ่งที่กระตุ้นให้คนที่มากับขั้นตอนนี้และทำไมมัน ทำงานได้ดีเหรอ ตัวอย่างเช่น: ทำไมเราต้องดำเนินการขั้นตอนที่ 1 ดูเหมือนว่าเรากำลังทำ bootstrapping เพื่อจุดประสงค์ในการลดความแปรปรวนตามปกติ

11 machine-learning classification random-forest

1

การประเมินตัวแยกประเภท: เส้นโค้งการเรียนรู้กับเส้นโค้ง ROC

ฉันต้องการเปรียบเทียบตัวแยกประเภทที่แตกต่างกัน 2 ตัวสำหรับปัญหาการจำแนกข้อความแบบหลายคลาสที่ใช้ชุดข้อมูลการฝึกอบรมขนาดใหญ่ ฉันสงสัยว่าฉันควรใช้ ROC curves หรือ learning curves เพื่อเปรียบเทียบ 2 ตัวแยกประเภท ในอีกด้านหนึ่งเส้นโค้งการเรียนรู้มีประโยชน์สำหรับการตัดสินใจขนาดของชุดข้อมูลการฝึกอบรมเนื่องจากคุณสามารถหาขนาดของชุดข้อมูลที่ตัวแยกประเภทหยุดการเรียนรู้ (และอาจลดระดับ) ดังนั้นตัวจําแนกที่ดีที่สุดในกรณีนี้อาจเป็นตัวจําแนกที่มีความแม่นยำสูงสุดด้วยขนาดชุดข้อมูลที่เล็กที่สุด ในทางกลับกัน ROC curves ช่วยให้คุณค้นหาจุดที่มีการแลกเปลี่ยนที่เหมาะสมระหว่างความไว / ความจำเพาะ ลักษณนามที่ดีที่สุดในกรณีนี้คือตัวที่ใกล้กับส่วนบนซ้ายมากที่สุดโดยมี TPR สูงสุดสำหรับ FPR ใด ๆ ฉันควรใช้วิธีการประเมินทั้งสองหรือไม่ เป็นไปได้หรือไม่ที่วิธีที่มีช่วงการเรียนรู้ที่ดีกว่ามีเส้นโค้ง ROC ที่แย่ลงและในทางกลับกัน

11 machine-learning classification roc accuracy

คำถามติดแท็ก classification