สถิติและข้อมูลขนาดใหญ่ svm

2

แนวทางการฝึกอบรมสำหรับชุดข้อมูลที่มีความไม่สมดุลสูง

ฉันมีชุดข้อมูลการทดสอบที่ไม่สมดุลสูง ชุดบวกประกอบด้วย 100 กรณีในขณะที่ชุดลบประกอบด้วย 1500 กรณี ในด้านการฝึกอบรมฉันมีกลุ่มผู้สมัครที่ใหญ่กว่า: ชุดฝึกอบรมเชิงบวกมี 1200 รายและชุดฝึกอบรมเชิงลบมี 12,000 ราย สำหรับสถานการณ์ประเภทนี้ฉันมีหลายทางเลือก: 1) การใช้ SVM แบบถ่วงน้ำหนักสำหรับชุดฝึกอบรมทั้งหมด (P: 1200, N: 12000) 2) การใช้ SVM ตามชุดการฝึกอบรมตัวอย่าง (P: 1200, N: 1200) ตัวอย่างเชิงลบ 1200 รายการจะถูกสุ่มตัวอย่างจาก 12,000 กรณี มีคำแนะนำเชิงทฤษฎีในการตัดสินใจเลือกวิธีใดดีกว่า เนื่องจากชุดข้อมูลทดสอบมีความไม่สมดุลสูงฉันควรใช้ชุดฝึกอบรมที่ไม่สมดุลเช่นกันหรือไม่

16 machine-learning classification data-mining svm bioinformatics

4

ความแม่นยำการจำแนกต่ำจะทำอย่างไรต่อไป

ดังนั้นฉันเป็นมือใหม่ในสาขา ML และฉันพยายามจัดหมวดหมู่ เป้าหมายของฉันคือการทำนายผลของการแข่งขันกีฬา ฉันรวบรวมข้อมูลทางประวัติศาสตร์บางอย่างแล้วและตอนนี้พยายามฝึกฝนตัวจําแนก ฉันมีตัวอย่างประมาณ 1200 ตัวอย่าง 0.2 ของพวกเขาแยกออกเพื่อวัตถุประสงค์ในการทดสอบและอื่น ๆ ที่ฉันใส่ลงในการค้นหากริด ฉันได้ลอง SVM ด้วยเมล็ดแบบเชิงเส้น rbf และโพลิโนมินัลและป่าสุ่มไปแล้ว น่าเสียดายที่ฉันไม่สามารถรับความแม่นยำมากกว่า 0.5 ได้อย่างมีนัยสำคัญ (เช่นเดียวกับการสุ่มเลือกชั้นเรียน) หมายความว่าฉันไม่สามารถคาดการณ์ผลลัพธ์ของเหตุการณ์ที่ซับซ้อนเช่นนี้ได้หรือไม่ หรือฉันสามารถรับความแม่นยำอย่างน้อย 0.7-0.8 ถ้าเป็นไปได้แล้วฉันจะดูอะไรต่อไป รับข้อมูลเพิ่มเติมหรือไม่ (ฉันสามารถขยายชุดข้อมูลได้สูงสุด 5 ครั้ง) ลองตัวแยกประเภทอื่นหรือไม่ (การถดถอยโลจิสติก, kNN, ฯลฯ ) ประเมินชุดคุณสมบัติของฉันอีกครั้ง? มี ML-tools ใดที่ต้องวิเคราะห์ซึ่งคุณสมบัติใดที่เหมาะสมและไม่ใช้ บางทีฉันควรลดชุดคุณลักษณะ (ปัจจุบันฉันมีคุณสมบัติ 12 อย่าง) หรือไม่

16 classification svm feature-selection random-forest

3

ค้นหากริดบนการตรวจสอบความถูกต้องข้ามของ k-fold

ฉันมีชุดข้อมูล 120 ตัวอย่างในการตั้งค่าการตรวจสอบความถูกต้องไขว้ 10 เท่า ขณะนี้ฉันเลือกข้อมูลการฝึกอบรมของการค้างชำระครั้งแรกและทำการตรวจสอบความถูกต้องข้าม 5 เท่าเพื่อเลือกค่าของแกมม่าและ C โดยการค้นหากริด ฉันใช้ SVM กับเคอร์เนล RBF เนื่องจากฉันใช้การตรวจสอบข้าม 10 ครั้งเพื่อรายงานความแม่นยำการเรียกคืนฉันจะทำการค้นหากริดนี้ในข้อมูลการฝึกอบรมของแต่ละรายการที่ค้างอยู่ (มี 10 โฮลด์แต่ละคนมีการทดสอบ 10% และ 90% ข้อมูลการฝึกอบรม) นั่นจะไม่ใช้เวลานานเกินไปหรือ ถ้าฉันใช้แกมม่าและ C ของสิ่งที่ค้างอยู่ครั้งแรกและใช้มันสำหรับส่วนที่เหลือจาก 9 การตรวจสอบความถูกต้องแบบข้าม k-fold นั่นคือการละเมิดเพราะฉันจะใช้ข้อมูลรถไฟเพื่อรับแกมม่าและ C และใช้อีกครั้ง ส่วนของข้อมูลรถไฟเป็นการทดสอบในช่วงที่สอง

16 machine-learning classification cross-validation svm

6

การใช้ SVM ที่เร็วที่สุด

คำถามทั่วไปเพิ่มเติม ฉันใช้ rbf SVM สำหรับการสร้างแบบจำลองการคาดการณ์ ฉันคิดว่าโปรแกรมปัจจุบันของฉันต้องใช้เวลาเพิ่มขึ้นเล็กน้อย ฉันใช้ scikit เรียนรู้ด้วยการค้นหากริดแบบหยาบไปจนถึงแบบละเอียด + การตรวจสอบความถูกต้องไขว้ การวิ่ง SVM แต่ละครั้งใช้เวลาประมาณหนึ่งนาที แต่ด้วยการวนซ้ำทั้งหมดฉันยังพบว่ามันช้าเกินไป สมมติว่าในที่สุดฉันก็มีหลายเธรดส่วนการตรวจสอบความถูกต้องข้ามหลายคอร์คำแนะนำใด ๆ ในการเร่งความเร็วโปรแกรมของฉัน มีการใช้งาน SVM ที่เร็วขึ้นหรือไม่ ฉันเคยได้ยิน GPU SVM บางตัวแล้ว แต่ยังไม่ได้เจาะเข้าไปมากนัก ผู้ใช้คนใดและเร็วกว่ากันไหม

16 machine-learning svm predictive-models scikit-learn kernel-trick

3

SVM สำหรับข้อมูลที่ไม่สมดุล

ฉันต้องการใช้ Support Vector Machines (SVMs) ในชุดข้อมูลของฉัน ก่อนที่ฉันจะพยายามแก้ปัญหาฉันได้รับคำเตือนว่า SVM ไม่ทำงานได้ดีกับข้อมูลที่ไม่สมดุลอย่างยิ่ง ในกรณีของฉันฉันสามารถมีได้มากถึง 95-98% 0 และ 2-5% 1 ฉันพยายามค้นหาทรัพยากรที่พูดคุยเกี่ยวกับการใช้ SVM ในข้อมูลที่กระจัดกระจาย / ไม่สมดุล แต่สิ่งที่ฉันพบคือ 'sparseSVMs' (ซึ่งใช้เวกเตอร์สนับสนุนจำนวนเล็กน้อย) ฉันหวังว่าบางคนสามารถอธิบายสั้น ๆ : SVM คาดว่าจะทำอย่างไรกับชุดข้อมูลดังกล่าว ซึ่งหากมีการปรับเปลี่ยนจะต้องทำกับอัลกอริทึม SVM แหล่งข้อมูล / เอกสารใดที่กล่าวถึงเรื่องนี้

15 svm libsvm unbalanced-classes

1

สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร

การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

3

ปรีชาสำหรับ Support Vector Machines และไฮเปอร์เพลน

ในโครงการของฉันฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกสำหรับการทำนายการจำแนกเลขฐานสอง (1 หรือ 0) ฉันมีตัวแปร 15 ตัวโดยแบ่งเป็น 2 ตัวแปรในขณะที่ส่วนที่เหลือเป็นส่วนผสมของตัวแปรต่อเนื่องและไม่ต่อเนื่อง เพื่อให้เหมาะสมกับโมเดลการถดถอยโลจิสติกฉันได้รับคำแนะนำให้ตรวจสอบความสามารถในการแยกเชิงเส้นโดยใช้ SVM, perceptron หรือการเขียนโปรแกรมเชิงเส้น สิ่งนี้เชื่อมโยงกับคำแนะนำที่เกิดขึ้นที่นี่เกี่ยวกับการทดสอบความสามารถในการแยกเชิงเส้น ในฐานะที่เป็นมือใหม่ในการเรียนรู้ของเครื่องจักรฉันเข้าใจแนวคิดพื้นฐานเกี่ยวกับอัลกอริทึมที่กล่าวถึงข้างต้น แต่แนวคิดฉันพยายามที่จะจินตนาการว่าเราสามารถแยกข้อมูลที่มีมิติมากมายเช่น 15 ในกรณีของฉันได้อย่างไร ตัวอย่างทั้งหมดในวัสดุออนไลน์มักแสดงพล็อต 2 มิติของตัวแปรตัวเลขสองตัว (ความสูงน้ำหนัก) ซึ่งแสดงช่องว่างที่ชัดเจนระหว่างหมวดหมู่และทำให้เข้าใจง่ายขึ้น แต่ในโลกแห่งความเป็นจริงข้อมูลมักจะมีมิติที่สูงกว่ามาก ฉันยังคงถูกดึงกลับไปที่ชุดข้อมูลของ Iris และพยายามที่จะใส่ไฮเปอร์เพลนผ่านสามสายพันธุ์และมันเป็นเรื่องยากโดยเฉพาะอย่างยิ่งถ้าเป็นไปไม่ได้ที่จะทำเช่นนั้นระหว่างสองสปีชีส์ เราจะบรรลุสิ่งนี้ได้อย่างไรเมื่อเรามีคำสั่งเกี่ยวกับมิติที่สูงขึ้นมันสันนิษฐานว่าเมื่อเรามีคุณสมบัติเกินจำนวนที่เราใช้เมล็ดเพื่อแมปไปยังพื้นที่มิติที่สูงขึ้นเพื่อให้ได้การแยกนี้ นอกจากนี้เพื่อทดสอบการแยกเชิงเส้นตัวชี้วัดที่ใช้คืออะไร มันเป็นความถูกต้องของรุ่น SVM หรือไม่เช่นความถูกต้องตามเมทริกซ์ความสับสน? ความช่วยเหลือใด ๆ ในการทำความเข้าใจหัวข้อนี้จะได้รับการชื่นชมอย่างมาก ด้านล่างเป็นตัวอย่างของพล็อตของตัวแปรสองตัวในชุดข้อมูลของฉันซึ่งแสดงให้เห็นว่าการซ้อนทับของตัวแปรทั้งสองนี้เพียงใด

15 machine-learning logistic classification svm separation

5

เคอร์เนล SVM: ฉันต้องการความเข้าใจที่เข้าใจง่ายเกี่ยวกับการแมปไปยังพื้นที่คุณลักษณะมิติที่สูงขึ้นและวิธีนี้ทำให้การแยกเชิงเส้นเป็นไปได้

ฉันพยายามที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังเคอร์เนล SVM ตอนนี้ฉันเข้าใจวิธีการทำงานของ SVM แบบเส้นตรงโดยที่บรรทัดการตัดสินใจจะแยกข้อมูลออกมาให้ดีที่สุดเท่าที่จะทำได้ ฉันยังเข้าใจหลักการที่อยู่เบื้องหลังการย้ายข้อมูลไปยังพื้นที่มิติที่สูงขึ้นและวิธีนี้จะทำให้การค้นหาเส้นการตัดสินใจเชิงเส้นในพื้นที่ใหม่นี้ง่ายขึ้น สิ่งที่ฉันไม่เข้าใจก็คือวิธีที่เคอร์เนลใช้ในการฉายจุดข้อมูลไปยังพื้นที่ใหม่นี้ สิ่งที่ฉันรู้เกี่ยวกับเคอร์เนลคือมันแสดงถึง "ความคล้ายคลึงกัน" ได้อย่างมีประสิทธิภาพระหว่างจุดข้อมูลสองจุด แต่สิ่งนี้เกี่ยวข้องกับการฉายภาพอย่างไร

15 machine-learning svm kernel-trick

2

การผสมข้อมูลอย่างต่อเนื่องและไบนารีกับ Linear SVM หรือไม่

ดังนั้นฉันจึงได้เล่นรอบกับ SVM และฉันสงสัยว่านี่เป็นสิ่งที่ดีที่จะทำ: ฉันมีชุดคุณสมบัติแบบต่อเนื่อง (0 ถึง 1) และชุดคุณสมบัติแบบหมวดหมู่ที่ฉันแปลงเป็นตัวแปรจำลอง ในกรณีพิเศษนี้ฉันเข้ารหัสวันที่ของการวัดในตัวแปรจำลอง: มี 3 ช่วงเวลาที่ฉันมีข้อมูลจากและฉันจองหมายเลขฟีเจอร์ 3 หมายเลขสำหรับพวกเขา: 20: 21: 22: ดังนั้นขึ้นอยู่กับช่วงเวลาที่ข้อมูลมาคุณสมบัติที่แตกต่างจะได้รับ 1 กำหนด; คนอื่นจะได้รับ 0 SVM จะทำงานอย่างถูกต้องกับสิ่งนี้หรือสิ่งนี้เป็นสิ่งที่ไม่ดีที่ต้องทำหรือไม่? ฉันใช้ SVMLight และเคอร์เนลเชิงเส้น

15 categorical-data svm feature-selection linear-model feature-construction

2

ทำไมการปรับขนาดจึงมีความสำคัญสำหรับการจัดประเภท SVM เชิงเส้น

เมื่อทำการจัดหมวดหมู่ SVM แบบเส้นตรงมักจะเป็นประโยชน์ในการทำให้ข้อมูลการฝึกอบรมเป็นปกติเช่นการลบค่าเฉลี่ยและหารด้วยค่าเบี่ยงเบนมาตรฐาน ทำไมกระบวนการนี้จึงเปลี่ยนประสิทธิภาพการจำแนกอย่างรวดเร็ว?

15 machine-learning svm standardization

1

Dimensionality Curse มีผลต่อบางรุ่นมากกว่ารุ่นอื่น ๆ หรือไม่?

สถานที่ที่ฉันได้อ่านเกี่ยวกับคำสาปไดนามิคอธิบายร่วมกับ kNN เป็นหลักและโมเดลเชิงเส้นโดยทั่วไป ฉันเห็นอันดับติดอันดับใน Kaggle เป็นประจำโดยใช้คุณสมบัติมากมายบนชุดข้อมูลซึ่งแทบไม่มีจุดข้อมูล 100k พวกเขาใช้ต้นไม้ที่ได้รับการส่งเสริมและ NN เป็นหลัก คุณสมบัติหลายอย่างนั้นดูสูงเกินไปและฉันรู้สึกว่าพวกเขาจะได้รับผลกระทบจากคำสาปของมิติ แต่นั่นไม่ได้เป็นเช่นนั้นเพราะโมเดลเหล่านี้ทำให้พวกเขาเป็นผู้นำในการแข่งขัน ดังนั้นกลับไปที่คำถามเดิมของฉัน - บางรุ่นได้รับผลกระทบจากคำสาปแช่งมิติมากกว่าคนอื่น ๆ หรือไม่? โดยเฉพาะฉันสนใจรุ่นต่อไปนี้ (เพราะเป็นรุ่นที่ฉันรู้ / ใช้): การถดถอยเชิงเส้นและโลจิสติก ต้นไม้ตัดสินใจ / ป่าสุ่ม / ต้นไม้เร่ง โครงข่ายประสาทเทียม SVM kNN k-หมายถึงการจัดกลุ่ม

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

3

“ เครื่องจักร” ใน“ สนับสนุนเครื่องเวกเตอร์” และ“ เครื่อง จำกัด Boltzmann” หมายความว่าอะไร

ทำไมพวกเขาถึงเรียกว่า "เครื่องจักร" มีที่มาของคำว่า "เครื่องจักร" ที่ใช้ในบริบทนี้หรือไม่? (เช่นชื่อ "การเขียนโปรแกรมเชิงเส้น" อาจสร้างความสับสน แต่เรารู้ว่าทำไมเรียกว่า "การเขียนโปรแกรม")

14 svm terminology rbm etymology

3

บานพับขาดทุนและข้อดีและข้อเสีย / ข้อ จำกัด

การสูญเสียบานพับสามารถกำหนดใช้และการสูญเสียล็อกสามารถกำหนดเป็นล็อก( 1 + ประสบการณ์( - Y ฉันW T xฉัน ) )สูงสุด ( 0 , 1 - yผมWTxผม)สูงสุด(0,1-YผมWTxผม)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)เข้าสู่ระบบ( 1 + ประสบการณ์( - yผมWTxผม) )เข้าสู่ระบบ(1+ประสบการณ์⁡(-YผมWTxผม))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) ฉันมีคำถามต่อไปนี้: มีข้อเสียของการสูญเสียบานพับ (เช่นไวต่อค่าผิดปกติตามที่ระบุไว้ในhttp://www.unc.edu/~yfliu/papers/rsvm.pdf ) หรือไม่? อะไรคือความแตกต่างข้อดีข้อเสียของหนึ่งเมื่อเทียบกับที่อื่น

14 machine-learning svm loss-functions computer-vision

1

ความแตกต่างระหว่างการถดถอยโลจิสติกและการสนับสนุนเครื่องเวกเตอร์คืออะไร?

ฉันรู้ว่าการถดถอยโลจิสติกส์พบไฮเปอร์เพลนที่แยกตัวอย่างการฝึกอบรม ฉันรู้ด้วยว่าเครื่องเวกเตอร์สนับสนุนพบไฮเปอร์เพลนที่มีระยะห่างสูงสุด คำถามของฉัน: ความแตกต่างระหว่างการถดถอยโลจิสติก (LR) และเครื่องเวกเตอร์สนับสนุน (SVM) คือ LR พบไฮเปอร์เพลนใด ๆ ที่แยกตัวอย่างการฝึกอบรมในขณะที่ SVM ค้นหาไฮเปอร์เพลนที่มีระยะห่างสูงสุด? หรือฉันผิด θ ⋅ x = 0θ⋅x=0\theta \cdot x = 00.50.50.50.50.50.5θ ⋅ x = 0θ⋅x=0\theta \cdot x = 0

14 machine-learning classification svm data-mining

2

Support Vector Machine รองรับชุดข้อมูลที่ไม่สมดุลหรือไม่?

SVM จัดการชุดข้อมูลที่ไม่สมดุลหรือไม่ นั่นคือพารามิเตอร์ใด ๆ (เช่น C หรือค่าการแบ่งประเภท) การจัดการชุดข้อมูลที่ไม่สมดุล

14 machine-learning svm unbalanced-classes

คำถามติดแท็ก svm