สถิติและข้อมูลขนาดใหญ่ classification

3

จะทำการแยกข้อมูลและตรวจสอบความถูกต้องของรถไฟได้อย่างไร?

ฉันกำลังจำแนกภาพโดยใช้การเรียนรู้ของเครื่อง สมมติว่าฉันมีข้อมูลการฝึกอบรม (ภาพ) และจะแบ่งข้อมูลออกเป็นชุดการฝึกอบรมและการตรวจสอบความถูกต้อง และฉันยังต้องการที่จะเพิ่มข้อมูล (สร้างภาพใหม่จากภาพต้นฉบับ) โดยการหมุนแบบสุ่มและการฉีดสัญญาณรบกวน augmentaion ทำแบบออฟไลน์ วิธีใดที่ถูกต้องในการเพิ่มข้อมูล? ขั้นแรกให้แบ่งข้อมูลออกเป็นชุดฝึกอบรมและตรวจสอบความถูกต้องจากนั้นทำการเพิ่มข้อมูลทั้งชุดฝึกอบรมและชุดตรวจสอบ ขั้นแรกให้แบ่งข้อมูลออกเป็นชุดฝึกอบรมและตรวจสอบความถูกต้องจากนั้นทำการเพิ่มข้อมูลในชุดฝึกอบรมเท่านั้น ก่อนอื่นทำการเพิ่มข้อมูลบนข้อมูลจากนั้นแบ่งข้อมูลออกเป็นชุดฝึกอบรมและตรวจสอบความถูกต้อง

14 machine-learning classification cross-validation dataset data-augmentation

1

ความแตกต่างระหว่างการถดถอยโลจิสติกและการสนับสนุนเครื่องเวกเตอร์คืออะไร?

ฉันรู้ว่าการถดถอยโลจิสติกส์พบไฮเปอร์เพลนที่แยกตัวอย่างการฝึกอบรม ฉันรู้ด้วยว่าเครื่องเวกเตอร์สนับสนุนพบไฮเปอร์เพลนที่มีระยะห่างสูงสุด คำถามของฉัน: ความแตกต่างระหว่างการถดถอยโลจิสติก (LR) และเครื่องเวกเตอร์สนับสนุน (SVM) คือ LR พบไฮเปอร์เพลนใด ๆ ที่แยกตัวอย่างการฝึกอบรมในขณะที่ SVM ค้นหาไฮเปอร์เพลนที่มีระยะห่างสูงสุด? หรือฉันผิด θ ⋅ x = 0θ⋅x=0\theta \cdot x = 00.50.50.50.50.50.5θ ⋅ x = 0θ⋅x=0\theta \cdot x = 0

14 machine-learning classification svm data-mining

1

ตัวแยกประเภทการเรียนรู้ของเครื่องใหญ่ -O หรือความซับซ้อน

เพื่อประเมินประสิทธิภาพของอัลกอริธึมลักษณนามใหม่ฉันพยายามเปรียบเทียบความแม่นยำและความซับซ้อน (big-O ในการฝึกอบรมและการจำแนก) จากเครื่องการเรียนรู้: ความคิดเห็นที่ฉันได้รับที่สมบูรณ์รายการลักษณนามภายใต้การดูแลยังเป็นตารางความถูกต้องระหว่างขั้นตอนวิธีการและปัญหาการทดสอบ 44 จากUCI repositoy อย่างไรก็ตามฉันไม่สามารถหาบทวิจารณ์กระดาษหรือเว็บไซต์กับ big-O สำหรับตัวแยกประเภททั่วไปเช่น: C4.5 RIPPER (ฉันคิดว่านี่อาจเป็นไปไม่ได้ แต่ใครจะรู้) ANN พร้อมการขยายพันธุ์กลับ Bayesian ไร้เดียงสา K-NN SVM ถ้าใครมีการแสดงออกสำหรับลักษณนามเหล่านี้มันจะมีประโยชน์มากขอบคุณ

14 machine-learning classification multiple-comparisons algorithms time-complexity

3

การถ่วงน้ำหนักข้อมูลล่าสุดในโมเดล Random Forest

ฉันกำลังฝึกรูปแบบการจัดหมวดหมู่กับ Random Forest เพื่อแยกแยะระหว่าง 6 หมวดหมู่ ข้อมูลธุรกรรมของฉันมีการสังเกตประมาณ 60k + และตัวแปร 35 ตัว นี่คือตัวอย่างของลักษณะโดยประมาณ _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | …

14 r machine-learning classification random-forest

1

ใช้ LASSO บนฟอเรสต์แบบสุ่ม

ฉันต้องการสร้างฟอเรสต์แบบสุ่มโดยใช้กระบวนการต่อไปนี้: สร้างแผนภูมิบนตัวอย่างสุ่มของข้อมูลและคุณลักษณะโดยใช้การรับข้อมูลเพื่อกำหนดแยก ยุติโหนดลีฟหากมันเกินความลึกที่กำหนดไว้ล่วงหน้าหรือการแยกใด ๆ จะส่งผลให้การนับใบไม้น้อยกว่าค่าต่ำสุดที่กำหนดไว้ล่วงหน้า แทนที่จะกำหนดเลเบลคลาสสำหรับแต่ละแผนผังกำหนดสัดส่วนของคลาสในโหนดลีฟ หยุดการสร้างต้นไม้หลังจากสร้างหมายเลขที่กำหนดไว้ล่วงหน้าแล้ว สิ่งนี้ทำให้กระบวนการป่าสุ่มแบบดั้งเดิมมีสองวิธี หนึ่งจะใช้ต้นไม้ที่ถูกตัดแต่งที่กำหนดสัดส่วนมากกว่าฉลากชั้น และสองเกณฑ์หยุดคือจำนวนต้นไม้ที่กำหนดไว้ล่วงหน้าแทนที่จะเป็นค่าประมาณข้อผิดพลาดบางส่วน คำถามของฉันคือ: สำหรับกระบวนการข้างต้นที่ส่งออกต้นไม้ N แล้วฉันสามารถใส่แบบจำลองโดยใช้การถดถอยโลจิสติกพร้อมการเลือก LASSO ได้หรือไม่? ใครบ้างมีประสบการณ์ที่เหมาะสมกับตัวจําแนกฟอเรสต์แบบสุ่มและการประมวลผลหลังด้วย LASSO โลจิสติกส์หรือไม่? เฟรมเวิร์ก ISLE กล่าวถึงการใช้ LASSO เป็นขั้นตอนหลังการประมวลผลสำหรับปัญหาการถดถอย แต่ไม่ใช่ปัญหาการจำแนกประเภท นอกจากนี้ฉันไม่ได้รับผลลัพธ์ที่เป็นประโยชน์เมื่อ googling "Random forest lasso"

14 classification random-forest lasso ensemble

1

RandomForest - การตีความการแปลง MDS

ฉันใช้ randomForest เพื่อจำแนกพฤติกรรมสัตว์ 6 อย่าง (เช่นการยืนการเดินการว่ายน้ำ ฯลฯ ) โดยใช้ตัวแปร 8 ตัว (ท่าทางการเคลื่อนไหวและการเคลื่อนไหวที่แตกต่างกัน) MDSplot ในแพ็คเกจ randomForest ให้ผลลัพธ์นี้กับฉันและฉันมีปัญหาในการตีความผลลัพธ์ ฉันทำ PCA ด้วยข้อมูลเดียวกันและได้รับการแยกที่ดีระหว่างคลาสทั้งหมดใน PC1 และ PC2 แล้ว แต่ที่นี่ Dim1 และ Dim2 ดูเหมือนจะแยกพฤติกรรม 3 อย่างเท่านั้น สิ่งนี้หมายความว่าพฤติกรรมทั้งสามนี้มีความแตกต่างมากกว่าพฤติกรรมอื่น ๆ ทั้งหมด (ดังนั้น MDS จึงพยายามค้นหาความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างตัวแปร แต่ไม่จำเป็นต้องเป็นตัวแปรทั้งหมดในขั้นตอนแรก) การจัดตำแหน่งของทั้งสามคลัสเตอร์ (เช่นใน Dim1 และ Dim2) บ่งชี้ว่าอย่างไร เนื่องจากฉันค่อนข้างใหม่สำหรับ RI ก็มีปัญหาในการพล็อตเรื่องนี้ (แต่ฉันมีความคิดว่าสีที่ต่างกันหมายถึงอะไร) แต่บางทีใครบางคนอาจช่วยได้? ขอบคุณมาก!! ฉันเพิ่มพล็อตที่สร้างด้วยฟังก์ชัน …

14 r classification random-forest multidimensional-scaling

5

การจำแนกข้อความแบบชั้นเดียวทำอย่างไร?

ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!

14 classification text-mining naive-bayes binary-data

3

ทางเลือกของฟังก์ชั่นการเปิดใช้งานตาข่ายซ่อนเร้น

ฉันได้อ่านที่อื่นแล้วว่าฟังก์ชั่นการเปิดใช้งานเลเยอร์ที่ซ่อนอยู่ใน NN ควรเป็นไปตามความต้องการเช่นถ้าคุณต้องการค่าในช่วง -1 ถึง 1 ใช้ tanh และใช้ sigmoid สำหรับช่วง 0 ถึง 1 คำถามของฉันคือใครจะรู้ว่าสิ่งที่ต้องการคืออะไร? มันขึ้นอยู่กับช่วงของเลเยอร์อินพุทเช่นใช้ฟังก์ชั่นที่สามารถครอบคลุมช่วงเต็มของเลเยอร์ของค่าหรือไม่ก็สะท้อนการกระจายของเลเยอร์อินพุท (ฟังก์ชั่นเกาส์) หรือไม่? หรือต้องการปัญหา / โดเมนที่เฉพาะเจาะจงและจำเป็นต้องมีประสบการณ์ / วิจารณญาณในการเลือกตัวเลือกนี้หรือไม่? หรือเป็นเพียง "ใช้สิ่งที่ให้ข้อผิดพลาดในการฝึกอบรมขั้นต่ำที่ผ่านการตรวจสอบความถูกต้องขั้นต่ำ"

14 machine-learning classification neural-networks

1

เมื่อเกิน / ต่ำกว่าการสุ่มตัวอย่างคลาสที่ไม่สมดุลการเพิ่มความแม่นยำจะแตกต่างจากการลดค่าใช้จ่ายในการจำแนกประเภทหรือไม่?

ครั้งแรกของทั้งหมดผมอยากจะอธิบายรูปแบบบางอย่างร่วมกันว่าหนังสือการทำเหมืองข้อมูลที่ใช้อธิบายวิธีการจัดการกับสมดุลชุดข้อมูล โดยทั่วไปส่วนหลักจะมีชื่อว่าชุดข้อมูลที่ไม่สมดุลและครอบคลุมส่วนย่อยทั้งสองนี้: การจำแนกประเภทที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง ดูเหมือนว่าการเผชิญหน้ากับปัญหาในชั้นเรียนที่หายากคุณสามารถทำการจำแนกและการสุ่มตัวอย่างที่มีความอ่อนไหวด้านราคา ฉันคิดว่าควรใช้เทคนิคที่มีความอ่อนไหวด้านต้นทุนหากคลาสที่หายากนั้นเป็นเป้าหมายของการจัดหมวดหมู่และการจัดประเภทที่ไม่ถูกต้องของบันทึกของคลาสนั้นนั้นมีค่าใช้จ่ายสูง ในทางกลับกันเทคนิคการสุ่มตัวอย่างเช่นการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำกว่าจะมีประโยชน์หากเป้าหมายของการจัดหมวดหมู่นั้นมีความแม่นยำโดยรวมที่ดี ความเชื่อนี้มาจากเหตุผลของMetaCostซึ่งเป็นวิธีทั่วไปในการทำให้ลักษณนามมีความอ่อนไหวต่อต้นทุน: หากใครต้องการทำให้ลักษณนามมีความอ่อนไหวต่อราคาเพื่อที่จะลงโทษข้อผิดพลาดของคลาสที่หายาก . ลักษณนามพูดอย่างลวก ๆ พยายามที่จะปรับให้เข้ากับชั้นเรียนอื่นและมันจะกลายเป็นเฉพาะกับชั้นเรียนที่หายาก นี่คือสิ่งที่ตรงกันข้ามกับการสุ่มตัวอย่างของคลาสที่หายากซึ่งเป็นวิธีที่มักจะแนะนำเพื่อจัดการกับปัญหานี้ การสุ่มตัวอย่างของคลาสที่หายากหรือการสุ่มตัวอย่างต่ำกว่าคลาสอื่นนั้นมีประโยชน์ในการปรับปรุงความแม่นยำโดยรวม ได้โปรดจะดีถ้าคุณยืนยันความคิดของฉัน ระบุสิ่งนี้คำถามทั่วไปที่เผชิญกับชุดข้อมูลที่ไม่สมดุลคือ: ฉันควรจะลองชุดข้อมูลที่นับว่าเป็นระเบียนที่หายากมากที่สุด คำตอบของฉันคือในกรณีที่คุณกำลังมองหาความแม่นยำ: ตกลง คุณสามารถทำได้ทั้งค้นหาตัวอย่างคลาสที่หายากมากขึ้นหรือลบบางระเบียนของคลาสอื่น ในกรณีที่คุณกำลังมุ่งเน้นไปที่คลาสที่หายากด้วยเทคนิคที่มีความอ่อนไหวด้านต้นทุนฉันจะตอบว่า: คุณสามารถหาตัวอย่างคลาสที่หายากได้มากขึ้นเท่านั้น แต่คุณไม่ควรลบระเบียนของคลาสอื่น ในกรณีหลังคุณจะไม่สามารถปล่อยให้ตัวจําแนกปรับให้เข้ากับชั้นเรียนอื่นและข้อผิดพลาดการจำแนกคลาสที่หายากอาจเพิ่มขึ้น คุณจะตอบอย่างไร

14 machine-learning classification unbalanced-classes

3

โมเดลรถเข็นสามารถสร้างความแข็งแกร่งได้หรือไม่?

เพื่อนร่วมงานคนหนึ่งในสำนักงานของฉันพูดกับฉันในวันนี้ว่า "แบบจำลองต้นไม้ไม่ดีเพราะพวกเขาถูกจับด้วยการสังเกตอย่างหนัก" การค้นหาที่นี่ส่งผลให้เธรดนี้รองรับการอ้างสิทธิ์โดยทั่วไป ข้อใดทำให้ฉันมีคำถาม - โมเดลรถเข็น CART ในสถานการณ์ใดจะมีประสิทธิภาพและจะแสดงได้อย่างไร?

14 regression classification robust cart

2

เหตุใดการประมาณข้อผิดพลาด OOB ฟอเรสต์แบบสุ่มจึงดีขึ้นเมื่อจำนวนของคุณสมบัติที่เลือกลดลง

ฉันใช้อัลกอริธึมฟอเรสต์แบบสุ่มเป็นตัวจําแนกในชุดข้อมูลขนาดเล็กซึ่งแบ่งออกเป็นสองกลุ่มที่รู้จักพร้อมกับคุณลักษณะ 1000s หลังจากรันครั้งแรกฉันดูความสำคัญของฟีเจอร์และเรียกใช้อัลกอริทึมแบบทรีอีกครั้งด้วยฟีเจอร์ที่สำคัญที่สุด 5, 10 และ 20 ฉันพบว่าสำหรับฟีเจอร์ทั้งหมดอันดับ 10 และ 20 ที่การประเมิน OOB ของอัตราข้อผิดพลาดคือ 1.19% ซึ่งสำหรับฟีเจอร์ 5 อันดับแรกนั้นคือ 0% นี่ดูเหมือนจะขัดกับฉันดังนั้นฉันจึงสงสัยว่าคุณจะอธิบายได้หรือไม่ว่าฉันขาดอะไรไปหรือฉันใช้เมตริกที่ไม่ถูกต้อง ฉันใช้แพ็คเกจ randomForest ใน R กับ ntree = 1,000, nodesize = 1 และ mtry = sqrt (n)

14 r machine-learning classification random-forest

1

เหตุใดจึงใช้คะแนน Normalized Gini แทน AUC เพื่อประเมินผล

การแข่งขันของ Kaggle การแข่งขันการทำนายความปลอดภัยอย่างปลอดภัยของ Porto Seguroใช้คะแนน Normalized Gini เป็นตัวชี้วัดการประเมินผลและสิ่งนี้ทำให้ฉันสงสัยเกี่ยวกับเหตุผลของการเลือกนี้ อะไรคือข้อดีของการใช้คะแนน gini ปกติแทนการวัดทั่วไปมากที่สุดเช่น AUC สำหรับการประเมิน?

14 classification auc model-evaluation gini

1

Caret glmnet กับ cv.glmnet

ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

GAM กับ LOESS และ splines

บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

8

ฝึกฝน Neural Network เพื่อแยกแยะตัวเลขคู่และคู่

คำถาม: เป็นไปได้ไหมที่จะฝึก NN ให้แยกแยะระหว่างเลขคี่กับเลขคู่โดยใช้เป็นตัวเลขเท่านั้น? ฉันมีชุดข้อมูลต่อไปนี้: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 ฉันฝึก NN ด้วยเซลล์ประสาทอินพุตสองตัว (อันหนึ่งคือตัวแปรหมายเลข, อีกอันคือเซลล์ประสาทอคติ), เก้าเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่และเซลล์ประสาทเอาท์พุทหนึ่งโดยใช้อัลกอริธึมทางพันธุกรรมที่ง่ายมาก: ในแต่ละช่วงเวลา "ต่อกัน; ส่วนที่มีข้อผิดพลาดสูงที่สุดจะหายไปและจะถูกแทนที่ด้วยผู้ชนะที่ได้รับการแก้ไข สคริปต์สามารถแก้ปัญหาง่าย ๆ อย่างเช่นตัวดำเนินการ AND, OR และ XOR แต่ติดอยู่ในขณะที่พยายามจัดหมวดหมู่ตัวเลขคี่และคู่ ตอนนี้สิ่งที่ดีที่สุดที่จะจัดการคือการระบุหมายเลข 53 จาก 100 และใช้เวลาหลายชั่วโมง ไม่ว่าฉันจะทำให้ปกติหรือไม่อินพุตดูเหมือนจะไม่แตกต่างกัน หากฉันต้องการที่จะโกงฉันสามารถประมวลผลข้อมูลล่วงหน้าและป้อน% 2 …

14 machine-learning classification categorical-data neural-networks genetic-algorithms

คำถามติดแท็ก classification