สถิติและข้อมูลขนาดใหญ่ unbalanced-classes

3

ตัวอย่างที่ไม่สมดุลย์มีความสำคัญหรือไม่เมื่อทำการถดถอยโลจิสติก

โอเคดังนั้นฉันคิดว่าฉันมีตัวอย่างที่ดีพอโดยคำนึงถึงกฎ 20: 1 นิ้วหัวแม่มือ: ตัวอย่างที่ค่อนข้างใหญ่ (N = 374) สำหรับตัวแปรตัวทำนายผู้สมัครทั้งหมด 7 คน ปัญหาของฉันคือสิ่งต่อไปนี้: ไม่ว่าชุดตัวแปรพยากรณ์ใดที่ฉันใช้การจำแนกไม่เคยดีไปกว่าความจำเพาะ 100% และความไว 0% อย่างไรก็ตามไม่น่าพอใจจริง ๆ แล้วนี่อาจเป็นผลลัพธ์ที่ดีที่สุดที่เป็นไปได้เนื่องจากชุดของตัวแปรตัวทำนายผู้สมัคร (ซึ่งฉันไม่สามารถเบี่ยงเบน) แต่ฉันไม่สามารถช่วยได้ แต่คิดว่าฉันทำได้ดีกว่านี้ฉันจึงสังเกตเห็นว่าหมวดหมู่ของตัวแปรตามนั้นค่อนข้างสมดุลไม่สมดุลเกือบ 4: 1 ตัวอย่างย่อยที่สมดุลสามารถปรับปรุงการจำแนกประเภทได้หรือไม่

81 regression logistic sample-size unbalanced-classes

6

การจำแนกไบนารีด้วยคลาสที่ไม่สมดุลอย่างยิ่ง

ฉันมีชุดข้อมูลในรูปแบบของ (ฟีเจอร์, เอาต์พุตไบนารี 0 หรือ 1), แต่ 1 เกิดขึ้นน้อยมาก, ดังนั้นโดยการคาดการณ์เสมอ 0, ฉันได้รับความแม่นยำระหว่าง 70% ถึง 90% (ขึ้นอยู่กับข้อมูลเฉพาะที่ฉันดู ) วิธีการ ML ให้ความถูกต้องเหมือนกันและฉันรู้สึกว่าควรมีวิธีมาตรฐานที่จะใช้ในสถานการณ์นี้ซึ่งจะปรับปรุงความแม่นยำมากกว่ากฎการทำนายที่ชัดเจน

52 machine-learning classification binary-data unbalanced-classes

5

ข้อมูลไม่สมดุลจริง ๆ แล้วเกิดปัญหาในการเรียนรู้ของเครื่องเมื่อใด

เรามีคำถามหลายข้อเกี่ยวกับข้อมูลที่ไม่สมดุลเมื่อใช้การถดถอยโลจิสติก , SVM , ต้นไม้ตัดสินใจ , การใส่ถุงและคำถามอื่นที่คล้ายกันจำนวนหนึ่งสิ่งที่ทำให้มันเป็นหัวข้อยอดนิยม! น่าเสียดายที่คำถามแต่ละข้อดูเหมือนจะเป็นแบบเฉพาะอัลกอริทึมและฉันไม่พบแนวทางทั่วไปใด ๆ ในการจัดการกับข้อมูลที่ไม่สมดุล การอ้างคำตอบอย่างใดอย่างหนึ่งโดย Marc Claesenโดยจัดการกับข้อมูลที่ไม่สมดุล (... ) ขึ้นอยู่กับวิธีการเรียนรู้เป็นอย่างมาก วิธีการทั่วไปส่วนใหญ่มีวิธีหนึ่ง (หรือหลายวิธี) ในการจัดการกับสิ่งนี้ แต่เมื่อไหร่เราควรกังวลเกี่ยวกับข้อมูลที่ไม่สมดุล? อัลกอริทึมใดที่ได้รับผลกระทบส่วนใหญ่และสามารถจัดการกับมันได้? อัลกอริทึมใดที่จะทำให้เราต้องรักษาสมดุลของข้อมูล ฉันรู้ว่าการพูดถึงอัลกอริธึมแต่ละอย่างเป็นไปไม่ได้ในเว็บไซต์ถาม - ตอบเช่นนี้ฉันค่อนข้างมองหาแนวทางทั่วไปเมื่อมันอาจมีปัญหา

52 machine-learning classification predictive-models unbalanced-classes

4

ความไม่สมดุลของคลาสในการเรียนรู้ของเครื่องภายใต้การควบคุม

นี่เป็นคำถามโดยทั่วไปไม่ใช่เฉพาะวิธีการหรือชุดข้อมูลใด ๆ เราจะจัดการกับปัญหาความไม่สมดุลของคลาสได้อย่างไรในการเรียนรู้ของเครื่องควบคุมโดยที่จำนวน 0 อยู่ที่ 90% และจำนวน 1 อยู่ที่ประมาณ 10% ในชุดข้อมูลของคุณเราจะฝึกอบรมตัวจําแนกอย่างเหมาะสมได้อย่างไร หนึ่งในวิธีที่ฉันติดตามคือการสุ่มตัวอย่างเพื่อทำให้ชุดข้อมูลมีความสมดุลจากนั้นทำการฝึกการจําแนก ฉันรู้สึกว่านี่เป็นการสุ่มมีกรอบใด ๆ ในการแก้ไขปัญหาเหล่านี้

47 machine-learning unbalanced-classes supervised-learning

4

ฝึกอบรมโครงสร้างการตัดสินใจเทียบกับข้อมูลที่ไม่สมดุล

ฉันยังใหม่กับการขุดข้อมูลและฉันพยายามฝึกอบรมต้นไม้ตัดสินใจกับชุดข้อมูลที่ไม่สมดุลกันมาก อย่างไรก็ตามฉันมีปัญหากับความแม่นยำในการทำนายที่ไม่ดี ข้อมูลประกอบด้วยนักเรียนที่เรียนหลักสูตรและตัวแปรระดับคือสถานะของหลักสูตรที่มีสองค่า - ถอนตัวหรือปัจจุบัน อายุ เชื้อชาติ เพศ หลักสูตร ... สถานะของหลักสูตร ในชุดข้อมูลมีอินสแตนซ์อีกมากมายซึ่งเป็นปัจจุบันกว่าถอนออก การถอนอินสแตนซ์นั้นคิดเป็นเพียง 2% ของอินสแตนซ์ทั้งหมด ฉันต้องการสร้างแบบจำลองที่สามารถทำนายความน่าจะเป็นที่คน ๆ หนึ่งจะถอนตัวในอนาคต อย่างไรก็ตามเมื่อทำการทดสอบแบบจำลองกับข้อมูลการฝึกอบรมความแม่นยำของแบบจำลองนั้นแย่มาก ฉันมีปัญหาที่คล้ายกันกับต้นไม้การตัดสินใจที่ข้อมูลถูกครอบงำโดยหนึ่งหรือสองชั้น ฉันจะใช้วิธีใดในการแก้ปัญหานี้และสร้างลักษณนามที่แม่นยำยิ่งขึ้น

43 classification cart unbalanced-classes accuracy

1

สัมประสิทธิ์การถดถอยแบบลอจิสติกเปลี่ยนแปลงเปลี่ยนแปลงหรือไม่?

ถ้าฉันมีชุดข้อมูลที่มีคลาสบวกที่หายากมากและฉันลบกลุ่มตัวอย่างที่เป็นลบจากนั้นทำการถดถอยโลจิสติกฉันต้องปรับค่าสัมประสิทธิ์การถดถอยเพื่อสะท้อนความจริงที่ว่าฉันเปลี่ยนความชุกของคลาสบวกหรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลที่มีตัวแปร 4 ตัวคือ Y, A, B และ C Y, A และ B เป็นเลขฐานสอง, C เป็นแบบต่อเนื่อง สำหรับการสังเกต 11,100 Y = 0 และสำหรับ 900 Y = 1: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * …

34 logistic unbalanced-classes case-control-study

3

สาเหตุที่แท้จริงของปัญหาความไม่สมดุลของชนชั้นคืออะไร?

ฉันได้คิดมากเกี่ยวกับ "ปัญหาความไม่สมดุลในชั้นเรียน" ในการเรียนรู้ของเครื่องจักร / สถิติเมื่อเร็ว ๆ นี้และฉันรู้สึกลึกลงไปในความรู้สึกที่ฉันไม่เข้าใจว่าเกิดอะไรขึ้น ก่อนอื่นให้ฉันกำหนด (หรือพยายาม) กำหนดคำของฉัน: ปัญหาระดับความไม่สมดุลในเครื่อง / การเรียนรู้ทางสถิติคือการสังเกตว่าบางจำแนกไบนารี (*) ขั้นตอนวิธีการทำงานได้ไม่ดีเมื่อสัดส่วนของ 0 เรียน 1 ชั้นเรียนเป็นเบ้มาก ดังนั้นในข้างต้นตัวอย่างเช่นถ้ามีหนึ่งร้อย000ชั้นเรียนสำหรับทุกเดียว111ชั้นผมจะบอกว่าความไม่สมดุลของระดับคือ111ที่จะ100100100หรือ1%1%1\% % งบส่วนใหญ่ของปัญหาที่ฉันได้เห็นขาดสิ่งที่ฉันคิดว่าเป็นคุณสมบัติที่เพียงพอ (สิ่งที่รูปแบบการต่อสู้ปัญหาไม่สมดุลคือปัญหา) และนี่คือแหล่งที่มาของความสับสนของฉัน การสำรวจข้อความมาตรฐานในการเรียนรู้ของเครื่อง / สถิติกลับมีน้อย: องค์ประกอบของสถิติเอนและรู้เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติไม่ได้มี "ชั้นไม่สมดุล" ในดัชนี การเรียนรู้ของเครื่องสำหรับ Predictive Data Analyticsยังไม่มี "คลาสที่ไม่สมดุล" ในดัชนี เมอร์ฟี่เครื่องเรียนรู้: การน่าจะเป็นมุมมองที่ ไม่มี "ระดับความไม่สมดุล * ในดัชนีอ้างอิงไปยังส่วนบนของ SVM ที่ผมพบว่าความคิดเห็นยั่วเย้าดังต่อไปนี้. มันเป็นเรื่องที่ควรค่าแก่การจดจำว่าปัญหาทั้งหมดเหล่านี้และการวิเคราะห์พฤติกรรมที่ได้รับการเสนอเพื่อแก้ไขปัญหาเหล่านี้เกิดขึ้นโดยพื้นฐานเพราะ SVM ไม่ได้สร้างแบบจำลองความไม่แน่นอนในการใช้ความน่าจะเป็นดังนั้นคะแนนเอาท์พุท ความคิดเห็นนี้ไม่พูดที่หลอกลวงกับสัญชาตญาณและประสบการณ์ของฉัน: ที่งานก่อนหน้าของฉันเราเป็นประจำจะพอดีกับการถดถอยโลจิสติกและการไล่ระดับสีได้แรงหนุนรุ่นต้นไม้ (เพื่อลดทวินามบันทึก-โอกาส) …

30 classification predictive-models unbalanced-classes scoring-rules

4

ปรับให้เหมาะสมสำหรับเส้นโค้ง Precision-Recall ภายใต้ความไม่สมดุลของคลาส

ฉันมีงานการจัดหมวดหมู่ที่ฉันมีตัวทำนายจำนวนหนึ่ง (หนึ่งในนั้นมีข้อมูลมากที่สุด) และฉันใช้แบบจำลองMARSเพื่อสร้างตัวจําแนกของฉัน (ฉันสนใจในแบบจําลองง่าย ๆ และใช้ glms เพื่อจุดประสงค์ในการอธิบาย ดีเกินไป). ตอนนี้ฉันมีความไม่สมดุลระดับมากในข้อมูลการฝึกอบรม (ประมาณ 2700 ตัวอย่างลบสำหรับตัวอย่างบวกแต่ละตัวอย่าง) เช่นเดียวกับงานสืบค้นข้อมูลฉันมีความกังวลมากขึ้นเกี่ยวกับการทำนายตัวอย่างการทดสอบเชิงบวกอันดับสูงสุด ด้วยเหตุนี้ประสิทธิภาพในการโค้งแม่นยำของ Recall จึงเป็นสิ่งสำคัญสำหรับฉัน ก่อนอื่นฉันเพียงแค่ฝึกฝนโมเดลข้อมูลการฝึกอบรมของฉันเพื่อรักษาความไม่สมดุลของคลาสเหมือนเดิม ฉันเห็นรูปแบบการฝึกของฉันเป็นสีแดงและอินพุตที่สำคัญที่สุดเป็นสีน้ำเงิน การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สมดุลการประเมินข้อมูลที่ไม่สมดุล : การคิดว่าความไม่สมดุลในชั้นเรียนกำลังลดลงของแบบจำลองเนื่องจากการเรียนรู้ตัวอย่างเชิงบวกอันดับสูงสุดเป็นส่วนสั้น ๆ ของชุดข้อมูลทั้งหมดฉันเพิ่มจุดฝึกอบรมเชิงบวกเพื่อให้ได้ชุดข้อมูลการฝึกอบรมที่สมดุล เมื่อฉันวางแผนการแสดงในชุดการฝึกอบรมที่สมดุลฉันจะได้รับประสิทธิภาพที่ดี ทั้งในส่วนโค้ง PR และ ROC แบบจำลองที่ผ่านการฝึกอบรมของฉันทำได้ดีกว่าอินพุต การฝึกอบรมเกี่ยวกับข้อมูลที่สมดุล (อัปแซมปิน) การประเมินบนข้อมูลที่สมดุล (อัปแซมปิน): อย่างไรก็ตามหากฉันใช้โมเดลนี้ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สมดุลเพื่อคาดการณ์ชุดฝึกอบรมที่ไม่สมดุลแบบดั้งเดิมฉันยังคงได้รับประสิทธิภาพที่ไม่ดีบนกราฟเส้นโค้ง การฝึกอบรมเรื่องข้อมูลที่สมดุล (อัปตัวอย่าง), การประเมินข้อมูลที่ไม่สมดุลเดิม: ดังนั้นคำถามของฉันคือ: เหตุผลที่การสร้างภาพข้อมูลของเส้นโค้ง PR แสดงถึงประสิทธิภาพที่ด้อยกว่าของรุ่นที่ได้รับการฝึกอบรมของฉัน (สีแดง) ในขณะที่เส้นโค้ง ROC แสดงการปรับปรุงเนื่องจากความไม่สมดุลของคลาส? วิธี resampling / up-sampling …

30 machine-learning roc precision-recall unbalanced-classes data-visualization

4

ฉันควรสร้างคลาสให้สมดุลในชุดข้อมูลการฝึกอบรมเมื่อใด

ฉันมีหลักสูตรออนไลน์ที่ฉันได้เรียนรู้ว่าคลาสที่ไม่สมดุลในข้อมูลการฝึกอบรมอาจนำไปสู่ปัญหาได้เนื่องจากอัลกอริทึมการจัดหมวดหมู่เป็นไปตามกฎส่วนใหญ่เพราะจะให้ผลลัพธ์ที่ดีหากความไม่สมดุลมากเกินไป ในงานที่ได้รับมอบหมายต้องทำให้ข้อมูลมีความสมดุลโดยการขีดล่างกลุ่มเสียงส่วนใหญ่ อย่างไรก็ตามในบล็อกนี้มีคนอ้างว่าข้อมูลที่สมดุลนั้นแย่ยิ่งกว่าเดิม: https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/ แล้วอันไหนล่ะ? ฉันควรรักษาสมดุลของข้อมูลหรือไม่? มันขึ้นอยู่กับอัลกอริธึมที่ใช้เพราะบางคนอาจสามารถปรับสัดส่วนของคลาสที่ไม่สมดุลได้หรือไม่? ถ้าเป็นเช่นนั้นข้อมูลใดที่เชื่อถือได้กับข้อมูลที่ไม่สมดุล

29 machine-learning classification unbalanced-classes

6

ขนาดตัวอย่างสำหรับการถดถอยโลจิสติก?

ฉันต้องการสร้างแบบจำลองโลจิสติกส์จากข้อมูลการสำรวจของฉัน เป็นการสำรวจขนาดเล็กของอาณานิคมทั้งสี่แห่งซึ่งมีผู้ตอบแบบสอบถามเพียง 154 คนเท่านั้น ตัวแปรตามของฉันคือ "การเปลี่ยนไปใช้งานที่น่าพอใจ" ฉันพบว่าจากผู้ตอบแบบสอบถาม 154 คน 73 คนกล่าวว่าพวกเขาเปลี่ยนใจไปทำงานเป็นที่น่าพอใจในขณะที่คนอื่น ๆ ไม่ได้ทำงาน ดังนั้นตัวแปรตามคือไบนารีในธรรมชาติและฉันตัดสินใจใช้การถดถอยโลจิสติก ฉันมีเจ็ดตัวแปรอิสระ (สามต่อเนื่องและสี่เล็กน้อย) แนวทางหนึ่งแนะนำว่าควรมี 10 กรณีสำหรับตัวแปรทำนาย / อิสระแต่ละตัว (Agresti, 2007) จากแนวทางนี้ฉันรู้สึกว่ามันเป็นการตกลงที่จะเรียกใช้การถดถอยโลจิสติก ฉันถูกไหม? ถ้าไม่โปรดแจ้งให้เราทราบวิธีการตัดสินใจจำนวนตัวแปรอิสระ?

26 logistic sample-size assumptions power unbalanced-classes

4

การใช้ scale_pos_weight ที่เหมาะสมใน xgboost สำหรับชุดข้อมูลที่ไม่สมดุลคืออะไร

ฉันมีชุดข้อมูลที่ไม่สมดุลมาก ฉันพยายามทำตามคำแนะนำในการจูนและใช้scale_pos_weightแต่ไม่แน่ใจว่าฉันควรจูนอย่างไร ฉันเห็นได้ว่าRegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight ดังนั้นการไล่ระดับสีของตัวอย่างที่เป็นบวกจะมีอิทธิพลมากกว่า อย่างไรก็ตามตามกระดาษ xgboostสถิติการไล่ระดับสีจะถูกใช้ในเครื่อง = ภายในอินสแตนซ์ของโหนดที่ระบุในต้นไม้เฉพาะ: ภายในบริบทของโหนดเพื่อประเมินการลดการสูญเสียของการแบ่งผู้สมัคร ภายในบริบทของ leaf node เพื่อปรับน้ำหนักให้เหมาะสมกับโหนดนั้น ดังนั้นจึงไม่มีทางรู้ล่วงหน้าว่าอะไรจะดีscale_pos_weight- เป็นจำนวนที่แตกต่างกันมากสำหรับโหนดที่ลงท้ายด้วยอัตราส่วน 1: 100 ระหว่างอินสแตนซ์บวกและลบและสำหรับโหนดที่มีอัตราส่วน 1: 2 คำใบ้ใด ๆ

26 unbalanced-classes xgboost

4

การ oversampling, undersampling และ SMOTE มีปัญหาอะไรบ้าง

ในคำถามล่าสุดที่ได้รับอย่างดีทิมถามว่าเมื่อใดที่ข้อมูลไม่สมดุลจริง ๆ เป็นปัญหาในการเรียนรู้ของเครื่อง ? สถานที่ตั้งของคำถามคือว่ามีเป็นจำนวนมากของการเรียนรู้วรรณคดีเครื่องถกสมดุลระดับและปัญหาของการเรียนการขาดดุล แนวคิดคือชุดข้อมูลที่มีความไม่สมดุลระหว่างคลาสบวกและลบทำให้เกิดปัญหาสำหรับการจัดหมวดหมู่การเรียนรู้ของเครื่องบางอย่าง (ฉันรวมถึงแบบจำลองความน่าจะเป็นที่นี่) อัลกอริทึมและควรหาวิธี "สมดุล" ชุดข้อมูล แยกระหว่างคลาสบวกและลบ ความรู้สึกทั่วไปของคำตอบที่ได้รับการโหวตขึ้นมาก็คือ "ไม่ใช่อย่างน้อยถ้าคุณมีความคิดในการสร้างแบบจำลอง" ม. เฮนรี่แอล. ในความเห็นที่โหวตแล้วว่าเป็นคำตอบที่ยอมรับแล้ว [... ] ไม่มีปัญหาในระดับต่ำเมื่อใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี AdamO ให้เหตุผลว่า "ปัญหา" กับความสมดุลของชั้นเรียนเป็นหนึ่งในความหายากของชั้นเรียน ดังนั้นอย่างน้อยในการถดถอย (แต่ฉันสงสัยว่าในทุกสถานการณ์) ปัญหาเดียวของข้อมูลที่ไม่สมดุลคือคุณมีขนาดตัวอย่างเล็ก หากวิธีการใดเหมาะสมกับจำนวนคนในคลาส rarer ไม่ควรมีปัญหาหากสมาชิกสัดส่วนของพวกเขาไม่สมดุล หากนี่เป็นปัญหาจริงในมือคำถามนี้จะเปิดทิ้งไว้: จุดประสงค์ของวิธีการ resampling ทั้งหมดที่มีวัตถุประสงค์เพื่อสร้างความสมดุลให้กับชุดข้อมูลคือ: เห็นได้ชัดว่าพวกเขาไม่ได้แก้ไขปัญหาของการมีตัวอย่างขนาดเล็กโดยปริยายคุณไม่สามารถสร้างข้อมูลจากอะไร!

25 machine-learning classification predictive-models unbalanced-classes

2

จะจัดการกับความแตกต่างระหว่างการกระจายตัวของชุดทดสอบและชุดฝึกอบรมอย่างไร?

ฉันคิดว่าสมมติฐานพื้นฐานหนึ่งของการเรียนรู้ของเครื่องหรือการประมาณค่าพารามิเตอร์คือข้อมูลที่มองไม่เห็นมาจากการแจกแจงแบบเดียวกับชุดการฝึกอบรม อย่างไรก็ตามในบางกรณีการกระจายชุดทดสอบเกือบจะแตกต่างจากชุดฝึกอบรม พูดสำหรับปัญหาการจัดหมวดหมู่หลากหลายขนาดใหญ่ที่พยายามแบ่งคำอธิบายผลิตภัณฑ์ออกเป็นประมาณ 17,000 คลาส ชุดการฝึกอบรมจะมีนักบวชชั้นสูงอย่างมากบางชั้นอาจมีตัวอย่างการฝึกอบรมมากมาย แต่บางคนอาจมีเพียงไม่กี่คน สมมติว่าเราได้รับชุดทดสอบที่มีเลเบลคลาสที่ไม่รู้จักจากลูกค้า เราพยายามจัดประเภทผลิตภัณฑ์แต่ละชิ้นในชุดทดสอบเป็นหนึ่งใน 17,000 คลาสโดยใช้ตัวจําแนกที่ฝึกในชุดฝึกอบรม ชุดทดสอบอาจมีการแจกแจงแบบเบ้ แต่อาจแตกต่างจากชุดการฝึกอบรมเนื่องจากอาจเกี่ยวข้องกับธุรกิจที่แตกต่างกัน หากการแจกแจงสองระดับแตกต่างกันมากลักษณนามที่ผ่านการฝึกอบรมอาจทำงานได้ไม่ดีในชุดทดสอบ เรื่องนี้ดูเหมือนชัดเจนโดยเฉพาะกับตัวจําแนก Naive Bayes มีวิธีใดที่สามารถจัดการความแตกต่างระหว่างชุดการฝึกอบรมและชุดทดสอบที่กำหนดสำหรับตัวแยกประเภทความน่าจะเป็นหรือไม่ ฉันได้ยินเกี่ยวกับการที่ "transductive SVM" ทำสิ่งที่คล้ายกันใน SVM มีเทคนิคที่คล้ายกันในการเรียนรู้ลักษณนามที่มีประสิทธิภาพดีที่สุดในชุดการทดสอบที่กำหนดหรือไม่? จากนั้นเราสามารถฝึกตัวจําแนกใหม่สําหรับชุดการทดสอบที่แตกต่างกันตามที่ได้รับอนุญาตในสถานการณ์จริงนี้

23 machine-learning classification skewness unbalanced-classes multi-class

3

การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง

ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี: วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล: [... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ] ดังนั้นคำถามของฉันจะเป็น: ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )

22 classification unbalanced-classes precision-recall cohens-kappa model-evaluation

5

การสุ่มตัวอย่างสำหรับข้อมูลที่ไม่สมดุลในการถดถอย

มีคำถามที่ดีเกี่ยวกับการจัดการข้อมูลที่ไม่สมดุลในบริบทการจัดประเภทแต่ฉันสงสัยว่าคนทำเพื่อตัวอย่างสำหรับการถดถอย สมมติว่าโดเมนปัญหามีความไวต่อสัญญาณมาก แต่ค่อนข้างอ่อนไหวต่อขนาดของเป้าหมาย อย่างไรก็ตามขนาดมีความสำคัญพอที่ตัวแบบควรจะถดถอย (เป้าหมายต่อเนื่อง) ไม่ใช่การจำแนกประเภท (คลาสบวกกับคลาสลบ) และพูดในโดเมนปัญหานี้ว่าชุดข้อมูลการฝึกอบรมใด ๆ จะมีค่าลบมากกว่าเป้าหมายเชิงบวก 10 เท่า ในสถานการณ์นี้ฉันอาจสุ่มตัวอย่างตัวอย่างเป้าหมายเชิงบวกเพื่อให้ตรงกับจำนวนตัวอย่างเป้าหมายเชิงลบและจากนั้นฝึกโมเดลเพื่อแยกความแตกต่างระหว่างสองกรณี เห็นได้ชัดว่าวิธีการฝึกอบรมนั้นมีข้อมูลที่ไม่สมดุลดังนั้นฉันต้องทำการสุ่มตัวอย่างบางอย่าง อะไรจะเป็นวิธีที่ดีในการ "ยกเลิก" การสุ่มตัวอย่างนี้เมื่อทำการคาดการณ์ บางทีแปลโดย (ลบ) ค่าเฉลี่ยหรือค่ามัธยฐานของเป้าหมายของข้อมูลการฝึกอบรมตามธรรมชาติ?

22 regression sampling unbalanced-classes

คำถามติดแท็ก unbalanced-classes