คำถามติดแท็ก oversampling

1
ความคิดเห็นเกี่ยวกับ Oversampling โดยทั่วไปและอัลกอริทึม SMOTE โดยเฉพาะ [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา คุณมีความคิดเห็นอย่างไรเกี่ยวกับการสุ่มตัวอย่างมากเกินไปในการจำแนกประเภทโดยทั่วไปและขั้นตอนวิธี SMOTE โดยเฉพาะ ทำไมเราไม่เพียงแค่ใช้ค่าใช้จ่าย / ค่าปรับเพื่อปรับความไม่สมดุลในข้อมูลระดับและค่าใช้จ่ายของข้อผิดพลาดที่ไม่สมดุล? สำหรับวัตถุประสงค์ของฉันความแม่นยำในการทำนายชุดอนาคตของหน่วยการทดลองเป็นตัวชี้วัดขั้นสูงสุด สำหรับการอ้างอิงกระดาษ SMOTE: http://www.jair.org/papers/paper953.html

2
การจำแนกประเภทการทดสอบข้อมูลความไม่สมดุลที่เกินขนาด
ฉันกำลังทำงานกับข้อมูลที่ไม่สมดุลอย่างรุนแรง ในวรรณคดีมีวิธีการหลายวิธีที่ใช้ในการปรับสมดุลข้อมูลอีกครั้งโดยใช้การสุ่มตัวอย่างอีกครั้ง (เกินหรือต่ำกว่าการสุ่มตัวอย่าง) แนวทางที่ดีสองประการคือ: SMOTE: กลุ่มชนกลุ่มน้อยสังเคราะห์เทคนิคการสุ่มตัวอย่างมากกว่า TEOT ( SMOTE ) ADASYN: วิธีการสุ่มตัวอย่าง Adaptive Synthetic เพื่อการเรียนรู้ที่ไม่สมดุล ( ADASYN ) ฉันได้ติดตั้ง ADASYN เนื่องจากลักษณะการปรับตัวและความสะดวกในการขยายไปสู่ปัญหาหลายระดับ คำถามของฉันคือวิธีทดสอบข้อมูลที่เกินตัวอย่างที่สร้างโดย ADASYN (หรือวิธีการสุ่มตัวอย่างอื่น ๆ ) มันไม่ชัดเจนในบทความสองเรื่องที่กล่าวถึงวิธีการทดลองของพวกเขา มีสองสถานการณ์: 1- ทดสอบชุดข้อมูลทั้งหมดจากนั้นแบ่งเป็นชุดฝึกอบรมและชุดทดสอบ (หรือการตรวจสอบความถูกต้องข้าม) 2- หลังจากแยกชุดข้อมูลดั้งเดิมแล้วให้ดำเนินการตั้งค่าการสุ่มตัวอย่างมากเกินไปในชุดการฝึกอบรมเท่านั้นและทดสอบชุดทดสอบข้อมูลต้นฉบับ ในกรณีแรกผลลัพธ์จะดีกว่าโดยไม่มีการสุ่มตัวอย่างมากเกินไป แต่ฉันกังวลว่ามีการให้ข้อมูลมากเกินไป ในขณะที่ในกรณีที่สองผลลัพธ์จะดีกว่าเล็กน้อยโดยไม่มีการสุ่มตัวอย่างและแย่กว่าเคสแรกมาก แต่ข้อกังวลกับกรณีที่สองคือถ้าตัวอย่างกลุ่มชนกลุ่มน้อยทั้งหมดไปที่ชุดการทดสอบจะไม่มีผลประโยชน์ใด ๆ จากการทดสอบเกินจริง ฉันไม่แน่ใจว่ามีการตั้งค่าอื่น ๆ เพื่อทดสอบข้อมูลดังกล่าวหรือไม่

2
การสุ่มตัวอย่างด้วยการแทนที่ด้วย R randomForest
การใช้งาน RandomForest ไม่อนุญาตให้มีการสุ่มตัวอย่างเกินจำนวนการสังเกตแม้ว่าจะสุ่มตัวอย่างด้วยการเปลี่ยน ทำไมนี้ ทำงานได้ดี: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) สิ่งที่ฉันต้องการจะทำ: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency ข้อผิดพลาดที่คล้ายกันโดยไม่มีตัวอย่างแบ่งชั้น: rf …

1
SMOTE พ่นข้อผิดพลาดสำหรับปัญหาความไม่สมดุลหลายระดับ
ฉันกำลังพยายามใช้ SMOTE เพื่อแก้ไขความไม่สมดุลในปัญหาการจำแนกประเภทของฉัน แม้ว่า SMOTE ทำงานได้อย่างสมบูรณ์บนชุดข้อมูล iris ตามเอกสารวิธีใช้ SMOTE แต่จะไม่ทำงานบนชุดข้อมูลที่คล้ายกัน นี่คือลักษณะของข้อมูลของฉัน หมายเหตุมันมีสามคลาสที่มีค่า 1, 2, 3 > data looking risk every status 1 0 1 0 1 2 0 0 0 1 3 0 0 0 2 4 0 0 0 1 5 0 0 0 1 6 3 0 0 …

1
การใช้เกินขนาดด้วยตัวแปรเด็ดขาด
ฉันต้องการทำการรวมกันของการสุ่มตัวอย่างมากเกินไปและการ Undersampling เพื่อรักษาสมดุลของชุดข้อมูลของฉันกับลูกค้าประมาณ 4,000 คนแบ่งออกเป็นสองกลุ่มโดยที่หนึ่งในกลุ่มนั้นมีสัดส่วนประมาณ 15% ฉันดู SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) และ ROSE ( http://cran.r-project.org/web/packages/ROSE/) ROSE.pdf ) แต่ทั้งสองอย่างนี้สร้างตัวอย่างสังเคราะห์ใหม่โดยใช้การสังเกตที่มีอยู่และเช่น kNN อย่างไรก็ตามคุณลักษณะหลายอย่างที่เชื่อมโยงกับลูกค้านั้นเป็นหมวดหมู่ฉันไม่คิดว่านี่เป็นวิธีที่ถูกต้อง ตัวอย่างเช่นตัวแปรของฉันจำนวนมากเช่น Region_A และ Region_B นั้นไม่ได้เกิดร่วมกัน แต่การใช้ kNN การสังเกตใหม่อาจถูกวางไว้ทั้งใน Region_A และ Region_B คุณเห็นด้วยหรือไม่ว่านี่เป็นปัญหา ในกรณีดังกล่าว - เราจะทำอย่างใดอย่างหนึ่งการ oversampling ใน R โดยการทำซ้ำการสังเกตที่มีอยู่ซ้ำได้อย่างไร หรือนี่เป็นวิธีที่ผิดที่จะทำ?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.