ฉันต้องการทำการรวมกันของการสุ่มตัวอย่างมากเกินไปและการ Undersampling เพื่อรักษาสมดุลของชุดข้อมูลของฉันกับลูกค้าประมาณ 4,000 คนแบ่งออกเป็นสองกลุ่มโดยที่หนึ่งในกลุ่มนั้นมีสัดส่วนประมาณ 15%
ฉันดู SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) และ ROSE ( http://cran.r-project.org/web/packages/ROSE/) ROSE.pdf ) แต่ทั้งสองอย่างนี้สร้างตัวอย่างสังเคราะห์ใหม่โดยใช้การสังเกตที่มีอยู่และเช่น kNN
อย่างไรก็ตามคุณลักษณะหลายอย่างที่เชื่อมโยงกับลูกค้านั้นเป็นหมวดหมู่ฉันไม่คิดว่านี่เป็นวิธีที่ถูกต้อง ตัวอย่างเช่นตัวแปรของฉันจำนวนมากเช่น Region_A และ Region_B นั้นไม่ได้เกิดร่วมกัน แต่การใช้ kNN การสังเกตใหม่อาจถูกวางไว้ทั้งใน Region_A และ Region_B คุณเห็นด้วยหรือไม่ว่านี่เป็นปัญหา
ในกรณีดังกล่าว - เราจะทำอย่างใดอย่างหนึ่งการ oversampling ใน R โดยการทำซ้ำการสังเกตที่มีอยู่ซ้ำได้อย่างไร หรือนี่เป็นวิธีที่ผิดที่จะทำ?