การใช้เกินขนาดด้วยตัวแปรเด็ดขาด


9

ฉันต้องการทำการรวมกันของการสุ่มตัวอย่างมากเกินไปและการ Undersampling เพื่อรักษาสมดุลของชุดข้อมูลของฉันกับลูกค้าประมาณ 4,000 คนแบ่งออกเป็นสองกลุ่มโดยที่หนึ่งในกลุ่มนั้นมีสัดส่วนประมาณ 15%

ฉันดู SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) และ ROSE ( http://cran.r-project.org/web/packages/ROSE/) ROSE.pdf ) แต่ทั้งสองอย่างนี้สร้างตัวอย่างสังเคราะห์ใหม่โดยใช้การสังเกตที่มีอยู่และเช่น kNN

อย่างไรก็ตามคุณลักษณะหลายอย่างที่เชื่อมโยงกับลูกค้านั้นเป็นหมวดหมู่ฉันไม่คิดว่านี่เป็นวิธีที่ถูกต้อง ตัวอย่างเช่นตัวแปรของฉันจำนวนมากเช่น Region_A และ Region_B นั้นไม่ได้เกิดร่วมกัน แต่การใช้ kNN การสังเกตใหม่อาจถูกวางไว้ทั้งใน Region_A และ Region_B คุณเห็นด้วยหรือไม่ว่านี่เป็นปัญหา

ในกรณีดังกล่าว - เราจะทำอย่างใดอย่างหนึ่งการ oversampling ใน R โดยการทำซ้ำการสังเกตที่มีอยู่ซ้ำได้อย่างไร หรือนี่เป็นวิธีที่ผิดที่จะทำ?


ทำไมคุณต้องมีการสุ่มตัวอย่างถ้าคุณมีการสังเกตเพียง 4000 ครั้ง
kjetil b halvorsen

ฉันต้องการสร้างความสมดุลให้กับชุดข้อมูลของฉันเพื่อให้มีการแบ่งคลาสอย่างเท่าเทียมกัน ถ้าฉันใช้ข้อมูลของฉันในขณะนี้แบบจำลองจะทำนายการสังเกตทั้งหมดเป็นคลาสส่วนใหญ่
pir

คำตอบ:


8

ROSE และ SMOTE ได้รับการออกแบบมาเพื่อจัดการกับตัวแปรเด็ดขาดดังนั้นหากตัวแปรเด็ดขาดของคุณแสดงในรูปแบบไบนารีคุณไม่ควรกังวลเกี่ยวกับการสังเกตสังเคราะห์ที่ได้รับการกำหนดคุณสมบัติเด็ดขาดร่วมกัน หากเป็นเช่นนั้นคุณสามารถจัดโครงสร้างใหม่เป็นปัจจัย

ในตัวอย่างสองภูมิภาคของคุณคุณจะสร้างตัวแปรภูมิภาคใหม่ด้วยสองระดับ "A" และ "B" บันทึกของคุณจะใช้ค่าที่เหมาะสมโดยอ้างอิงคอลัมน์เดิมของคุณ

ตอนนี้ถ้าคุณอยู่ในสถานการณ์ที่การสังเกตุสังเคราะห์ใหม่ของคุณสามารถสร้างหมวดหมู่ที่ขัดแย้งกันได้เนื่องจากมันถูกกระจายไปหลายตัวแปรมิฉะนั้นไม่เกี่ยวข้องกัน (เช่น ก่อนที่จะทำการประเมินแบบจำลองของคุณเพื่อล้างความผิดปกติดังกล่าว

นอกจากนี้ตั้งแต่คุณมีประมาณ 600 สังเกตเหตุการณ์ในชุดของคุณอาจจะพิจารณาผลประโยชน์ที่อาจเกิดขึ้นจากการใช้การสังเกตสังเคราะห์ผ่านundersamplingระดับส่วนใหญ่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.