ประโยชน์ของการสุ่มแบบแบ่งชั้นและสุ่มตัวอย่างเพื่อสร้างข้อมูลการฝึกอบรมในการจำแนกประเภท

ฉันต้องการทราบว่ามีข้อได้เปรียบใด ๆ / บางส่วนของการใช้การสุ่มตัวอย่างแบบแบ่งชั้นแทนการสุ่มตัวอย่างแบบสุ่มหรือไม่เมื่อแยกชุดข้อมูลเดิมเข้ากับชุดการฝึกอบรมและการทดสอบสำหรับการจำแนก

การสุ่มตัวอย่างแบบแบ่งชั้นจะทำให้มีอคติต่อลักษณนามมากกว่าการสุ่มตัวอย่างแบบสุ่มหรือไม่?

แอพพลิเคชั่นที่ฉันต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อเตรียมข้อมูลเป็นตัวจําแนกประเภทลอเรนซ์ป่าซึ่งผ่านการฝึกอบรมเมื่อวันที่ $\frac{2}{3}$ ของชุดข้อมูลดั้งเดิม ก่อนตัวแยกประเภทยังมีขั้นตอนของการสร้างตัวอย่างสังเคราะห์ (SMOTE [1]) ซึ่งปรับขนาดของคลาสให้สมดุล

[1] Chawla, Nitesh V. และอื่น ๆ " SMOTE: เทคนิคการสุ่มตัวอย่างแบบสังเคราะห์ส่วนน้อย " วารสารวิจัยปัญญาประดิษฐ์ 16 (2002): 321-357

— gc5
แหล่งที่มา

การสุ่มตัวอย่างแบบแบ่งชั้นมีจุดมุ่งหมายเพื่อแยกชุดข้อมูลเพื่อให้แต่ละการแบ่งมีความคล้ายคลึงกับบางสิ่ง

ในการตั้งค่าการจำแนกมันมักจะถูกเลือกเพื่อให้แน่ใจว่าชุดรถไฟและชุดทดสอบมีเปอร์เซ็นต์ตัวอย่างที่เหมือนกันของแต่ละกลุ่มเป้าหมายเป็นชุดที่สมบูรณ์

ดังนั้นหากชุดข้อมูลมีจำนวนมากของแต่ละคลาสการสุ่มแบบแบ่งชั้นจะค่อนข้างเหมือนกับการสุ่มแบบสุ่ม แต่ถ้าชั้นหนึ่งไม่ได้แสดงมากในชุดข้อมูลซึ่งอาจเป็นกรณีในชุดข้อมูลของคุณเนื่องจากคุณวางแผนที่จะเกินชั้นเรียนของชนกลุ่มน้อยจากนั้นการสุ่มแบ่งชั้นแบบแบ่งชั้นอาจให้การกระจายชั้นเป้าหมายที่แตกต่างในรถไฟและชุดทดสอบ การสุ่มตัวอย่างอาจให้ผลผลิต

โปรดทราบว่าการสุ่มตัวอย่างแบบแบ่งชั้นอาจได้รับการออกแบบเพื่อแจกจ่ายคุณลักษณะบางอย่างในชุดรถไฟและชุดทดสอบถัดไป ตัวอย่างเช่นหากแต่ละตัวอย่างแสดงถึงบุคคลหนึ่งและคุณลักษณะหนึ่งคืออายุบางครั้งก็มีประโยชน์ที่จะมีการกระจายอายุเท่ากันทั้งในชุดรถไฟและชุดทดสอบ

FYI:

— Franck Dernoncourt
แหล่งที่มา