ความคิดเห็นเกี่ยวกับ Oversampling โดยทั่วไปและอัลกอริทึม SMOTE โดยเฉพาะ [ปิด]

ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้

ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้

ปิดให้บริการใน2 ปีที่ผ่านมา

คุณมีความคิดเห็นอย่างไรเกี่ยวกับการสุ่มตัวอย่างมากเกินไปในการจำแนกประเภทโดยทั่วไปและขั้นตอนวิธี SMOTE โดยเฉพาะ ทำไมเราไม่เพียงแค่ใช้ค่าใช้จ่าย / ค่าปรับเพื่อปรับความไม่สมดุลในข้อมูลระดับและค่าใช้จ่ายของข้อผิดพลาดที่ไม่สมดุล? สำหรับวัตถุประสงค์ของฉันความแม่นยำในการทำนายชุดอนาคตของหน่วยการทดลองเป็นตัวชี้วัดขั้นสูงสุด

สำหรับการอ้างอิงกระดาษ SMOTE: http://www.jair.org/papers/paper953.html

machine-learning classification oversampling

— Dave Cummins
แหล่งที่มา

ปัญหาหนึ่งที่เกิดจากการสุ่มตัวอย่างชนชั้นน้อยในชุดข้อมูลที่ไม่สมดุลคือคุณจะต้องเรียนรู้จากตัวอย่างที่เฉพาะเจาะจงมากเกินไปและนั่นอาจจะไม่ได้มาตรฐาน SMOTE ควรจะเรียนรู้คุณสมบัติทอพอโลยีของละแวกใกล้เคียงของคะแนนเหล่านั้นในชั้นเรียนของชนกลุ่มน้อยดังนั้นคุณจึงมีโอกาสน้อยที่จะได้

— horaceT

นี่เป็นหัวข้อที่ยอดเยี่ยมสำหรับคำถาม แต่คุณสามารถทำให้มันมีสมาธิมากขึ้นได้ไหม? "ความคิดเห็นของคุณคืออะไร" เชิญการสนทนาที่ไม่มีที่สิ้นสุด แต่เรามักจะมุ่งเน้นที่รูปแบบคำถาม / คำตอบมากขึ้น

— Sycorax พูดว่า Reinstate Monica

{1} ให้รายการข้อดีและข้อเสียของการเรียนรู้ที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง:

2.2 การสุ่มตัวอย่าง

สามารถใช้ oversampling และ undersampling เพื่อปรับเปลี่ยนการกระจายคลาสของข้อมูลการฝึกอบรมและใช้วิธีทั้งสองเพื่อจัดการกับความไม่สมดุลของคลาส [1, 2, 3, 6, 10, 11] เหตุผลที่เปลี่ยนการกระจายคลาสของข้อมูลการฝึกอบรมช่วยการเรียนรู้ด้วยชุดข้อมูลที่มีความเบ้สูงก็คือมันมีการกำหนดต้นทุนการแยกประเภทที่ไม่สม่ำเสมออย่างมีประสิทธิภาพ ตัวอย่างเช่นหากมีการเปลี่ยนแปลงการกระจายคลาสของชุดการฝึกอบรมเพื่อให้อัตราส่วนของตัวอย่างที่เป็นบวกและลบเป็นไปจาก 1: 1 ถึง 2: 1 จากนั้นจะมีการกำหนดอัตราส่วนต้นทุนที่ผิดประเภท 2: 1 ได้อย่างมีประสิทธิภาพ ความเท่าเทียมกันระหว่างการเปลี่ยนแปลงการกระจายชั้นของข้อมูลการฝึกอบรมและการเปลี่ยนแปลงอัตราส่วนค่าใช้จ่ายการจำแนกประเภทเป็นที่รู้จักกันดีและได้รับการอธิบายอย่างเป็นทางการโดย Elkan [9]

มีข้อเสียที่รู้จักกันที่เกี่ยวข้องกับการใช้การสุ่มตัวอย่างเพื่อใช้การเรียนรู้ที่มีความอ่อนไหวด้านราคา เสียเปรียบกับ undersampling ก็คือว่ามันทิ้งข้อมูลที่อาจเป็นประโยชน์ ข้อเสียเปรียบหลักกับการ oversamplingจากมุมมองของเราคือการทำสำเนาตัวอย่างที่มีอยู่อย่างถูกต้องจะทำให้มีโอกาสมากเกินไป ในความเป็นจริงแล้วการมีการสุ่มตัวอย่างมากเกินไปเป็นเรื่องปกติสำหรับผู้เรียนในการสร้างกฎการจัดหมวดหมู่เพื่อให้ครอบคลุมตัวอย่างเดียวที่ทำซ้ำ ข้อเสียที่สองของ oversampling คือมันจะเพิ่มจำนวนตัวอย่างการฝึกอบรมจึง i ncreasing เวลาการเรียนรู้

2.3 ทำไมต้องใช้การสุ่มตัวอย่าง

เมื่อพิจารณาข้อเสียด้วยการสุ่มตัวอย่างมันก็คุ้มค่าที่จะถามว่าทำไมทุกคนจะใช้มันแทนที่จะเป็นอัลกอริธึมการเรียนรู้ที่คำนึงถึงต้นทุนสำหรับการจัดการกับข้อมูลด้วยการกระจายคลาสที่เบ้และค่าใช้จ่ายที่ไม่สม่ำเสมอ มีเหตุผลหลายประการนี้. เหตุผลที่ชัดเจนที่สุดคือมีการใช้งานไม่เสียค่าใช้จ่ายที่มีความอ่อนไหวของขั้นตอนวิธีการเรียนรู้ทั้งหมดและดังนั้นจึงเป็นวิธีการห่อหุ้มโดยใช้การสุ่มตัวอย่างเป็นตัวเลือกเท่านั้น แม้ว่าสิ่งนี้จะเป็นจริงในปัจจุบันน้อยกว่าในอดีต แต่อัลกอริทึมการเรียนรู้จำนวนมาก (เช่น C4.5) ยังไม่ได้จัดการค่าใช้จ่ายโดยตรงในกระบวนการเรียนรู้

เหตุผลที่สองสำหรับการใช้การสุ่มตัวอย่างคือชุดข้อมูลที่มีการบิดเบือนสูงจำนวนมากนั้นมีขนาดใหญ่มากและขนาดของชุดการฝึกอบรมจะต้องลดลงเพื่อให้การเรียนรู้เป็นไปได้ ในกรณีนี้การ Undersampling น่าจะเป็นกลยุทธ์ที่สมเหตุสมผลและถูกต้อง ในบทความนี้เราไม่พิจารณาถึงความจำเป็นในการลดขนาดชุดฝึกอบรม อย่างไรก็ตามเราจะชี้ให้เห็นว่าหากเราต้องการทิ้งข้อมูลการฝึกอบรมบางอย่างมันอาจจะเป็นประโยชน์ในการทิ้งตัวอย่างส่วนใหญ่ของชั้นเรียนบางส่วนเพื่อลดขนาดชุดฝึกอบรมเป็นขนาดที่ต้องการและจากนั้นก็ใช้ต้นทุน - ขั้นตอนวิธีการเรียนรู้ที่ละเอียดอ่อนเพื่อลดปริมาณข้อมูลการฝึกอบรมที่ถูกทิ้งให้น้อยที่สุด

เหตุผลสุดท้ายที่อาจมีส่วนในการใช้การสุ่มตัวอย่างมากกว่าอัลกอริทึมการเรียนรู้ที่มีความอ่อนไหวด้านต้นทุนคือค่าใช้จ่ายในการจำแนกประเภทมักไม่เป็นที่รู้จัก อย่างไรก็ตามนี่ไม่ใช่เหตุผลที่ถูกต้องสำหรับการใช้การสุ่มตัวอย่างผ่านอัลกอริทึมการเรียนรู้ที่มีค่าใช้จ่ายเนื่องจากปัญหาที่คล้ายคลึงกันเกิดขึ้นกับการสุ่มตัวอย่าง - การกระจายคลาสของข้อมูลการฝึกอบรมขั้นสุดท้ายควรเป็นอย่างไร หากไม่ทราบข้อมูลต้นทุนนี้การวัดเช่นพื้นที่ใต้เส้นโค้ง ROC สามารถใช้เพื่อวัดประสิทธิภาพของตัวจําแนกและทั้งสองวิธีจะสามารถกําหนดอัตราส่วนต้นทุน / การกระจายชั้นที่เหมาะสม

พวกเขายังทำการทดลองหลายชุดซึ่งสรุปไม่ได้:

จากผลลัพธ์ของชุดข้อมูลทั้งหมดไม่มีผู้ชนะที่แน่นอนระหว่างการเรียนรู้ที่คำนึงถึงต้นทุนการ oversampling และ undersampling

จากนั้นพวกเขาพยายามที่จะเข้าใจว่าเกณฑ์ใดในชุดข้อมูลอาจบอกใบ้ว่าเทคนิคไหนเหมาะสมกว่า

พวกเขายังกล่าวด้วยว่า SMOTE อาจนำการปรับปรุงมาใช้:

มีการปรับปรุงหลายอย่างที่ผู้คนทำเพื่อปรับปรุงประสิทธิภาพของการสุ่มตัวอย่าง บางส่วนของการปรับปรุงเหล่านี้รวมถึงการแนะนำตัวอย่าง "สังเคราะห์" ใหม่เมื่อ oversampling [5 -> SMOTE] การลบตัวอย่างส่วนใหญ่ที่มีประโยชน์น้อยกว่าเมื่อ Undersampling [11] และใช้ตัวอย่างย่อยหลายตัวอย่างเมื่อใช้การ Undersampling อย่างน้อยหนึ่งตัวอย่าง ตัวอย่างย่อย [3] ในขณะที่เทคนิคเหล่านี้ถูกนำมาเปรียบเทียบกับการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำ นี่จะเป็นสิ่งที่ควรค่าแก่การศึกษาในอนาคต

{1} ไวส์แกรี่เอ็มเคทแม็กคาร์ธีและบิบิซาบาร์ "การเรียนรู้ที่มีความอ่อนไหวต่อค่าใช้จ่ายเทียบกับการสุ่มตัวอย่าง: วิธีใดดีที่สุดในการจัดการชั้นเรียนที่ไม่สมดุลกับค่าความผิดพลาดที่ไม่เท่ากัน" DMIN 7 (2007): 35-41 https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf

— Franck Dernoncourt
แหล่งที่มา

เมื่อคุณพูดว่า "อัลกอริทึมการเรียนรู้ที่อ่อนไหวต่อราคา" สมองของฉันควรคิดว่า "ลงโทษชั้นเรียนที่มีความถี่สูงของการเกิดขึ้นและอาจให้ความสำคัญกับชั้นเรียนที่มีความถี่ต่ำมาก" แนวคิดนี้เทียบเท่ากับการกำหนดน้ำหนักของชั้นเรียนหรือไม่?

— Jarad