การเรียนรู้ภายใต้การดูแลภายใต้เหตุการณ์“ หายาก” เมื่อความหายากเกิดขึ้นเนื่องจากเหตุการณ์ที่เกิดขึ้นจริงจำนวนมาก


13

สมมติว่าคุณได้รับการ "จับคู่" ระหว่างผู้ซื้อและผู้ขายในตลาด คุณจะได้สังเกตลักษณะของทั้งผู้ซื้อและผู้ขายซึ่งคุณต้องการใช้ในการทำนายการแข่งขันในอนาคต & ให้คำแนะนำกับทั้งสองด้านของตลาด

เพื่อความง่ายให้สมมติว่ามีผู้ซื้อ N รายและผู้ขาย N คนและแต่ละคนพบการแข่งขัน มีการแข่งขัน N รายการและ (N-1) (N-1) ไม่ใช่การแข่งขัน ชุดข้อมูลการฝึกแบบรวมทุกอย่างมีการสังเกตแบบ N + (N-1) * (N-1) ซึ่งอาจมีขนาดใหญ่มาก ดูเหมือนว่าการสุ่มตัวอย่างจาก (N-1) (N-1) ไม่ตรงและการฝึกอบรมอัลกอริทึมเกี่ยวกับข้อมูลที่ลดลงอาจมีประสิทธิภาพมากขึ้น คำถามของฉันคือ:

(1) การสุ่มตัวอย่างจากผู้ไม่ตรงกันเพื่อสร้างชุดข้อมูลการฝึกอบรมเป็นวิธีที่เหมาะสมในการจัดการกับปัญหานี้หรือไม่

(2) ถ้า (1) เป็นจริงมีวิธีการที่เข้มงวดในการตัดสินใจว่าชิ้นใหญ่ (N-1) (N-1) รวมหรือไม่

คำตอบ:


11

ถ้าฉันเข้าใจถูกต้องคุณมีปัญหาการจำแนกประเภทสองชั้นซึ่งคลาสบวก (การจับคู่) หายาก ลักษณนามหลายคนต่อสู้กับความไม่สมดุลของคลาสเช่นนี้และเป็นเรื่องปกติที่จะจัดกลุ่มตัวอย่างส่วนใหญ่เพื่อให้ได้ประสิทธิภาพที่ดีขึ้นดังนั้นคำตอบของคำถามแรกคือ "ใช่" อย่างไรก็ตามหากคุณย่อยตัวอย่างมากเกินไปคุณจะพบกับลักษณนามที่คาดคะเนคลาสบวกของชนกลุ่มน้อยมากเกินไปสิ่งที่ดีที่สุดที่ต้องทำคือเลือกปันส่วนการสุ่มตัวอย่างย่อยเพื่อเพิ่มประสิทธิภาพ ข้อผิดพลาดในการตรวจสอบความถูกต้องที่ข้อมูลการทดสอบไม่ได้ถูกสุ่มตัวอย่างย่อยดังนั้นคุณจะได้รับการบ่งชี้ประสิทธิภาพการทำงานที่ดี

หากคุณมีลักษณนามลางที่น่าจะเป็นซึ่งจะประมาณความน่าจะเป็นของการจำกลุ่มคุณสามารถไปได้ดีขึ้นหนึ่งครั้งและประมวลผลเอาท์พุทเพื่อชดเชยความแตกต่างระหว่างความถี่ของชั้นเรียนในชุดฝึกอบรมและในการปฏิบัติงาน ฉันสงสัยว่าสำหรับตัวแยกประเภทบางวิธีที่ดีที่สุดคือการเพิ่มประสิทธิภาพอัตราส่วนการสุ่มตัวอย่างย่อยและการแก้ไขผลลัพธ์ด้วยการปรับข้อผิดพลาดการตรวจสอบข้ามให้เหมาะสม

แทนที่จะใช้การสุ่มตัวอย่างย่อยสำหรับบางตัวแยกประเภท (เช่น SVM) คุณสามารถให้น้ำหนักที่แตกต่างกับรูปแบบบวกและลบ ฉันชอบสิ่งนี้ในการสุ่มตัวอย่างย่อยเนื่องจากหมายความว่าไม่มีความแปรปรวนในผลลัพธ์เนื่องจากตัวอย่างย่อยที่ใช้ ในกรณีที่ไม่สามารถทำได้ให้ใช้ bootstrapping เพื่อสร้างลักษณนามแบบถุงซึ่งมีตัวอย่างย่อยที่แตกต่างกันของคลาสส่วนใหญ่ที่ใช้ในการวนซ้ำแต่ละครั้ง

อีกสิ่งหนึ่งที่ฉันจะพูดก็คือโดยทั่วไปที่มีความไม่สมดุลของคลาสขนาดใหญ่ข้อผิดพลาดเชิงลบที่ผิดพลาดและข้อผิดพลาดเชิงบวกที่ผิดพลาดก็ไม่เลวเท่ากันและเป็นความคิดที่ดีที่จะสร้างสิ่งนี้ลงในการออกแบบลักษณนาม รูปแบบการสุ่มตัวอย่างหรือการชั่งน้ำหนักที่เป็นของแต่ละชั้นเรียน)


3
(+1) อย่างไรก็ตามฉันคิดว่าต้องแยกแยะระหว่างเป้าหมายของการจัดอันดับ (การวัด: AUC) และการแยกทั้งสองคลาส (การวัด: ความแม่นยำ) ในกรณีก่อนเมื่อได้รับคลาสที่น่าจะเป็นเช่น Naive Bayes ความไม่สมดุลย์มีบทบาทน้อยกว่า หรือหนึ่งควรกังวลในกรณีนี้ด้วย คำถามอื่น: คุณหมายถึงอะไร "โพสต์ประมวลผลเอาท์พุท"? การแปลงคะแนนเป็นความน่าจะเป็นจริงหรือไม่
steffen

@Steffen ปรีชาญาณของฉันคือปัญหาความไม่สมดุลในชั้นเรียนเป็นปัญหาน้อยสำหรับการจัดอันดับ แต่มันจะไม่หายไปอย่างสมบูรณ์ (ฉันกำลังเขียนบทความเกี่ยวกับปัญหานี้ซึ่งเป็นสิ่งที่ควรค่าแก่การแก้ไข) โดยการโพสต์การประมวลผลฉันหมายถึงการคูณผลลัพธ์ด้วยอัตราส่วนของความถี่ในการปฏิบัติงานและการฝึกอบรมและจากนั้นทำการปรับมาตรฐานใหม่ดังนั้นความน่าจะเป็นของผลลัพธ์ที่เป็นไปได้ทั้งหมดจะรวมเป็นหนึ่ง อย่างไรก็ตามในทางปฏิบัติปัจจัยการปรับสเกลที่ดีที่สุดที่เกิดขึ้นจริงมีแนวโน้มที่จะแตกต่างกันบ้างดังนั้นจึงปรับให้เหมาะสมกับ XVAL (แต่ยังคงทำให้เป็นปกติอีกครั้ง)
Dikran Marsupial

1

เกี่ยวกับ (1) คุณต้องทำการสังเกตในเชิงบวกและลบหากคุณต้องการผลลัพธ์ที่มีความหมาย
(2) ไม่มีวิธีย่อยตัวอย่างที่ฉลาดกว่าการกระจายแบบสม่ำเสมอหากคุณไม่มีข้อมูลมาก่อน


ขอบคุณ Ugo - เห็นด้วยจำเป็นต้องมีทั้งข้อมูลที่ตรงกันและไม่ตรงกับข้อมูลการฝึกอบรม คำถามเกี่ยวกับจำนวนที่ไม่จำเป็นต้องมี (N-1) (N-1) สำหรับตอนที่ (2) ฉันจะสุ่มตัวอย่างด้วยน้ำหนักที่เท่ากันตลอดการสังเกตทั้งหมด
John Horton

ถ้าคุณไม่มี apriori ในข้อมูลของคุณก็ไม่มีวิธีที่เหมาะสมในการเก็บตัวอย่างข้อมูล ดังนั้นคุณต้องทำการสุ่มตัวอย่างแบบสม่ำเสมอและในกรณีนี้ยิ่งคุณใช้มากเท่าไหร่ก็ยิ่งดีเท่านั้น อย่างไรก็ตามคุณสามารถประเมินข้อผิดพลาดที่เกิดจากการสุ่มตัวอย่าง แต่เราไม่มีข้อมูลที่นี่เพื่อช่วยคุณในจุดนี้
Ugo

ฉันดูเหมือนว่าข้อผิดพลาดจะขึ้นอยู่กับประเภทของลักษณนามที่ใช้ อย่างไรก็ตามคุณสามารถคาดการณ์อัตราตัวอย่างที่แตกต่างกันและแก้ไขเกณฑ์ที่คุณคิดว่าข้อผิดพลาดที่แนะนำนั้นเป็นที่น่าพอใจ
Ugo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.