การบรรจุด้วยการสุ่มตัวอย่างมากเกินไปสำหรับโมเดลการทำนายเหตุการณ์ที่หายาก


13

ไม่มีใครรู้ว่าสิ่งต่อไปนี้ได้รับการอธิบายและ (อย่างใดอย่างหนึ่ง) ถ้ามันดูเหมือนเป็นวิธีที่เป็นไปได้สำหรับการเรียนรู้รูปแบบการทำนายที่มีตัวแปรเป้าหมายที่ไม่สมดุลมาก?

บ่อยครั้งในการใช้งาน CRM ของการขุดข้อมูลเราจะหารูปแบบที่เหตุการณ์เชิงบวก (ความสำเร็จ) นั้นหายากมากเมื่อเทียบกับคนส่วนใหญ่ (ระดับลบ) ตัวอย่างเช่นฉันอาจมี 500,000 อินสแตนซ์ที่มีเพียง 0.1% ของระดับความสนใจเชิงบวก (เช่นลูกค้าที่ซื้อ) ดังนั้นเพื่อสร้างแบบจำลองการทำนายวิธีการหนึ่งคือการสุ่มตัวอย่างข้อมูลโดยที่คุณเก็บอินสแตนซ์ของคลาสที่เป็นบวกทั้งหมดและมีเพียงตัวอย่างของอินสแตนซ์คลาสที่เป็นค่าลบเพื่อให้อัตราส่วนของ 75% เป็นบวกถึงลบ) การสุ่มตัวอย่างการ Undersampling, SMOTE และอื่น ๆ เป็นวิธีการทั้งหมดในวรรณคดี

สิ่งที่ฉันอยากรู้คือการรวมกลยุทธ์การสุ่มตัวอย่างพื้นฐานด้านบน แต่กับการบรรจุของคลาสลบ

  • รักษาอินสแตนซ์ของคลาสที่เป็นบวกทั้งหมด (เช่น 1,000)
  • ตัวอย่างอินสแตนซ์คลาสเชิงลบเพื่อสร้างตัวอย่างที่สมดุล (เช่น 1,000)
  • พอดีกับรุ่น
  • ทำซ้ำ

ใครเคยได้ยินเรื่องนี้มาก่อน ปัญหาที่ดูเหมือนว่าไม่มีการบรรจุหีบห่อคือการสุ่มตัวอย่างคลาสเชิงลบเพียง 1,000 ครั้งเมื่อมี 500,000 คือพื้นที่ของตัวทำนายจะเบาบางและคุณอาจไม่ได้แสดงถึงค่า / รูปแบบของตัวทำนายที่เป็นไปได้ การบรรจุถุงดูเหมือนจะช่วยได้

ฉันดูที่ rpart และไม่มีสิ่งใด "หยุด" เมื่อตัวอย่างอย่างใดอย่างหนึ่งไม่มีค่าทั้งหมดสำหรับตัวทำนาย (ไม่แตกเมื่อทำนายอินสแตนซ์ด้วยค่าตัวทำนายเหล่านั้น:

library(rpart)
tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova")
predict(tree,newdata=subset(solder,PadType =='D6'))

ความคิดใด ๆ

UPDATE: ฉันใช้ชุดข้อมูลในโลกแห่งความเป็นจริง (ข้อมูลการตอบกลับการตลาดทางไปรษณีย์โดยตรง) และแบ่งพาร์ติชันแบบสุ่มเป็นการฝึกอบรมและการตรวจสอบความถูกต้อง มีผู้ทำนาย 618 คนและ 1 เป้าหมายไบนารี (หายากมาก)

Training:
Total Cases: 167,923
Cases with Y=1: 521

Validation:
Total Cases: 141,755
Cases with Y=1: 410

ฉันเอาตัวอย่างบวกทั้งหมด (521) จากชุดการฝึกอบรมและตัวอย่างสุ่มของตัวอย่างเชิงลบที่มีขนาดเท่ากันสำหรับตัวอย่างที่สมดุล ฉันพอดีกับต้นไม้ rpart:

models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class")

ฉันทำขั้นตอนนี้ซ้ำ 100 ครั้ง จากนั้นทำนายความน่าจะเป็นของ Y = 1 ในกรณีของตัวอย่างการตรวจสอบความถูกต้องสำหรับแต่ละรุ่น 100 เหล่านี้ ฉันเฉลี่ยความน่าจะเป็น 100 เพียงอย่างเดียวสำหรับการประเมินขั้นสุดท้าย ฉันเลือกความน่าจะเป็นในชุดการตรวจสอบความถูกต้องและในแต่ละช่วงเวลาจะคำนวณเปอร์เซ็นต์ของกรณีที่ Y = 1 (วิธีการดั้งเดิมสำหรับการประเมินความสามารถในการจัดอันดับของแบบจำลอง)

Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) 

นี่คือประสิทธิภาพการทำงาน: ป้อนคำอธิบายรูปภาพที่นี่

เพื่อดูว่าสิ่งนี้เปรียบเทียบกับการไม่บรรจุถุงได้อย่างไรฉันทำนายตัวอย่างการตรวจสอบความถูกต้องกับตัวอย่างแรกเท่านั้น (กรณีบวกทั้งหมดและตัวอย่างสุ่มที่มีขนาดเท่ากัน) เห็นได้ชัดว่าตัวอย่างข้อมูลมีขนาดเบาบางหรือเกินความเหมาะสมที่จะมีผลบังคับใช้ในตัวอย่างการตรวจสอบที่ถูกระงับไว้

เสนอแนะประสิทธิภาพของขั้นตอนการบรรจุถุงเมื่อมีเหตุการณ์ที่เกิดขึ้นน้อยและมีค่า n และ p

ป้อนคำอธิบายรูปภาพที่นี่

คำตอบ:


7

ยกเว้นสำหรับการรวมตัวอย่างระดับบวกเหมือนกันในแต่ละถุงนี้คือ S ^ 3Bagging ที่อธิบายไว้ในS ^ 3Bagging: ด่วนลักษณนามวิธีการเหนี่ยวนำด้วย subsampling และบรรจุถุง (ฉันยังไม่ได้ตรวจสอบบทความนี้ในเชิงลึกเพียงขาดมัน)

ฉันเห็นว่าไม่มีอะไรผิดในทางทฤษฎีกับวิธีการของคุณแม้ว่าฉันจะเห็นบ่อยกว่าการรวมตัวย่อยกับการส่งเสริมมากกว่าการใส่ถุง

ซึ่งอาจไม่ตรงกับที่อยู่คำถามของคุณ แต่กระดาษที่ยอดเยี่ยมเกี่ยวกับวิธีการที่แตกต่างกันในการจัดการกับข้อมูลที่ขาดดุลคือการเรียนรู้จากการขาดดุลข้อมูล มันตะเข็บเช่นการเรียนรู้ที่สำคัญค่าใช้จ่ายอาจจะเหมาะสมกว่าในกรณีของคุณ เนื่องจากคุณกำลังใช้ Decision Forests ส่วน 3.2.3 ต้นไม้การตัดสินใจที่มีความอ่อนไหวทางต้นทุนอาจเป็นประโยชน์ มันกล่าวว่า

ในเรื่องของต้นไม้การตัดสินใจการปรับความอ่อนไหวของต้นทุนสามารถมีได้สามรูปแบบ: ขั้นแรกการปรับค่าใช้จ่ายที่อ่อนไหวสามารถนำไปใช้กับเกณฑ์การตัดสินใจ ประการที่สองการพิจารณาความอ่อนไหวด้านต้นทุนสามารถกำหนดให้กับเกณฑ์การแยกที่แต่ละโหนด และสุดท้ายโครงร่างการตัดที่มีความอ่อนไหวต่อต้นทุนสามารถนำไปใช้กับแผนผังได้

การปรับค่าใช้จ่ายที่อ่อนไหวต่อเกณฑ์การตัดสินใจโดยทั่วไปหมายถึงการเลือกเกณฑ์การตัดสินใจของคุณตามประสิทธิภาพ ROC หรือ Precision-Recall Curve ประสิทธิภาพของ PRC โดยเฉพาะนั้นมีความทนทานต่อข้อมูลที่ไม่สมดุล

เกณฑ์การแบ่งต้นทุนที่อ่อนไหวลงมาถึงการเปลี่ยนฟังก์ชั่นสิ่งเจือปนของคุณเพื่อจัดการกับข้อมูลที่ไม่สมดุล สถานะกระดาษที่กล่าวถึงข้างต้น

ใน [63] สามฟังก์ชั่นการปนเปื้อนเฉพาะคือ Gini, Entropy และ DKM แสดงให้เห็นว่ามีการปรับปรุงด้านความไม่รู้สึกต้นทุนเมื่อเทียบกับพื้นฐานความถูกต้อง / อัตราความผิดพลาด ยิ่งไปกว่านั้นการทดลองเชิงประจักษ์เหล่านี้ยังแสดงให้เห็นว่าการใช้ฟังก์ชั่น DKM โดยทั่วไปจะสร้างแผนภูมิการตัดสินใจที่ไม่มีการตัดต้นไม้ขนาดเล็กที่แย่กว่านั้นให้ความแม่นยำเทียบเคียงได้กับ Gini และ Entropy รายละเอียดพื้นฐานทางทฤษฎีที่อธิบายถึงข้อสรุปของผลลัพธ์เชิงประจักษ์เหล่านี้ได้ถูกจัดตั้งขึ้นในภายหลังใน [49] ซึ่งสรุปผลของการเติบโตของต้นไม้ตัดสินใจสำหรับการเลือกเกณฑ์การคายใด ๆ

เป็นการตัดแต่งกิ่ง

อย่างไรก็ตามในการมีข้อมูลที่ไม่สมดุลกระบวนการตัดมีแนวโน้มที่จะลบใบไม้ที่อธิบายแนวคิดของชนกลุ่มน้อย มันแสดงให้เห็นว่าแม้ว่าการตัดต้นไม้ที่เกิดจากข้อมูลที่ไม่สมดุลสามารถขัดขวางการทำงานได้ แต่การใช้ต้นไม้ที่ไม่ได้รับการชดเชยในกรณีดังกล่าวจะไม่ช่วยเพิ่มประสิทธิภาพ [23] เป็นผลให้ได้รับความสนใจในการปรับปรุงการประเมินความน่าจะเป็นของคลาสที่แต่ละโหนดเพื่อพัฒนาโครงสร้างต้นไม้ตัดสินใจแทนมากขึ้นเช่นการตัดแต่งกิ่งที่สามารถใช้กับผลบวก ตัวแทนบางคนรวมถึงวิธีการทำให้เรียบ Laplace ของการประมาณความน่าจะเป็นและเทคนิคการตัดแต่ง Laplace [49]

[23] N. Japkowicz และ S. Stephen,“ ปัญหาความไม่สมดุลในชั้นเรียน: การศึกษาอย่างเป็นระบบ,” การวิเคราะห์ข้อมูลอัจฉริยะฉบับที่ 23 6 ไม่ใช่ 5, pp. 429- 449, 2002

[49] C. Elkan,“ รากฐานของการเรียนรู้ที่อ่อนไหวด้านต้นทุน” Proc Int'l Joint Conf ปัญญาประดิษฐ์, หน้า 973-978, 2001

[63] C. ดรัมมอนด์และ RC โฮลท์“ ใช้ประโยชน์จากต้นทุน (ใน) ความอ่อนไหวของเกณฑ์การแยกต้นไม้ตัดสินใจ” Proc Conf' Int'l การเรียนรู้ของเครื่อง, หน้า 239-246, 2000


0

มันน่าสนใจมาก เมื่อเร็ว ๆ นี้ฉันมีโครงการที่มีสถานการณ์คล้ายกันซึ่งการตรวจสอบเหตุการณ์หายากทำงานได้ดีในขณะที่การตรวจสอบความถูกต้องของกิจกรรมที่ไม่ใช่ในช่วงที่คาดการณ์ต่ำสุด (เช่น 0.0 - 0.1) ดำเนินการเดือนไม่เสถียรตลอดเดือน ดังที่คุณกล่าวถึงเหตุผลเบื้องหลังเนื่องจากมีประชากรจำนวนมากที่ไม่ใช่เหตุการณ์ควรรวมตัวอย่างเพิ่มเติมเข้าในชุดการฝึกอบรมเพื่อให้มีตัวอย่างเพียงพอที่จะครอบคลุมตัวแปรต่างๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.