ตอบคำถามของเจสสิก้าโดยตรงเหตุผลหนึ่งที่ทำให้การลดขนาดคือเมื่อคุณทำงานกับชุดข้อมูลขนาดใหญ่และเผชิญกับขีด จำกัด หน่วยความจำในคอมพิวเตอร์ของคุณหรือเพียงต้องการลดเวลาในการประมวลผล การสุ่มตัวอย่าง (กล่าวคือการสุ่มตัวอย่างแบบไม่มีการแทนที่) จากกรณีลบช่วยลดชุดข้อมูลให้มีขนาดที่จัดการได้มากขึ้น
คุณพูดถึงการใช้ "ลักษณนาม" ในคำถามของคุณ แต่ไม่ได้ระบุอันใด ตัวแยกประเภทหนึ่งที่คุณอาจต้องการหลีกเลี่ยงคือโครงสร้างการตัดสินใจ เมื่อรันทรีการตัดสินใจอย่างง่าย ๆ กับข้อมูลเหตุการณ์ที่หายากฉันมักจะพบว่าทรีสร้างเพียงรากเดียวเนื่องจากมันมีปัญหาในการแยกเคสที่เป็นบวกจำนวนน้อยออกเป็นหมวดหมู่ อาจมีวิธีการที่ซับซ้อนกว่านี้ในการปรับปรุงประสิทธิภาพของต้นไม้สำหรับเหตุการณ์ที่หายาก - ฉันไม่รู้อะไรเลย
ดังนั้นการใช้การถดถอยแบบโลจิสติกส์ซึ่งส่งกลับค่าความน่าจะเป็นที่คาดการณ์ไว้อย่างต่อเนื่องตามที่ Marc Claesen แนะนำไว้เป็นวิธีที่ดีกว่า หากคุณกำลังทำการถดถอยโลจิสติกกับข้อมูลค่าสัมประสิทธิ์ยังคงไม่เอนเอียงแม้จะมีระเบียนน้อยลง คุณจะต้องปรับการสกัดกั้นจากการถดถอยแบบของคุณตามสูตรจาก Hosmer และ Lemeshow, 2000:β0
βc=β0−log(p+1−p+)
โดยที่คือส่วนของกรณีที่เป็นบวกในประชากรกลุ่มตัวอย่างก่อนลงมาของคุณp+
การค้นหาเกณฑ์ ID สแปมที่คุณต้องการด้วย ROC สามารถทำได้โดยการให้คะแนนชุดข้อมูลที่สมบูรณ์ด้วยค่าสัมประสิทธิ์ของรูปแบบที่เริ่มต้นในชุดข้อมูลที่สุ่มตัวอย่างจากนั้นจัดอันดับระเบียนจากความน่าจะเป็นสูงสุดที่คาดการณ์ไว้ต่ำสุด ถัดไปจดบันทึกคะแนนสูงสุดอันดับโดยที่เป็นเกณฑ์อะไรก็ตามที่คุณต้องการตั้งค่า (100, 500, 1,000 ฯลฯ ) จากนั้นคำนวณเปอร์เซ็นต์ของคดีที่เป็นเท็จในกรณีอันดับสูงสุดและเปอร์เซ็นต์ของคดีลบปลอมใน ชั้นล่างที่เหลืออยู่ของคดี -เพื่อหาสมดุลที่เหมาะสมของความไว / ความจำเพาะที่ตอบสนองความต้องการของคุณnnnNn