ลบรายการซ้ำออกจากชุดการฝึกอบรมเพื่อจัดหมวดหมู่


9

ให้เราบอกว่าฉันมีหลายแถวสำหรับปัญหาการจำแนก:

X1,...Xยังไม่มีข้อความ,Y

ที่ไหน X1,...,Xยังไม่มีข้อความ คือคุณสมบัติ / ตัวพยากรณ์และ Y เป็นคลาสที่การรวมคุณสมบัติของแถวเป็นของ

การรวมคุณสมบัติหลายอย่างและคลาสของพวกเขาถูกทำซ้ำในชุดข้อมูลซึ่งฉันใช้เพื่อให้พอดีกับตัวจําแนก ฉันแค่สงสัยว่ามันเป็นที่ยอมรับในการลบรายการที่ซ้ำกัน (โดยทั่วไปฉันทำgroup by X1 ... XN Yใน SQL)? ขอบคุณ

PS:

นี่เป็นเพียงชุดข้อมูลไบนารีที่มีคลาสของนักบวชค่อนข้างเบ้

คำตอบ:


13

ไม่เป็นที่ยอมรับ การทำซ้ำเป็นสิ่งที่ให้น้ำหนักของหลักฐาน

หากคุณลบรายการที่ซ้ำกันโคลเวอร์สี่ใบจะมีความสำคัญเท่ากับโคลเวอร์แบบปกติสามใบเนื่องจากแต่ละโคลเวอร์จะเกิดขึ้นหนึ่งครั้งในขณะที่ในชีวิตจริงจะมีโคลเวอร์สี่ใบสำหรับโคลเวอร์ปกติ 10,000 ตัว

แม้ว่านักบวชของคุณจะค่อนข้าง "เอียง" ตามที่คุณพูดวัตถุประสงค์ของชุดฝึกอบรมคือการสะสมประสบการณ์ชีวิตจริงซึ่งคุณจะไม่ประสบความสำเร็จหากคุณสูญเสียข้อมูลความถี่


1

ฉันเห็นด้วยกับคำตอบก่อนหน้า แต่นี่คือการจองของฉัน ขอแนะนำให้ลบข้อมูลที่ซ้ำกันออกขณะแยกตัวอย่างสำหรับการฝึกอบรมและทดสอบสำหรับตัวแยกประเภทเฉพาะเช่นต้นไม้การตัดสินใจ สมมติว่า 20% ของข้อมูลของคุณอยู่ในชั้นเรียนหนึ่งและ14เสื้อชั่วโมงของผู้ที่เจาะเข้าไปในการทดสอบแล้วอัลกอริทึมเช่นต้นไม้การตัดสินใจจะสร้างเกตเวย์ไปยังชั้นเรียนที่มีตัวอย่างที่ซ้ำกัน สิ่งนี้สามารถให้ผลลัพธ์ที่ทำให้เข้าใจผิดในชุดการทดสอบเพราะส่วนใหญ่มีเกตเวย์ที่เฉพาะเจาะจงมากสำหรับเอาต์พุตที่ถูกต้อง

เมื่อคุณปรับใช้ตัวจําแนกนั้นไปยังข้อมูลใหม่อย่างสมบูรณ์มันอาจทํางานได้อย่างน่าประหลาดใจหากไม่มีตัวอย่างที่คล้ายกับตัวอย่าง 20% ที่กล่าวข้างต้น

อาร์กิวเมนต์ : หนึ่งอาจโต้แย้งว่าสถานการณ์นี้ชี้ไปที่ชุดข้อมูลที่มีข้อบกพร่อง แต่ฉันคิดว่านี่เป็นเรื่องจริงสำหรับแอปพลิเคชันในชีวิตจริง

การลบรายการที่ซ้ำกันสำหรับ Neural Networks รุ่น Bayesian และอื่น ๆ ไม่สามารถทำได้


วิธีแก้ปัญหาที่เป็นไปได้อีกประการหนึ่งคือลดน้ำหนักของงานซ้ำซ้อนที่ลดลงตามความถี่ของการเกิดขึ้น
Rakshit Kothari
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.