วิธีการหาปริมาณคุณสมบัติที่ซ้ำซ้อน?


10

ฉันมีสามคุณสมบัติที่ฉันใช้เพื่อแก้ไขปัญหาการจัดหมวดหมู่ แต่เดิมคุณสมบัติเหล่านี้สร้างค่าบูลีนดังนั้นฉันสามารถประเมินความซ้ำซ้อนของพวกเขาได้โดยดูว่าชุดของการจำแนกประเภทที่เป็นบวกและลบนั้นทับซ้อนกันมากแค่ไหน ตอนนี้ฉันได้ขยายคุณสมบัติเพื่อสร้างมูลค่าที่แท้จริง (คะแนน) แทนและฉันต้องการวิเคราะห์ความซ้ำซ้อนของพวกเขาอีกครั้ง แต่ฉันรู้สึกสูญเสียอย่างสิ้นเชิงกับวิธีการทำเช่นนั้น ทุกคนสามารถให้ตัวชี้หรือแนวคิดเกี่ยวกับวิธีการเกี่ยวกับสิ่งนั้นให้ฉันได้หรือไม่

ฉันรู้ว่าคำถามนี้คลุมเครือมากนั่นเป็นเพราะฉันไม่มีความเข้าใจในสถิติอย่างชัดเจน ดังนั้นหากคุณไม่มีคำตอบให้ฉันบางทีคุณอาจมีคำถามที่ช่วยให้ฉันเข้าใจตัวเองดีขึ้น

แก้ไข:ขณะนี้ฉันกำลังสืบค้น Wikipedia ในเรื่องนี้ฉันรู้สึกว่าสิ่งที่ฉันต้องการคือสัมประสิทธิ์สหสัมพันธ์ แต่ฉันยังไม่แน่ใจว่านี่เป็นวิธีการที่ถูกต้องหรือไม่และสัมประสิทธิ์ใดที่เหมาะสม

แก้ไข 2:ในกรณีบูลีนฉันสร้างครั้งแรกสำหรับแต่ละคุณสมบัติชุดตัวอย่างที่เป็นจริง จากนั้นความสัมพันธ์ระหว่างสองคุณลักษณะคือขนาดของการตัดกันของเซตเหล่านี้มากกว่าขนาดของการรวมกันของเซตเหล่านี้ หากค่านี้เป็น 1 พวกเขาจะซ้ำซ้อนอย่างสมบูรณ์เพราะเหมือนกันเสมอ ถ้าเป็น 0 พวกมันจะไม่เหมือนเดิม


มันจะช่วยถ้าคุณให้ตัวอย่างของวิธีการที่คุณกำหนดความซ้ำซ้อนในกรณีบูลีนและผลลัพธ์ที่คุณคาดหวังในกรณีอย่างต่อเนื่อง
mpiktas

@mpiktas: แก้ไขคำถามของฉันตามความคิดเห็นของคุณ
Björn Pollex

คำตอบ:


4

ดูเหมือนว่าปัญหาของการเลือกคุณสมบัติถ้าเป็นกรณีนี้ฉันคิดว่าคุณต้องการคำนวณข้อมูลร่วมกันระหว่างชุดย่อยของคุณลักษณะทั้งหมดและผลลัพธ์การจำแนกประเภท ชุดย่อยที่มีข้อมูลร่วมกันสูงสุดจะเป็นชุดของคุณลักษณะที่มี 'ข้อมูล' มากที่สุดเกี่ยวกับการจัดหมวดหมู่ผลลัพธ์ของการบันทึก

หากคุณมี 3 ฟีเจอร์เท่านั้นคุณสามารถคำนวณเซ็ตย่อยที่เป็นไปได้ทั้งหมดในระยะเวลาที่เหมาะสมหากชุดฟีเจอร์ของคุณมีขนาดใหญ่ขึ้นคุณจะต้องประมาณค่านี้ (โดยทั่วไปจะใช้วิธีโลภ: ใช้ฟีเจอร์ที่มี MI สูงสุด )


2
(+1) สำหรับข้อมูลร่วมกัน หมายเหตุเพิ่มเติม: a) ฉันขอแนะนำให้ได้รับข้อมูลเป็นกรณีพิเศษของข้อมูลร่วมกัน b) การเลือกคุณสมบัติอัตโนมัติไม่เพียง แต่จะลบความซ้ำซ้อน แต่ยังรวมถึงคุณสมบัติทั้งหมดที่มีผลกระทบด้านลบต่อการเลือกปฏิบัติในชั้นเรียน
steffen

ขอบคุณ! ฟังดูมีแนวโน้มมากฉันจะตรวจสอบ
Björn Pollex
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.