การเลือกคุณสมบัติโดยใช้ข้อมูลร่วมกันใน Matlab


10

ฉันกำลังพยายามใช้ความคิดของข้อมูลร่วมกันกับการเลือกคุณสมบัติตามที่อธิบายไว้ในบันทึกการบรรยายเหล่านี้ (หน้า 5)

แพลตฟอร์มของฉันคือ Matlab ปัญหาหนึ่งที่ฉันพบเมื่อคำนวณข้อมูลร่วมกันจากข้อมูลเชิงประจักษ์ก็คือจำนวนนั้นจะเอนเอียงเสมอไป ฉันพบไฟล์ประมาณ 3 ~ 4 ไฟล์เพื่อคำนวณ MI บน Matlab Central และพวกเขาทั้งหมดให้จำนวนมาก (เช่น> 0.4) เมื่อฉันป้อนในตัวแปรสุ่มแบบอิสระ

ฉันไม่ใช่ผู้เชี่ยวชาญ แต่ปัญหาดูเหมือนว่าถ้าคุณใช้ความหนาแน่นแบบร่วมและส่วนเพิ่มในการคำนวณ MI ระบบจะนำความลำเอียงมาใช้เนื่องจาก MI มีความหมายในเชิงบวก ใครบ้างมีคำแนะนำการปฏิบัติเกี่ยวกับวิธีการประเมินข้อมูลร่วมกันอย่างถูกต้อง?

คำถามที่เกี่ยวข้องคือในทางปฏิบัติผู้คนใช้ MI เพื่อเลือกคุณสมบัติอย่างไร ฉันไม่เห็นชัดเจนว่าจะเกิดขึ้นกับค่าเกณฑ์ได้อย่างไรเนื่องจาก MI อยู่ในทฤษฎีที่ไม่มีขอบเขต หรือผู้คนเพียงแค่จัดอันดับคุณสมบัติของ MI และใช้คุณสมบัติ k อันดับต้น ๆ


ไม่มีใครสนใจหัวข้อนี้?

คุณมีคำตอบสำหรับเรื่องนี้หรือยัง?
เอนโทรปี

น่าเสียดายที่ไม่มี คุณยังมีปัญหาเดียวกันหรือไม่

คำตอบ:


3

ปัญหานี้เป็นปัญหาของอคติสุ่มตัวอย่าง จำกัด

การประมาณตัวอย่างขนาดเล็กของความหนาแน่นนั้นมีเสียงดังและความแปรปรวนนี้จะทำให้เกิดความสัมพันธ์ปลอมระหว่างตัวแปรที่เพิ่มค่าข้อมูลโดยประมาณ

(R-1)(S-1)/2ยังไม่มีข้อความLN22ยังไม่มีข้อความLN(2)ผมχ2(R-1)(S-1)

แพคเกจการใช้เทคนิคบางเหล่านี้ใน Matlab รวมinfotoolboxและเข็มรถไฟวิเคราะห์ Toolkit

สำหรับกรณีต่อเนื่องตัวประมาณตามระยะทางเพื่อนบ้านที่ใกล้ที่สุดช่วยลดปัญหา


1

ฉันใช้ KL-divergence และด้วยขนาดตัวอย่างที่เหมาะสมรับค่า 0 สำหรับ loci ที่การแจกแจงมีความน่าจะเป็นเท่ากัน

ฉันแนะนำให้คุณใช้ถ้อยคำของ MI ในแง่ของ KL-divergence


1

คุณควรใช้อัลกอริทึมข้อมูลรวมบางส่วนสำหรับการเลือกตัวแปร (คุณสมบัติ) มันขึ้นอยู่กับแนวคิด MI และการประมาณความหนาแน่นของความน่าจะเป็น ตัวอย่างเช่นใน:

  1. เคอร์เนลที่ใช้ PMI : (+) มีเกณฑ์การหยุด (Akaike Information Criteria) (-) ความซับซ้อนที่สูงขึ้น
  2. PMI ที่ใช้ kNN : (-) ไม่มีเกณฑ์การหยุด (+) ความซับซ้อนที่ต่ำกว่า

ฉันใช้ PMI เพื่อลดจำนวนอินพุตเครือข่ายประสาทเทียมเนื่องจากพวกเขาเพิ่มความซับซ้อนและแนะนำปัญหาอื่น ๆ คุณสามารถค้นหาภาพรวมที่สมบูรณ์ของอัลกอริทึมการเลือกตัวแปรอินพุต (IVS) ในการทบทวนวิธีการเลือกตัวแปรอินพุตสำหรับกระดาษโครงข่ายใยประสาทเทียม คุณสามารถใช้ IVS สำหรับ SVM และอื่น ๆ หากต้องการทำให้เรื่องย่อใช้ PMI

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.