การวัดความไม่สามารถแยกชั้นได้ในปัญหาการจำแนกประเภท


11

ตัวอย่างของการวัดความสามารถในการแบ่งแยกชั้นเรียนที่ดีในผู้เรียนที่เลือกปฏิบัติแบบเส้นตรงคืออัตราส่วนการจำแนกเชิงเส้นของฟิชเชอร์ มีตัวชี้วัดที่มีประโยชน์อื่น ๆ หรือไม่ในการพิจารณาว่าชุดคุณลักษณะให้การแยกคลาสที่ดีระหว่างตัวแปรเป้าหมายหรือไม่ โดยเฉพาะอย่างยิ่งฉันสนใจในการค้นหาแอตทริบิวต์อินพุตหลายตัวแปรที่ดีสำหรับการเพิ่มการแยกชั้นเป้าหมายและมันจะดีถ้ามีการวัดแบบไม่เชิงเส้น / ไม่อิงพารามิเตอร์เพื่อกำหนดว่าการแยกนั้นดีหรือไม่


ฉันอ่านเกี่ยวกับการขยายตัวของ Karhunen Loeve อนุญาตให้ใช้ข้อมูลคลาสสำหรับการแยกคุณลักษณะ นอกจากนี้ยังมีส่วนขยายไปยัง PCA เช่นการใช้เมทริกซ์ความแปรปรวนร่วมระดับเฉลี่ยถ่วงน้ำหนักแทนเมทริกซ์โกลบอล นอกเหนือจากข้อมูลนี้ฉันยังสนใจที่จะตอบคำถามของคุณ
Zoran

คำตอบ:


1

มาตรการความสำคัญของตัวแปร (VIM) จากป่าสุ่มอาจเป็นสิ่งที่คุณกำลังมองหา ภาพรวมคร่าวๆของสองสิ่งเหล่านี้มีอยู่ในกระดาษภาพรวมของวิธีการป่าไม้แบบสุ่มและแนวทางปฏิบัติโดยเน้นการคำนวณชีววิทยาและชีวสารสนเทศศาสตร์โดย Boulesteix et al.

แนวคิดสำหรับGini VIMคือคุณได้รับสถิติบางอย่างว่าฟอเรสต์แบบสุ่มใช้ประโยชน์จากคุณลักษณะบางอย่างเป็นเกณฑ์แยก มีการเลือกคุณสมบัติข้อมูลบ่อยขึ้นที่นี่

การเปลี่ยนแปลงของค่า VIMนั้นขึ้นอยู่กับความคิดที่ว่าข้อผิดพลาดประมาณของตัวจําแนก RF นั้นถูกเปรียบเทียบ

  • ชุดข้อมูลดั้งเดิมและ
  • ชุดข้อมูลเทียมที่ค่าสำหรับแอตทริบิวต์หนึ่งได้รับอนุญาต

ความแตกต่างของการประเมินข้อผิดพลาดที่เกิดขึ้นจะมีขนาดใหญ่สำหรับคุณสมบัติที่สำคัญ

เท่าที่ฉันจำได้ VIM ยังสามารถใช้เพื่อค้นหาการพึ่งพาระหว่างคุณลักษณะต่างๆ


0

การค้นหาชุดคุณสมบัติที่ดีที่สุดอาจมีราคาแพงมาก หมวดหมู่หลักของโซลูชันที่มีอยู่สามารถจัดกลุ่มเป็นสองชุด: ผูกกับตัวจําแนกเฉพาะ (Wrappers) หรือการจัดอันดับอย่างง่ายของคุณสมบัติตามเกณฑ์บางอย่าง (วิธีการกรอง)

ขึ้นอยู่กับความต้องการของคุณ (เร็ว / ไม่ใช่พารามิเตอร์ / ไม่ใช่เชิงเส้น) คุณอาจต้องการผู้สมัครจากวิธีการกรอง มีค่อนข้างตัวอย่างบางส่วนของผู้ที่มีอธิบายไว้ในวรรณคดี ตัวอย่างเช่น Information Gain - ที่ประเมินมูลค่าของแอ็ตทริบิวต์โดยการวัดการได้รับข้อมูลเกี่ยวกับคลาส หรือสหสัมพันธ์ที่ประเมินค่าของคุณลักษณะตามความสัมพันธ์ระหว่างแอตทริบิวต์และคลาส

วิธีการห่อหุ้มจะผูกกับลักษณนามและอาจจบลงด้วยชุดของคุณสมบัติที่ดีกว่าสำหรับลักษณนามที่น่าสนใจ เนื่องจากลักษณะของพวกเขา (การฝึกอบรมเต็มรูปแบบ / การทดสอบในการทำซ้ำแต่ละครั้ง) พวกเขาไม่สามารถพิจารณาได้อย่างรวดเร็วหรือไม่เป็นพารามิเตอร์ แต่พวกเขาสามารถจัดการกับความสัมพันธ์แบบไม่เชิงเส้นของคุณสมบัติ ตัวอย่างคือการกำจัดคุณลักษณะซ้ำที่อิงจาก SVM ดังนั้นจึงมีเป้าหมายในการเพิ่มระยะห่างระหว่างคลาสให้สูงสุดและสามารถจัดการกับความสัมพันธ์แบบไม่เชิงเส้นของคุณลักษณะ (โดยใช้เคอร์เนลที่ไม่ใช่เชิงเส้น)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.