2
การเลือกคุณสมบัติสำหรับปัญหาการทำคลัสเตอร์
ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่แตกต่างกันโดยใช้อัลกอริทึมที่ไม่ได้รับการสำรอง (การจัดกลุ่ม) ปัญหาคือฉันมีคุณสมบัติหลายอย่าง (~ 500) และจำนวนคดีเล็กน้อย (200-300) จนถึงตอนนี้ฉันเคยทำเฉพาะปัญหาการจำแนกซึ่งฉันมักจะมีข้อมูลที่ระบุว่าเป็นชุดฝึกอบรม ที่นั่นฉันใช้เกณฑ์บางอย่าง (เช่น random.forest.importance หรือ information.gain) สำหรับการเลือกคุณสมบัติล่วงหน้าจากนั้นฉันใช้การเลือกไปข้างหน้าตามลำดับสำหรับผู้เรียนที่แตกต่างกันเพื่อค้นหาคุณลักษณะที่เกี่ยวข้อง ตอนนี้ฉันเห็นว่าในกรณีของการเรียนรู้ที่ไม่มีผู้ดูแลฉันไม่มีเกณฑ์สำหรับการเลือกล่วงหน้าและฉันไม่สามารถใช้การเลือกไปข้างหน้าตามลำดับ (อย่างน้อยไม่ได้อยู่ในแพ็คเกจ MLR) ฉันสงสัยว่าฉันสามารถทำการวิเคราะห์องค์ประกอบหลักก่อนที่จะค้นหาคุณลักษณะจำนวนเล็กน้อยเพื่อนำไปใช้กับอัลกอริทึมการจัดกลุ่มของฉันหรือไม่ หรือคุณมีความคิดอื่น ๆ ขอบคุณ แก้ไข: ตกลงดังนั้นหลังจากการวิจัยออนไลน์ฉันสามารถอัปเดตคำถามของฉันได้นิดหน่อย: ก่อนอื่นฉันได้อ่านบางบทความที่ไม่สนับสนุนการใช้ PCA ก่อนอัลกอริทึมการจัดกลุ่มเนื่องจากเหตุผลสองประการ: พีซีเป็นฟังก์ชั่นของฟีเจอร์ทั้งหมดดังนั้นจึงยากที่จะสัมพันธ์กับผลลัพธ์ของชุดข้อมูล inital และทำให้ยากต่อการตีความ ยิ่งไปกว่านั้นถ้าคุณมีปัญหาที่จริงแล้วคุณสมบัติเพียงเล็กน้อยของคุณมีประโยชน์ในการทำคลัสเตอร์ก็ไม่ได้กล่าวว่าคุณสมบัติเหล่านี้ยังอธิบายถึงความแปรปรวนที่ใหญ่ที่สุดในกลุ่มตัวอย่าง (ซึ่งเป็นสิ่งที่พีซีทำ) PCA อยู่นอกโต๊ะ ... ตอนนี้ฉันกลับไปที่แนวคิดเริ่มต้นของฉันเพื่อทำการเลือกการส่งต่อตามลำดับสำหรับการทำคลัสเตอร์ คุณต้องการแนะนำการวัดประสิทธิภาพแบบใด? (ฉันคิดเกี่ยวกับ Dunn-Index) อัลกอริทึมการจัดกลุ่มใดที่จะนำไปสู่กลุ่มที่มีขนาดเท่ากันหรือมากกว่า (สำหรับการจัดกลุ่มแบบลำดับชั้นฉันมักจะได้รับหนึ่งคลัสเตอร์ที่มีค่าผิดปกติเดียวและอีกส่วนที่เหลือทั้งหมด -> ดังนั้นฉันจะต้องการบางสิ่งที่ป้องกันอย่างใดต่อผู้ผิด) หวังว่าพวกคุณจะช่วยฉัน ...