ฉันมีชุดข้อมูลตัวอย่างมากกว่า 1,000 ชุดจาก 19 ตัวแปร วัตถุประสงค์ของฉันคือการทำนายตัวแปรไบนารีตามตัวแปร 18 ตัวอื่น ๆ (ไบนารีและต่อเนื่อง) ฉันค่อนข้างมั่นใจว่า 6 ของตัวแปรการทำนายเกี่ยวข้องกับการตอบสนองแบบไบนารีอย่างไรก็ตามฉันต้องการวิเคราะห์ชุดข้อมูลเพิ่มเติมและค้นหาการเชื่อมโยงหรือโครงสร้างอื่น ๆ ที่ฉันอาจหายไป ในการทำเช่นนี้ฉันตัดสินใจใช้ PCA และการทำคลัสเตอร์
เมื่อเรียกใช้ PCA กับข้อมูลที่ได้รับการทำให้เป็นมาตรฐานจะต้องเก็บส่วนประกอบ 11 อย่างไว้เพื่อรักษาความแปรปรวน 85% ด้วยการวางแผนจับคู่ฉันได้รับสิ่งนี้:
ฉันไม่แน่ใจว่ามีอะไรต่อไป ... ฉันไม่เห็นรูปแบบที่สำคัญใน pca และฉันสงสัยว่ามันหมายถึงอะไรและถ้ามันอาจเกิดจากข้อเท็จจริงที่ว่าตัวแปรบางตัวเป็นไบนารี โดยการใช้อัลกอริทึมการจัดกลุ่มด้วย 6 กลุ่มฉันได้รับผลลัพธ์ต่อไปนี้ซึ่งไม่ได้เป็นการปรับปรุงแม้ว่า Blobs บางอันจะดูโดดเด่น (สีเหลือง)
อย่างที่คุณสามารถบอกได้ว่าฉันไม่ใช่ผู้เชี่ยวชาญเกี่ยวกับ PCA แต่เห็นบทเรียนบางอย่างและวิธีที่จะมีประสิทธิภาพในการมองเห็นโครงสร้างในพื้นที่มิติสูง ด้วยชุดข้อมูลตัวเลข MNIST (หรือ IRIS) ที่มีชื่อเสียงมันใช้งานได้ดี คำถามของฉันคือตอนนี้ฉันควรทำอย่างไรเพื่อให้เข้าใจถึง PCA ได้ดียิ่งขึ้น ดูเหมือนว่าการจัดกลุ่มไม่ได้มีประโยชน์อะไรฉันจะบอกได้อย่างไรว่าไม่มีรูปแบบใน PCA หรือฉันควรลองอะไรต่อไปเพื่อหารูปแบบในข้อมูล PCA