ความเป็นมา : ฉันต้องการแบ่งเขตที่อยู่อาศัยของเมืองออกเป็นกลุ่มตามลักษณะทางเศรษฐกิจสังคมรวมถึงความหนาแน่นของที่อยู่อาศัยความหนาแน่นของประชากรพื้นที่สีเขียวราคาที่อยู่อาศัยจำนวนโรงเรียน / ศูนย์สุขภาพ / ศูนย์ดูแลเด็กเล็ก ฯลฯ ฉันต้องการที่จะเข้าใจว่ากลุ่มที่แตกต่างกันสามารถแบ่งออกเป็นพื้นที่ที่อยู่อาศัยและสิ่งที่เป็นเอกลักษณ์ของพวกเขา ข้อมูลนี้สามารถอำนวยความสะดวกในการวางแผนเมือง
จากตัวอย่างบางส่วน (เปรียบเทียบบล็อกโพสต์นี้: PCA และ K-mean Clustering ของ Delta Aircraft ) ฉันคิดวิธีการวิเคราะห์:
ก่อนทำการวิเคราะห์ PCA
กำหนดจำนวนของกลุ่มที่ไม่ซ้ำกัน (กลุ่ม) ขึ้นอยู่กับผล PCA (เช่นใช้วิธี "ข้อศอก" หรืออีกทางหนึ่งจำนวนขององค์ประกอบที่อธิบายถึง 80 ถึง 90% ของความแปรปรวนทั้งหมด)
หลังจากพิจารณาจำนวนของคลัสเตอร์ให้ใช้การจัดกลุ่ม k-mean เพื่อทำการจำแนก
คำถามของฉัน:ดูเหมือนว่าจำนวนขององค์ประกอบ PCA เกี่ยวข้องกับการวิเคราะห์กลุ่ม นั่นคือความจริงถ้าเราพบ 5 ส่วนประกอบ PCA อธิบายมากกว่า 90% ของการเปลี่ยนแปลงของคุณสมบัติทั้งหมดจากนั้นเราจะใช้การจัดกลุ่ม k-mean และรับ 5 กลุ่ม ดังนั้น 5 กลุ่มจะสอดคล้องกับ 5 องค์ประกอบในการวิเคราะห์ PCA หรือไม่
ฉันเดาว่าคำถามของฉันคือ: การเชื่อมโยงระหว่างการวิเคราะห์ PCA และการจัดกลุ่ม k-mean คืออะไร
อัปเดต: ต้องขอบคุณอินพุต Emre, xeon และ Kirill ดังนั้นคำตอบปัจจุบัน:
การทำ PCA ก่อนการวิเคราะห์การจัดกลุ่มยังมีประโยชน์สำหรับการลดขนาดในฐานะตัวแยกคุณลักษณะและแสดงภาพ / เปิดเผยกลุ่ม
การทำ PCA หลังจากการทำคลัสเตอร์สามารถตรวจสอบความถูกต้องของขั้นตอนวิธีการจัดกลุ่ม (การอ้างอิง: การวิเคราะห์องค์ประกอบหลักของเคอร์เนล )
บางครั้ง PCA จะถูกนำไปใช้เพื่อลดมิติข้อมูลของชุดข้อมูลก่อนการทำคลัสเตอร์ อย่างไรก็ตาม Yeung & Ruzzo (2000) แสดงให้เห็นว่าการทำคลัสเตอร์กับพีซีแทนที่จะเป็นตัวแปรดั้งเดิมนั้นไม่จำเป็นต้องปรับปรุงคุณภาพของคลัสเตอร์ โดยเฉพาะอย่างยิ่งพีซีสองสามเครื่องแรก (ซึ่งมีการเปลี่ยนแปลงส่วนใหญ่ในข้อมูล) ไม่จำเป็นต้องจับโครงสร้างคลัสเตอร์ส่วนใหญ่
- Yeung, Ka Yee และ Walter L. Ruzzo การศึกษาเชิงประจักษ์เกี่ยวกับการวิเคราะห์องค์ประกอบหลักสำหรับการจัดกลุ่มข้อมูลการแสดงออกของยีน รายงานทางเทคนิคภาควิชาวิทยาการคอมพิวเตอร์และวิศวกรรมศาสตร์มหาวิทยาลัยวอชิงตันปี 2000 ( pdf )
มันดูเหมือน PCA เป็นสิ่งที่จำเป็นก่อนที่จะวิเคราะห์การจัดกลุ่มแบบสองขั้นตอน ตาม Ibes (2015) ซึ่งการวิเคราะห์กลุ่มทำงานโดยใช้ปัจจัยที่ระบุใน PCA
- Ibes, Dorothy C. การจำแนกหลายมิติและการวิเคราะห์ความยุติธรรมของระบบสวนสาธารณะในเมือง: วิธีการใหม่และการประยุกต์ใช้กรณีศึกษา ภูมิทัศน์และการผังเมือง , เล่มที่ 137, พฤษภาคม 2015, หน้า 122–137