PCA จะช่วยในการวิเคราะห์การจัดกลุ่ม k-mean อย่างไร


32

ความเป็นมา : ฉันต้องการแบ่งเขตที่อยู่อาศัยของเมืองออกเป็นกลุ่มตามลักษณะทางเศรษฐกิจสังคมรวมถึงความหนาแน่นของที่อยู่อาศัยความหนาแน่นของประชากรพื้นที่สีเขียวราคาที่อยู่อาศัยจำนวนโรงเรียน / ศูนย์สุขภาพ / ศูนย์ดูแลเด็กเล็ก ฯลฯ ฉันต้องการที่จะเข้าใจว่ากลุ่มที่แตกต่างกันสามารถแบ่งออกเป็นพื้นที่ที่อยู่อาศัยและสิ่งที่เป็นเอกลักษณ์ของพวกเขา ข้อมูลนี้สามารถอำนวยความสะดวกในการวางแผนเมือง

จากตัวอย่างบางส่วน (เปรียบเทียบบล็อกโพสต์นี้: PCA และ K-mean Clustering ของ Delta Aircraft ) ฉันคิดวิธีการวิเคราะห์:

  1. ก่อนทำการวิเคราะห์ PCA

  2. กำหนดจำนวนของกลุ่มที่ไม่ซ้ำกัน (กลุ่ม) ขึ้นอยู่กับผล PCA (เช่นใช้วิธี "ข้อศอก" หรืออีกทางหนึ่งจำนวนขององค์ประกอบที่อธิบายถึง 80 ถึง 90% ของความแปรปรวนทั้งหมด)

  3. หลังจากพิจารณาจำนวนของคลัสเตอร์ให้ใช้การจัดกลุ่ม k-mean เพื่อทำการจำแนก

คำถามของฉัน:ดูเหมือนว่าจำนวนขององค์ประกอบ PCA เกี่ยวข้องกับการวิเคราะห์กลุ่ม นั่นคือความจริงถ้าเราพบ 5 ส่วนประกอบ PCA อธิบายมากกว่า 90% ของการเปลี่ยนแปลงของคุณสมบัติทั้งหมดจากนั้นเราจะใช้การจัดกลุ่ม k-mean และรับ 5 กลุ่ม ดังนั้น 5 กลุ่มจะสอดคล้องกับ 5 องค์ประกอบในการวิเคราะห์ PCA หรือไม่

ฉันเดาว่าคำถามของฉันคือ: การเชื่อมโยงระหว่างการวิเคราะห์ PCA และการจัดกลุ่ม k-mean คืออะไร

อัปเดต: ต้องขอบคุณอินพุต Emre, xeon และ Kirill ดังนั้นคำตอบปัจจุบัน:

  1. การทำ PCA ก่อนการวิเคราะห์การจัดกลุ่มยังมีประโยชน์สำหรับการลดขนาดในฐานะตัวแยกคุณลักษณะและแสดงภาพ / เปิดเผยกลุ่ม

  2. การทำ PCA หลังจากการทำคลัสเตอร์สามารถตรวจสอบความถูกต้องของขั้นตอนวิธีการจัดกลุ่ม (การอ้างอิง: การวิเคราะห์องค์ประกอบหลักของเคอร์เนล )

  3. บางครั้ง PCA จะถูกนำไปใช้เพื่อลดมิติข้อมูลของชุดข้อมูลก่อนการทำคลัสเตอร์ อย่างไรก็ตาม Yeung & Ruzzo (2000) แสดงให้เห็นว่าการทำคลัสเตอร์กับพีซีแทนที่จะเป็นตัวแปรดั้งเดิมนั้นไม่จำเป็นต้องปรับปรุงคุณภาพของคลัสเตอร์ โดยเฉพาะอย่างยิ่งพีซีสองสามเครื่องแรก (ซึ่งมีการเปลี่ยนแปลงส่วนใหญ่ในข้อมูล) ไม่จำเป็นต้องจับโครงสร้างคลัสเตอร์ส่วนใหญ่

    • Yeung, Ka Yee และ Walter L. Ruzzo การศึกษาเชิงประจักษ์เกี่ยวกับการวิเคราะห์องค์ประกอบหลักสำหรับการจัดกลุ่มข้อมูลการแสดงออกของยีน รายงานทางเทคนิคภาควิชาวิทยาการคอมพิวเตอร์และวิศวกรรมศาสตร์มหาวิทยาลัยวอชิงตันปี 2000 ( pdf )
  4. มันดูเหมือน PCA เป็นสิ่งที่จำเป็นก่อนที่จะวิเคราะห์การจัดกลุ่มแบบสองขั้นตอน ตาม Ibes (2015) ซึ่งการวิเคราะห์กลุ่มทำงานโดยใช้ปัจจัยที่ระบุใน PCA


1
คุณสามารถใช้ PCA เพื่อลดมิติข้อมูลเป็นตัวแยกคุณลักษณะและเพื่อแสดงภาพกลุ่ม
Emre

3
เริ่มง่ายๆ: เรียกใช้ตัวจําแนกโดยตรงกับข้อมูลที่คุณมีและบันทึกประสิทธิภาพ หากคุณไม่พอใจกับประสิทธิภาพการทำงานให้ลอง PCA (เลือกจำนวนขององค์ประกอบที่ "หัวเข่า" ของพล็อต eigenvalue ที่เรียงลำดับ) และ run k-mean หากคุณเห็นกลุ่มที่ดีมีโอกาสดีที่ตัวจําแนก PCA + จะทํางานได้ดี
Vladislavs Dovgalecs

1
คุณสามารถทำ PCA หลังจากทำคลัสเตอร์ด้วยเช่นกันเพื่อตรวจสอบอัลกอริทึมการจัดกลุ่มของคุณ รหัสสีแต่ละจุดตามฉลากคลัสเตอร์ ผมยังแนะนำให้มองเข้าไปในPCA เคอร์เนล
Emre

มีวิธีการที่จะทำการลดขนาดและการจัดกลุ่มพร้อมกัน วิธีการเหล่านี้แสวงหาตัวแทนมิติต่ำที่ได้รับการเลือกอย่างเหมาะสมที่สุดเพื่ออำนวยความสะดวกในการจำแนกกลุ่ม ตัวอย่างเช่นดูแพ็คเกจ clustrd ใน R และการอ้างอิงที่เกี่ยวข้อง
Nat

คำตอบ:


16

PCA ไม่ใช่วิธีการจัดกลุ่ม แต่บางครั้งก็ช่วยเปิดเผยกลุ่ม

สมมติว่าคุณมีการแจกแจงปกติแบบ 10 มิติพร้อมค่าเฉลี่ย 010(เวกเตอร์ของศูนย์) และเมทริกซ์ความแปรปรวนร่วมบางตัวที่มี 3 ทิศทางมีความแปรปรวนใหญ่กว่าแบบอื่น การใช้การวิเคราะห์องค์ประกอบหลักที่มี 3 องค์ประกอบจะทำให้คุณมีทิศทางเหล่านี้ในลำดับที่ลดลงและวิธีการ 'ข้อศอก' จะบอกกับคุณว่าองค์ประกอบจำนวนที่เลือกนี้ถูกต้อง อย่างไรก็ตามมันจะยังคงเป็นคลาวด์ของคะแนน (1 คลัสเตอร์)

สมมติว่าคุณมีการแจกแจงปกติ 10 10 มิติด้วยวิธีการ 110, 210, ... 1010(หมายถึงการอยู่ใกล้เส้น) และเมทริกซ์ความแปรปรวนร่วมที่คล้ายกัน การใช้ PCA ที่มีเพียงองค์ประกอบเดียว (หลังจากมาตรฐาน) จะให้ทิศทางที่คุณจะสังเกตเห็นทั้ง 10 คลัสเตอร์ การวิเคราะห์ความแปรปรวนที่อธิบาย (วิธี 'ข้อศอก') คุณจะเห็นว่า 1 องค์ประกอบเพียงพอที่จะอธิบายข้อมูลนี้

ในลิงค์ที่คุณแสดง PCA ใช้เพื่อสร้างสมมติฐานบางอย่างเกี่ยวกับข้อมูลเท่านั้น จำนวนของกลุ่มจะถูกกำหนดโดยวิธี 'ข้อศอก' ตามมูลค่าของภายในกลุ่มผลรวมของช่องสี่เหลี่ยม (ไม่ได้โดยความแปรปรวนอธิบาย) โดยทั่วไปคุณทำซ้ำอัลกอริธึม K สำหรับจำนวนกลุ่มที่แตกต่างกันและคำนวณผลรวมของกำลังสอง หากจำนวนกลุ่มเท่ากับจำนวนจุดข้อมูลดังนั้นผลรวมของช่องสี่เหลี่ยมเท่ากับ0.


ขอบคุณสำหรับอินพุตของคุณ คุณช่วยอธิบายการแจกแจงปกติแบบ 10 มิติด้วยค่าเฉลี่ย 0 ได้อย่างไร คุณหมายถึงตัวแปรคุณลักษณะอินพุตสิบตัวและแต่ละตัวมีการแจกแจงแบบปกติหรือไม่
enaJ

ขออภัยฉันกำลังพูดเกี่ยวกับตัวแปรสุ่มที่ติดตามการแจกแจงปกติหลายตัวแปรด้วยค่าเฉลี่ยที่จะเป็นเวกเตอร์ 10 มิติและเมทริกซ์ความแปรปรวนร่วมนั่นคือ 10x10 เมทริกซ์สมมาตร
คิริลล์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.