ความแตกต่างระหว่าง PCA และการจัดกลุ่มสเปกตรัมสำหรับชุดตัวอย่างขนาดเล็กของคุณลักษณะบูลีน


10

ฉันมีชุดข้อมูลจำนวน 50 ตัวอย่าง แต่ละตัวอย่างประกอบด้วยคุณลักษณะบูลีน 11 (อาจมีความสัมพันธ์) ฉันต้องการที่จะเห็นภาพตัวอย่างเหล่านี้ในพล็อต 2D และตรวจสอบว่ามีกลุ่ม / กลุ่มใน 50 ตัวอย่างหรือไม่

ฉันได้ลองสองวิธีต่อไปนี้:

(a) เรียกใช้ PCA บนเมทริกซ์ 50x11 และเลือกสององค์ประกอบหลักแรก ฉายข้อมูลลงบนพล็อต 2 มิติและรัน K-mean อย่างง่ายเพื่อระบุกลุ่ม

(b) สร้างเมทริกซ์ความคล้ายคลึงกัน 50x50 (โคไซน์) เรียกใช้การจัดกลุ่มสเปกตรัมเพื่อลดมิติตามด้วย K-mean อีกครั้ง

อะไรคือแนวคิดที่แตกต่างระหว่างการทำ PCA โดยตรงกับการใช้ค่าลักษณะเฉพาะของเมทริกซ์ความเหมือนกัน? ดีกว่าอีกไหม?

นอกจากนี้ยังมีวิธีที่ดีกว่าในการแสดงภาพข้อมูลในแบบ 2D หรือไม่? เนื่องจากขนาดตัวอย่างของฉันถูก จำกัด ไว้ที่ 50 เสมอและชุดคุณลักษณะของฉันอยู่ในช่วง 10-15 เสมอฉันยินดีที่จะลองใช้วิธีการต่างๆแบบทันทีและเลือกที่ดีที่สุด

คำถามที่เกี่ยวข้อง: การ จัดกลุ่มตัวอย่างโดยการทำคลัสเตอร์หรือ PCA

คำตอบ:


9

อะไรคือแนวคิดที่แตกต่างระหว่างการทำ PCA โดยตรงกับการใช้ค่าลักษณะเฉพาะของเมทริกซ์ความเหมือนกัน?

PCA กระทำบนความแปรปรวนร่วมหรือเมทริกซ์สหสัมพันธ์ แต่การจัดกลุ่มสเปกตรัมสามารถใช้เมทริกซ์ความคล้ายคลึงกันใด ๆ (เช่นสร้างด้วยความคล้ายคลึงโคไซน์) และค้นหากลุ่มที่นั่น

ขั้นที่สองอัลกอริธึมการจัดกลุ่มสเปกตรัมนั้นขึ้นอยู่กับการแบ่งกราฟ (โดยปกติจะเกี่ยวกับการหากราฟที่ดีที่สุด) ในขณะที่ PCA ค้นหาทิศทางที่มีความแปรปรวนมากที่สุด ถึงแม้ว่าในทั้งสองกรณีเราจะพบว่าไอเก็นผู้ประกอบการวิธีการแนวคิดที่แตกต่างกัน

และในที่สุดฉันก็เห็นว่า PCA และการจัดกลุ่มสเปกตรัมมีจุดประสงค์ที่แตกต่างกัน: หนึ่งคือเทคนิคการลดขนาดและอีกวิธีหนึ่งคือวิธีการจัดกลุ่ม (แต่ทำได้ผ่านการลดขนาด)


5

สำหรับคุณลักษณะบูลีน (เช่นจัดหมวดหมู่พร้อมสองคลาส) ทางเลือกที่ดีในการใช้ PCA ประกอบด้วยการใช้การวิเคราะห์ความสอดคล้องหลายรายการ (MCA) ซึ่งเป็นเพียงการขยาย PCA ไปยังตัวแปรเด็ดขาด (ดูหัวข้อที่เกี่ยวข้อง) สำหรับพื้นหลังบางอย่างเกี่ยวกับ MCA เอกสารคือHusson และคณะ (2010)หรืออับและวาเลนติน (2007) แพคเกจ R ที่ดีในการดำเนินการเป็นเอ็มFactoMineR มันมีเครื่องมือในการพล็อตแผนที่สองมิติของการโหลดของการสังเกตบนส่วนประกอบหลักซึ่งมีความชาญฉลาดมาก

ด้านล่างเป็นตัวอย่างแผนที่สองตัวอย่างจากหนึ่งในโครงการวิจัยที่ผ่านมาของฉัน (เขียนด้วย ggplot2) ฉันมีข้อสังเกตเพียง 60 ครั้งและให้ผลลัพธ์ที่ดี แผนที่แรกแสดงถึงการสังเกตการณ์ในอวกาศ PC1-PC2, แผนที่ที่สองในอวกาศ PC3-PC4 ... ตัวแปรยังแสดงอยู่ในแผนที่ซึ่งช่วยในการตีความความหมายของมิติ การรวบรวมข้อมูลเชิงลึกจากแผนที่เหล่านี้หลายแห่งสามารถให้ภาพที่สวยงามเกี่ยวกับสิ่งที่เกิดขึ้นในข้อมูลของคุณ

ป้อนคำอธิบายรูปภาพที่นี่

ในเว็บไซต์ที่ลิงก์ด้านบนคุณจะพบข้อมูลเกี่ยวกับขั้นตอนใหม่คือ HCPC ซึ่งย่อมาจากการจัดกลุ่มตามลำดับชั้นบนส่วนประกอบหลักและที่คุณอาจสนใจ โดยทั่วไปวิธีการนี้จะทำงานดังนี้:

  • ดำเนินการ MCA
  • เก็บไว้ก่อน k ขนาด (ที่ไหน k<พีกับ พีจำนวนฟีเจอร์ดั้งเดิมของคุณ) ขั้นตอนนี้มีประโยชน์ในการที่จะขจัดเสียงรบกวนและทำให้การจัดกลุ่มมีเสถียรภาพมากขึ้น
  • ดำเนินการจัดกลุ่มแบบลำดับชั้น agglomerative (จากล่างขึ้นบน) ในพื้นที่ของพีซีที่เก็บไว้ เนื่องจากคุณใช้พิกัดของการคาดการณ์ของการสังเกตในพื้นที่ PC (จำนวนจริง) คุณสามารถใช้ระยะทางแบบยุคลิดพร้อมกับเกณฑ์ของวอร์ดสำหรับการเชื่อมโยง (การเพิ่มขึ้นต่ำสุดของความแปรปรวนภายในกลุ่ม) คุณสามารถตัด dendogram ที่ความสูงที่คุณชอบหรือปล่อยให้ฟังก์ชั่น R ตัดถ้าหรือคุณขึ้นอยู่กับการแก้ปัญหาบางอย่าง
  • (ทางเลือก) สร้างความเสถียรของคลัสเตอร์โดยการทำคลัสเตอร์ K-หมายถึง การกำหนดค่าเริ่มต้นถูกกำหนดโดยศูนย์กลางของกลุ่มที่พบในขั้นตอนก่อนหน้า

จากนั้นคุณมีหลายวิธีในการตรวจสอบกลุ่ม (คุณสมบัติตัวแทนส่วนใหญ่บุคคลตัวแทนส่วนใหญ่ ฯลฯ )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.