ฉันสามารถใช้ PCA เพื่อทำการเลือกตัวแปรสำหรับการวิเคราะห์กลุ่มได้หรือไม่


12

ฉันต้องลดจำนวนของตัวแปรเพื่อดำเนินการวิเคราะห์กลุ่ม ตัวแปรของฉันมีความสัมพันธ์อย่างมากดังนั้นฉันจึงคิดว่าจะทำการวิเคราะห์ปัจจัย PCA (การวิเคราะห์องค์ประกอบหลัก) อย่างไรก็ตามถ้าฉันใช้คะแนนผลลัพธ์กลุ่มของฉันไม่ถูกต้อง (เทียบกับการจำแนกประเภทก่อนหน้านี้ในวรรณคดี)

คำถาม:

ฉันสามารถใช้เมทริกซ์การหมุนเพื่อเลือกตัวแปรที่มีโหลดมากที่สุดสำหรับแต่ละส่วนประกอบ / ตัวประกอบและใช้เฉพาะตัวแปรเหล่านี้สำหรับการจัดกลุ่มของฉันได้หรือไม่

การอ้างอิงบรรณานุกรมใด ๆ ก็จะมีประโยชน์เช่นกัน

ปรับปรุง:

clarifiations บาง:

  • เป้าหมายของฉัน: ฉันต้องเรียกใช้การวิเคราะห์กลุ่มด้วยอัลกอริทึมแบบสองขั้นตอนโดย SPSS แต่ตัวแปรของฉันไม่ได้เป็นอิสระดังนั้นฉันจึงคิดถึงการทิ้งบางอย่าง

  • ชุดข้อมูลของฉัน: ฉันทำงานกับพารามิเตอร์สเกลาร์ 15 รายการ (ตัวแปรของฉัน) จำนวน 100,000 ราย ตัวแปรบางตัวมีความสัมพันธ์กันอย่างมาก ( Pearson)>0.9

  • ข้อสงสัยของฉัน: เนื่องจากฉันต้องการเพียงตัวแปรอิสระฉันจึงคิดว่าจะทำการวิเคราะห์องค์ประกอบหลัก (ขออภัย: ฉันพูดถึงการวิเคราะห์ปัจจัยในคำถามเดิมของฉันผิดพลาด) และเลือกเฉพาะตัวแปรที่มีการโหลดมากที่สุดสำหรับแต่ละองค์ประกอบ ฉันรู้ว่ากระบวนการ PCA นำเสนอบางขั้นตอนโดยพลการ แต่ฉันพบว่าการเลือกนี้คล้ายกับ " วิธี B4 " ที่เสนอโดย IT Jolliffe (1972 & 2002) เพื่อเลือกตัวแปรและแนะนำโดย JR King & DA Jackson ในปี 1999 .

    ดังนั้นฉันจึงคิดที่จะเลือกด้วยวิธีนี้บางกลุ่มย่อยของตัวแปรอิสระ ฉันจะใช้กลุ่มเพื่อเรียกใช้การวิเคราะห์คลัสเตอร์ที่แตกต่างกันและฉันจะเปรียบเทียบผลลัพธ์


1
ถ้าคุณรู้คำตอบที่ถูกต้องทำไมการวิเคราะห์เลย?
StasK

1
ในบันทึกอื่นคุณคิดว่าเหตุใดคุณจึงต้องลดจำนวนตัวแปรสำหรับการวิเคราะห์กลุ่ม ฉันไม่คิดว่าเครื่องมือสมัยใหม่ในการวิเคราะห์คลัสเตอร์มีข้อ จำกัด ใด ๆ เกี่ยวกับจำนวนตัวแปรอินพุต แน่นอนว่าถ้าคุณมีข้อสอบ 120 ข้อสิ่งต่างๆจะซับซ้อนขึ้น
StasK


สำหรับฉันแล้วดูเหมือนว่าการเพิ่มการวิเคราะห์กลุ่มของ Q นี้ทำให้มันแตกต่างพอที่จะเปิดอยู่
gung - Reinstate Monica

คุณดูเหมือนจะใช้เกณฑ์ที่เข้มงวดกับการซ้ำซ้อนกับฉัน @gung; บางทีคุณอาจจะถูก (และการลงคะแนนก็ไม่ได้ดีเช่นกัน) อย่างไรก็ตามในกรณีนี้ OP ได้ถามเกี่ยวกับการเลือกคุณสมบัติที่ใช้ PCA ที่ง่ายที่สุด (ดังที่อธิบายไว้ในการอัพเดทของเขา) ซึ่งครอบคลุมในเธรดที่ฉันแนะนำ ในทางกลับกัน StasK โพสต์ที่นี่คำตอบที่น่าสนใจที่เฉพาะเจาะจงเกี่ยวกับการจัดกลุ่ม ...
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


7

ฉันจะทำตามขั้นตอนของฉันตามขั้นตอนและถามว่าคุณพยายามทำอะไร การวิเคราะห์ปัจจัยถูกออกแบบมาเพื่อค้นหาตัวแปรแฝง หากคุณต้องการค้นหาตัวแปรแฝงและจัดกลุ่มสิ่งเหล่านั้นสิ่งที่คุณกำลังทำนั้นถูกต้อง แต่คุณบอกว่าคุณเพียงต้องการลดจำนวนของตัวแปร - ที่แนะนำการวิเคราะห์องค์ประกอบหลักแทน

อย่างไรก็ตามด้วยสิ่งใดสิ่งหนึ่งคุณต้องตีความการวิเคราะห์กลุ่มบนตัวแปรใหม่และตัวแปรใหม่เหล่านั้นเป็นเพียงผลรวมถ่วงน้ำหนักของตัวแปรเก่า

คุณมีตัวแปรกี่ตัว? พวกเขามีความสัมพันธ์กันอย่างไร? หากมีจำนวนมากเกินไปและพวกมันมีความสัมพันธ์กันอย่างมากคุณสามารถมองหาความสัมพันธ์ทั้งหมดด้วยจำนวนที่สูงมากและสุ่มลบตัวแปรหนึ่งตัวออกจากแต่ละคู่ สิ่งนี้จะช่วยลดจำนวนของตัวแปรและปล่อยตัวแปรตามที่

ฉันขอสะท้อน @StasK เกี่ยวกับความจำเป็นในการทำเช่นนี้และ @ rolando2 เกี่ยวกับประโยชน์ของการค้นหาสิ่งที่แตกต่างจากที่เคยพบมาก่อน ในฐานะศาสตราจารย์คนโปรดของฉันในโรงเรียนระดับบัณฑิตเคยพูดว่า "ถ้าคุณไม่แปลกใจคุณก็ไม่ได้เรียนรู้อะไรเลย"


1
ก่อนอื่นฉันขอโทษ: ฉันหมายถึงการวิเคราะห์องค์ประกอบหลักไม่ใช่การวิเคราะห์ปัจจัยความผิดพลาดของฉัน ยิ่งกว่านั้นฉันกำลังมองหาวิธีที่จะไม่เลือกแม่มดที่เกี่ยวข้องโดยพลการตัวแปรที่ฉันจะเก็บไว้ ฉันเพิ่มข้อมูลเพิ่มเติมเกี่ยวกับปัญหาข้างต้น .. ขอบคุณอีกครั้ง
en

5

วิธีการวิเคราะห์ปัจจัยและการวิเคราะห์คลัสเตอร์ในเวลาเดียวกันคือผ่านตัวแบบผสมของสมการโครงสร้าง ในโมเดลเหล่านี้คุณยืนยันว่ามีโมเดลแยกกัน (ในกรณีนี้คือโมเดลแฟกเตอร์) สำหรับแต่ละคลัสเตอร์ คุณจะต้องมีการวิเคราะห์ค่าเฉลี่ยพร้อมกับการวิเคราะห์ความแปรปรวนร่วมและเกี่ยวข้องกับการระบุตัวตนในระดับที่สูงกว่าในการวิเคราะห์ปัจจัยวานิลลาธรรมดา แนวคิดที่มาจากด้าน SEM ปรากฏในJedidi และ อัล (1997)และจากการจัดกลุ่มด้านในการจัดกลุ่มแบบที่ใช้โดยเอเดรีย Raftery ประเภทของการวิเคราะห์นี้เป็นที่เห็นได้ชัดที่มีอยู่ในMplus


1
ขอบคุณสำหรับข้อมูลที่นำมาใช้เป็นพิเศษสำหรับการอ้างอิง แต่ฉันอ้างถึงการวิเคราะห์ปัจจัยอย่างผิดพลาด: ฉันคิดเกี่ยวกับองค์ประกอบหลักเพื่อลดตัวแปรที่ตั้งไว้เป็นกลุ่มย่อยของตัวแปรอิสระ ความผิดพลาดของฉัน
en

2

ฉันไม่คิดว่ามันเป็นเรื่องของ "ความถูกต้อง" ที่บริสุทธิ์และเรียบง่าย แต่ไม่ว่ามันจะสำเร็จในสิ่งที่คุณต้องการทำหรือไม่ วิธีที่คุณอธิบายจะจบลงด้วยการจัดกลุ่มตามปัจจัยบางอย่างในแบบที่ถูกทำให้เปียกลงเนื่องจากคุณจะใช้ตัวบ่งชี้เพียงตัวเดียวเพื่อแสดงถึงแต่ละปัจจัย แต่ละตัวบ่งชี้ดังกล่าวเป็นตัวเลขที่ไม่สมบูรณ์สำหรับปัจจัยพื้นฐานแฝง นั่นเป็นปัญหาหนึ่ง

อีกประเด็นคือการวิเคราะห์ปัจจัยที่ตัวเอง (และคนอื่น ๆ ) เล่าขานกันเต็มไปด้วยการตัดสินใจแบบอัตนัยที่เกี่ยวข้องกับวิธีการจัดการกับข้อมูลที่ขาดหายไปจำนวนของปัจจัยที่จะแยกวิธีการแยกว่าจะหมุนอย่างไรและอย่างไร บน. ดังนั้นจึงอาจไม่ชัดเจนว่าปัจจัยที่คุณแยกออกมาอย่างรวดเร็วและเป็นค่าเริ่มต้นของซอฟต์แวร์ (อย่างที่ฉันคิดว่าคุณบอกเป็นนัย) เป็น "ดีที่สุด" ไม่ว่าในกรณีใด

โดยรวมแล้วคุณอาจใช้ปัจจัยในเวอร์ชันที่ถูกน้ำทิ้งซึ่งพวกเขาถกเถียงกันว่าเป็นวิธีที่ดีที่สุดในการอธิบายลักษณะของธีมที่อยู่ภายใต้ข้อมูลของคุณ ฉันไม่คาดหวังว่ากลุ่มที่เป็นผลมาจากตัวแปรอินพุตนั้นจะให้ข้อมูลมากที่สุดหรือแตกต่างกันมากที่สุด

ในบันทึกอื่น ๆ ดูเหมือนว่าน่าสนใจที่คุณพิจารณาว่าเป็นปัญหาในการมีสมาชิกภาพ / โปรไฟล์คลัสเตอร์ที่ไม่สอดคล้องกับสิ่งที่นักวิจัยคนอื่น ๆ พบ บางครั้งการค้นพบที่ไม่ยืนยันอาจมีประโยชน์มาก!


ขอบคุณมากผมได้เพิ่มข้อมูลเพิ่มเติมดังกล่าวข้างต้นในการระบุข้อสงสัยของฉัน
en

0

สิ่งที่อาจเกิดขึ้นในกรณีของคุณคือปัจจัยที่แยกในการวิเคราะห์ปัจจัยมีการชดเชยโหลดบวกและลบจากตัวแปรดั้งเดิม สิ่งนี้จะลดความแตกต่างที่เป็นจุดประสงค์ของการรวมกลุ่ม

คุณสามารถแยกแต่ละปัจจัยที่แยกออกมาเป็น 2 - อันที่มีเพียงการโหลดเชิงบวกและอีกตัวที่เป็นการลบเชิงลบ?

แทนที่คะแนนปัจจัยสำหรับแต่ละกรณีสำหรับแต่ละปัจจัยด้วยคะแนนบวกและคะแนนลบและลองจัดกลุ่มกับคะแนนชุดใหม่นี้

กรุณาทิ้งในบรรทัดถ้ามันเหมาะกับคุณ


0

คุณสามารถสแกนทั้งค่าสูงและค่าต่ำและปล่อยตัวแปรทั้งหมดในปัจจัย ด้วยวิธีนี้ไม่จำเป็นต้องตัดปัจจัย หากคุณแยกตัวประกอบที่ 1 (พูด) วิธีใดวิธีหนึ่งตามสัญญาณของการโหลดในปัจจัยที่ 2 สัญญาณอาจแตกต่างกันมาก คุณจะลดทอน Factor 2 แตกต่างจาก Factor 1 ไหม ดูเหมือนว่าจะสับสน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.