มีการวิเคราะห์ปัจจัยหรือ PCA สำหรับข้อมูลลำดับหรือข้อมูลไบนารีหรือไม่


28

ฉันเสร็จสิ้นการวิเคราะห์องค์ประกอบหลัก (PCA), การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) และการวิเคราะห์ปัจจัยยืนยัน (CFA), การจัดการข้อมูลด้วยสเกล likert (การตอบสนอง 5 ระดับ: ไม่มี, น้อย, บาง, .. ) อย่างต่อเนื่อง ตัวแปร. จากนั้นใช้ Lavaan ฉันทำซ้ำ CFA ที่กำหนดตัวแปรเป็นหมวดหมู่

ฉันต้องการทราบว่าการวิเคราะห์ประเภทใดที่เหมาะสมและจะเทียบเท่ากับ PCA และ EFA เมื่อข้อมูลมีลำดับตามธรรมชาติ และเมื่อไบนารี

ฉันขอขอบคุณข้อเสนอแนะสำหรับแพ็คเกจหรือซอฟต์แวร์เฉพาะที่สามารถนำไปใช้ในการวิเคราะห์ได้อย่างง่ายดาย

คำตอบ:


38

การวิเคราะห์ PCA แบบดั้งเดิม (เชิงเส้น) และตัวประกอบปัจจัยต้องการข้อมูลระดับสเกล (ช่วงเวลาหรืออัตราส่วน) บ่อยครั้งที่ข้อมูลการจัดอันดับประเภท likert ถูกสันนิษฐานว่าเป็นระดับมาตราส่วนเนื่องจากข้อมูลดังกล่าวง่ายต่อการวิเคราะห์ และการตัดสินใจบางครั้งก็รับประกันทางสถิติโดยเฉพาะอย่างยิ่งเมื่อจำนวนหมวดหมู่ที่สั่งมากกว่า 5 หรือ 6 (แม้ว่าคำถามประเภทข้อมูลและจำนวนระดับสเกลจะแตกต่างกันอย่างมีเหตุผล)

จะเป็นอย่างไรถ้าคุณต้องการที่จะรักษาระดับโพลิโทมัส likert ให้เป็นลำดับ? หรือคุณมีข้อมูลสองขั้ว เป็นไปได้ไหมที่จะทำการวิเคราะห์ปัจจัยเชิงสำรวจหรือ PCA สำหรับพวกมัน?

ขณะนี้มีวิธีการหลักสามวิธีในการดำเนินการ FA (รวมถึง PCA เป็นกรณีพิเศษ) เกี่ยวกับตัวแปรเชิงลำดับหรือตัวแปรไบนารี (อ่านบัญชีนี้เกี่ยวกับกรณีข้อมูลไบนารีและการพิจารณาเกี่ยวกับสิ่งที่อาจทำได้ด้วยมาตราส่วนอันดับ)

  1. วิธีการปรับขนาดที่เหมาะสมที่สุด (ตระกูลของแอปพลิเคชัน ) หรือที่เรียกว่าCategorical PCA (CatPCA) หรือไม่เชิงเส้น FA. ใน CatPCA ตัวแปรลำดับจะถูกเปลี่ยนเป็น monotonically ("เชิงปริมาณ") เป็น "ช่วงเวลา" ที่เป็นพื้นฐานภายใต้วัตถุประสงค์เพื่อเพิ่มความแปรปรวนที่อธิบายโดยจำนวนส่วนประกอบหลักที่เลือกซึ่งดึงมาจากข้อมูลช่วงเวลาเหล่านั้น ซึ่งทำให้วิธีการเปิดเผยเป้าหมาย (แทนที่จะขับเคลื่อนด้วยทฤษฎี) และสิ่งสำคัญในการตัดสินใจเกี่ยวกับจำนวนขององค์ประกอบหลักล่วงหน้า หากต้องการ FA จริงแทนที่จะเป็น PCA จะสามารถดำเนินการเชิงเส้น FA ตามปกติกับตัวแปรที่แปลงแล้วที่ส่งออกจาก CatPCA ด้วยตัวแปรไบนารี CatPCA (regrettably?) จะทำงานในลักษณะของ PCA ปกตินั่นคือราวกับว่าพวกเขาเป็นตัวแปรต่อเนื่อง CatPCA ยอมรับตัวแปรที่ระบุและการผสมประเภทตัวแปรใด ๆ (ดี)

  2. วิธีการตัวแปรอ้างอิงอนุมาน ยังเป็นที่รู้จักกันในนาม PCA / FA ดำเนินการในtetrachoric (สำหรับข้อมูลไบนารี) หรือความสัมพันธ์polychoric (สำหรับข้อมูลลำดับ) การแจกแจงแบบปกติจะถือว่าเป็นตัวแปรต่อเนื่องที่สำคัญ จากนั้น FA แบบคลาสสิกจะถูกนำไปใช้ในการวิเคราะห์ความสัมพันธ์ดังกล่าว วิธีการนี้ช่วยให้สามารถผสมผสานช่วงเวลาอันดับข้อมูลไบนารีได้อย่างง่ายดาย ข้อเสียอย่างหนึ่งของวิธีการนี้คือ - เมื่ออนุมานความสัมพันธ์กัน - มันไม่มีเงื่อนงำในการกระจายตัวแปรหลายตัวแปรพื้นฐาน - สามารถ "เข้าใจ" ที่การแจกแจงตัวแปรส่วนใหญ่ดังนั้นจึงไม่ใช่ข้อมูลเต็ม

  3. ทฤษฎีการตอบสนองข้อสอบ (IRT) บางครั้งเรียกว่าFA logisticหรือการวิเคราะห์ลักษณะแฝง แบบจำลองใกล้เคียงกับไบนารี logit (สำหรับข้อมูลไบนารี) หรือโมเดลอัตราต่อรองบันทึก (สำหรับข้อมูลลำดับ) ถูกนำไปใช้ อัลกอริทึมไม่ได้ผูกติดอยู่กับการย่อยสลายของเมทริกซ์สหสัมพันธ์ดังนั้นมันจึงค่อนข้างห่างจาก FA ดั้งเดิม แต่ก็ยังเป็น FA ที่แท้จริงโดยแท้ "พารามิเตอร์การเลือกปฏิบัติ" สอดคล้องกับการโหลดของ FA อย่างใกล้ชิด แต่ "ความยากลำบาก" แทนที่ความคิดของ "เอกลักษณ์" ของ FA ความเชื่อมั่นที่เหมาะสมของ IRT จะลดลงอย่างรวดเร็วเมื่อจำนวนของปัจจัยเพิ่มขึ้นซึ่งเป็นปัญหาที่เป็นปัญหาของวิธีการนี้ IRT สามารถขยายได้ในแบบของตัวเองเพื่อรวมช่วงเวลาแบบผสม + ไบนารี + อันดับและตัวแปรที่อาจเป็นไปได้

คะแนนปัจจัยในแนวทาง (2) และ (3) นั้นยากที่จะประเมินได้มากกว่าคะแนนปัจจัยใน FA แบบดั้งเดิมหรือในแนวทาง (1) อย่างไรก็ตามมีวิธีการหลายวิธี (วิธีการคาดเดาหรือสูงสุดสูงสุดวิธีการโอกาสสูงสุด ฯลฯ )

สมมติฐานการวิเคราะห์ปัจจัยแบบจำลองส่วนใหญ่นั้นเหมือนกันในสามแนวทางเช่นเดียวกับ FA ดั้งเดิม Approach (1) มีให้ใน R, SPSS, SAS (ในใจของฉัน) แนวทาง (2) และ (3) มีการใช้งานส่วนใหญ่ในแพ็คเกจแฝงตัวแปรพิเศษ - Mplus, LISREL, EQS

  1. วิธีพหุนาม ที่ยังไม่ได้รับการพัฒนาอย่างเต็มที่ ส่วนประกอบหลักสามารถสร้างแบบจำลองเป็นการรวมกันของตัวแปรพหุนาม (การใช้พหุนามเป็นวิธีที่ได้รับความนิยมในการจำลองผลกระทบแบบไม่เชิงเส้นของลำดับเลขถดถอย) นอกจากนี้หมวดหมู่ที่สังเกตได้นั้นสามารถจำลองเป็นอาการที่ไม่ต่อเนื่องของการรวมกันของพหุนามของปัจจัยแฝง

  2. มีสนามเฟื่องฟูของเทคนิคที่ไม่ใช่เชิงเส้นของการลดขนาด; บางคนสามารถนำไปใช้หรือนำไปใช้กับการทำงานกับข้อมูลเด็ดขาด (โดยเฉพาะไบนารีหรือหลังจาก binarizing เป็นชุดข้อมูลกระจัดกระจายมิติสูง)

  3. R

ดูยังอยู่ในนี้ , นี้ , นี้ , นี้ , นี้ , นี้ , นี้ , นี้


3
คำตอบของปรากฏการณ์ สิ่งเดียวที่เพิ่มคือฉันคิดว่าคุณสามารถใช้แพ็คเกจจิตใน R เพื่อใช้แนวทางใน (2) (ดูตัวเลือก "คร" สำหรับฟังก์ชั่นฟะ) และ (3) (ดูฟังก์ชั่น irt.fa และ irt.poly ) ไปยังองศาที่หลากหลายและแพ็คเกจ ltm ยังสามารถใช้เพื่อให้พอดีกับจำนวนของรุ่น IRT
jsakaluk

1
พวกเขาอาจแตกต่างกันดังนั้น ฉันได้ทำการสร้าง / ตรวจสอบสินค้าหลายครั้งโดย "nonlinear FA" (CatPCA-then-EFA) และพบผลลัพธ์ที่ดีกว่าจาก EFA ปกติ (เป็นเส้นตรง) ขั้นตอนที่ฉันนำมาใช้นั้นคล้ายกับ FA ปกติความแตกต่างเพียงอย่างเดียวสำหรับการวิเคราะห์ - ทุกชุดของรายการที่ฉันลองและทุก ๆ ปัจจัยที่ฉันแยกออกมา - ฉันทำ CatPCA จากนั้น (ในตัวแปรเชิงปริมาณ) -EFA pas de deux .
ttnphns

@jsakaluk กว่าคุณมากสำหรับข้อมูล (ฉันไม่ใช่ผู้ใช้ R ดังนั้นรู้ได้ไม่ถึงความสามารถของมันเท่านั้น)
ttnphns

ขอบคุณสำหรับการตอบกลับอย่างละเอียด @ttnphns ฉันได้ใช้เวลาส่วนใหญ่ของวันนี้พยายามที่จะใช้ใน CATPCA SPSS 23. ฉันจัดการเพื่อหาสองบทเรียน (linting & Kooij (2012) และunt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/... ) เลย ไม่สามารถตอบคำถามของฉันได้สองสามข้อ คุณช่วยแนะนำร้านที่ดีสำหรับการตอบคำถามทางเทคนิคได้ไหม? ขอขอบคุณอีกครั้ง.
user116948

1
@ user116948 หากคุณมีปัญหาในการทำความเข้าใจวิธีการทำงานกับมันใน SPSS: ก่อนอื่นให้ค้นหาและอ่านกรณีศึกษา CATPCA ในเมนูย่อย SPSS Case Studies ในเมนูวิธีใช้ ประการที่สองเรียกดูคำถามทั้งหมดเกี่ยวกับ CATPCA ที่ถามไปแล้วในเว็บไซต์นี้ ประการที่สาม: หากคุณยังมีคำถาม - ถามเป็นคำถามใหม่ในเว็บไซต์ ไม่ต้องกังวล: ถ้ามันเป็น "เทคนิคเกินไป" มันอาจถูกถ่ายโอนไปยัง StackOveflow Forth: เลือกชุมชน SPSS เพื่อถามคำถามของคุณ (SPSSXL ดีที่สุด) ขอบคุณคุณ
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.