การวิเคราะห์ PCA แบบดั้งเดิม (เชิงเส้น) และตัวประกอบปัจจัยต้องการข้อมูลระดับสเกล (ช่วงเวลาหรืออัตราส่วน) บ่อยครั้งที่ข้อมูลการจัดอันดับประเภท likert ถูกสันนิษฐานว่าเป็นระดับมาตราส่วนเนื่องจากข้อมูลดังกล่าวง่ายต่อการวิเคราะห์ และการตัดสินใจบางครั้งก็รับประกันทางสถิติโดยเฉพาะอย่างยิ่งเมื่อจำนวนหมวดหมู่ที่สั่งมากกว่า 5 หรือ 6 (แม้ว่าคำถามประเภทข้อมูลและจำนวนระดับสเกลจะแตกต่างกันอย่างมีเหตุผล)
จะเป็นอย่างไรถ้าคุณต้องการที่จะรักษาระดับโพลิโทมัส likert ให้เป็นลำดับ? หรือคุณมีข้อมูลสองขั้ว เป็นไปได้ไหมที่จะทำการวิเคราะห์ปัจจัยเชิงสำรวจหรือ PCA สำหรับพวกมัน?
ขณะนี้มีวิธีการหลักสามวิธีในการดำเนินการ FA (รวมถึง PCA เป็นกรณีพิเศษ) เกี่ยวกับตัวแปรเชิงลำดับหรือตัวแปรไบนารี (อ่านบัญชีนี้เกี่ยวกับกรณีข้อมูลไบนารีและการพิจารณาเกี่ยวกับสิ่งที่อาจทำได้ด้วยมาตราส่วนอันดับ)
วิธีการปรับขนาดที่เหมาะสมที่สุด (ตระกูลของแอปพลิเคชัน ) หรือที่เรียกว่าCategorical PCA (CatPCA) หรือไม่เชิงเส้น FA. ใน CatPCA ตัวแปรลำดับจะถูกเปลี่ยนเป็น monotonically ("เชิงปริมาณ") เป็น "ช่วงเวลา" ที่เป็นพื้นฐานภายใต้วัตถุประสงค์เพื่อเพิ่มความแปรปรวนที่อธิบายโดยจำนวนส่วนประกอบหลักที่เลือกซึ่งดึงมาจากข้อมูลช่วงเวลาเหล่านั้น ซึ่งทำให้วิธีการเปิดเผยเป้าหมาย (แทนที่จะขับเคลื่อนด้วยทฤษฎี) และสิ่งสำคัญในการตัดสินใจเกี่ยวกับจำนวนขององค์ประกอบหลักล่วงหน้า หากต้องการ FA จริงแทนที่จะเป็น PCA จะสามารถดำเนินการเชิงเส้น FA ตามปกติกับตัวแปรที่แปลงแล้วที่ส่งออกจาก CatPCA ด้วยตัวแปรไบนารี CatPCA (regrettably?) จะทำงานในลักษณะของ PCA ปกตินั่นคือราวกับว่าพวกเขาเป็นตัวแปรต่อเนื่อง CatPCA ยอมรับตัวแปรที่ระบุและการผสมประเภทตัวแปรใด ๆ (ดี)
วิธีการตัวแปรอ้างอิงอนุมาน ยังเป็นที่รู้จักกันในนาม PCA / FA ดำเนินการในtetrachoric (สำหรับข้อมูลไบนารี) หรือความสัมพันธ์polychoric (สำหรับข้อมูลลำดับ) การแจกแจงแบบปกติจะถือว่าเป็นตัวแปรต่อเนื่องที่สำคัญ จากนั้น FA แบบคลาสสิกจะถูกนำไปใช้ในการวิเคราะห์ความสัมพันธ์ดังกล่าว วิธีการนี้ช่วยให้สามารถผสมผสานช่วงเวลาอันดับข้อมูลไบนารีได้อย่างง่ายดาย ข้อเสียอย่างหนึ่งของวิธีการนี้คือ - เมื่ออนุมานความสัมพันธ์กัน - มันไม่มีเงื่อนงำในการกระจายตัวแปรหลายตัวแปรพื้นฐาน - สามารถ "เข้าใจ" ที่การแจกแจงตัวแปรส่วนใหญ่ดังนั้นจึงไม่ใช่ข้อมูลเต็ม
ทฤษฎีการตอบสนองข้อสอบ (IRT) บางครั้งเรียกว่าFA logisticหรือการวิเคราะห์ลักษณะแฝง แบบจำลองใกล้เคียงกับไบนารี logit (สำหรับข้อมูลไบนารี) หรือโมเดลอัตราต่อรองบันทึก (สำหรับข้อมูลลำดับ) ถูกนำไปใช้ อัลกอริทึมไม่ได้ผูกติดอยู่กับการย่อยสลายของเมทริกซ์สหสัมพันธ์ดังนั้นมันจึงค่อนข้างห่างจาก FA ดั้งเดิม แต่ก็ยังเป็น FA ที่แท้จริงโดยแท้ "พารามิเตอร์การเลือกปฏิบัติ" สอดคล้องกับการโหลดของ FA อย่างใกล้ชิด แต่ "ความยากลำบาก" แทนที่ความคิดของ "เอกลักษณ์" ของ FA ความเชื่อมั่นที่เหมาะสมของ IRT จะลดลงอย่างรวดเร็วเมื่อจำนวนของปัจจัยเพิ่มขึ้นซึ่งเป็นปัญหาที่เป็นปัญหาของวิธีการนี้ IRT สามารถขยายได้ในแบบของตัวเองเพื่อรวมช่วงเวลาแบบผสม + ไบนารี + อันดับและตัวแปรที่อาจเป็นไปได้
คะแนนปัจจัยในแนวทาง (2) และ (3) นั้นยากที่จะประเมินได้มากกว่าคะแนนปัจจัยใน FA แบบดั้งเดิมหรือในแนวทาง (1) อย่างไรก็ตามมีวิธีการหลายวิธี (วิธีการคาดเดาหรือสูงสุดสูงสุดวิธีการโอกาสสูงสุด ฯลฯ )
สมมติฐานการวิเคราะห์ปัจจัยแบบจำลองส่วนใหญ่นั้นเหมือนกันในสามแนวทางเช่นเดียวกับ FA ดั้งเดิม Approach (1) มีให้ใน R, SPSS, SAS (ในใจของฉัน) แนวทาง (2) และ (3) มีการใช้งานส่วนใหญ่ในแพ็คเกจแฝงตัวแปรพิเศษ - Mplus, LISREL, EQS
วิธีพหุนาม ที่ยังไม่ได้รับการพัฒนาอย่างเต็มที่ ส่วนประกอบหลักสามารถสร้างแบบจำลองเป็นการรวมกันของตัวแปรพหุนาม (การใช้พหุนามเป็นวิธีที่ได้รับความนิยมในการจำลองผลกระทบแบบไม่เชิงเส้นของลำดับเลขถดถอย) นอกจากนี้หมวดหมู่ที่สังเกตได้นั้นสามารถจำลองเป็นอาการที่ไม่ต่อเนื่องของการรวมกันของพหุนามของปัจจัยแฝง
มีสนามเฟื่องฟูของเทคนิคที่ไม่ใช่เชิงเส้นของการลดขนาด; บางคนสามารถนำไปใช้หรือนำไปใช้กับการทำงานกับข้อมูลเด็ดขาด (โดยเฉพาะไบนารีหรือหลังจาก binarizing เป็นชุดข้อมูลกระจัดกระจายมิติสูง)
R
ดูยังอยู่ในนี้ , นี้ , นี้ , นี้ , นี้ , นี้ , นี้ , นี้