ทำการวิเคราะห์องค์ประกอบหลักหรือการวิเคราะห์ปัจจัยกับข้อมูลไบนารี

ฉันมีชุดข้อมูลที่มีคำตอบใช่ / ไม่ใช่จำนวนมาก ฉันสามารถใช้ส่วนประกอบหลัก (PCA) หรือการวิเคราะห์การลดข้อมูลอื่น ๆ (เช่นการวิเคราะห์ปัจจัย) สำหรับข้อมูลประเภทนี้ได้หรือไม่ โปรดแนะนำวิธีการใช้ SPSS

— เคธี่
แหล่งที่มา

อะไรทำให้คุณคิดว่า PCA โดยเฉพาะเมื่อเทียบกับการวิเคราะห์ที่เลือกปฏิบัติ

— Chris Simokat

ดูเพิ่มเติมที่: stats.stackexchange.com/a/186026/3277

— ttnphns

คำถามของตัวแปร dichotomous หรือเลขฐานสองในการวิเคราะห์ PCA หรือตัวประกอบคือนิรันดร์ มีความคิดเห็นเชิงขั้วจาก "มันผิดกฎหมาย" ถึง "ไม่เป็นไร" ผ่านบางอย่างเช่น "คุณอาจทำ แต่คุณจะได้รับปัจจัยมากเกินไป" ความเห็นปัจจุบันของฉันเองมีดังนี้ อันดับแรกฉันคิดว่าตัวแปรที่สังเกตได้ของไบนารีนั้นสืบทอดมาและมันไม่เหมาะสมที่จะปฏิบัติต่อมันในทางใดทางหนึ่งอย่างต่อเนื่อง ตัวแปรที่ไม่ต่อเนื่องนี้สามารถก่อให้เกิดปัจจัยหรือองค์ประกอบหลักหรือไม่

การวิเคราะห์ปัจจัย (FA) แฟกเตอร์ตามคำนิยามคือเวลาแฝงอย่างต่อเนื่องที่โหลดตัวแปรที่สังเกตได้ ( 1 , 2 ) ดังนั้นหลังไม่สามารถ แต่ต่อเนื่อง (หรือช่วงเวลาที่พูดจริงมากขึ้น) เมื่อโหลดเพียงพอโดยปัจจัย ยิ่งไปกว่านั้น FA เนื่องจากลักษณะการถดถอยเชิงเส้นสันนิษฐานว่าส่วนที่เหลือ - ไม่โหลด - ส่วนที่เรียกว่า uniqness มีความต่อเนื่องเช่นกันและดังนั้นจึงควรสังเกตตัวแปรที่สามารถสังเกตได้อย่างต่อเนื่องแม้โหลดเพียงเล็กน้อย ดังนั้นตัวแปรไบนารี ไม่สามารถออกกฎหมายใน FA. อย่างไรก็ตามมีรอบอย่างน้อยสองวิธี: (A) สมมติว่ามีการแบ่งขั้วที่หยาบอย่างต่อเนื่องตัวแปรพื้นฐานและทำ FA กับ tetrachoric - มากกว่าเพียร์สัน - สหสัมพันธ์; (B) สมมติว่าปัจจัยโหลดตัวแปร dichotomous ไม่ใช่แบบเส้นตรง แต่เป็นแบบลอจิสติกและทำการวิเคราะห์ลักษณะแฝง (aka Item Item Theoryoryory) แทน Linear FA อ่านเพิ่มเติม
การวิเคราะห์องค์ประกอบหลัก (PCA) ในขณะที่มีมากเหมือนกันกับ FA, PCA ไม่ได้เป็นแบบจำลอง แต่เป็นเพียงวิธีการสรุป ส่วนประกอบไม่โหลดตัวแปรในแง่ความคิดเดียวกันกับปัจจัยโหลดตัวแปร ใน PCA หมายถึงโหลดตัวแปรของคอมโพเนนต์และ ตัวแปรโหลดคอมโพเนนต์ สมมาตรนี้เป็นเพราะ PCA ต่อ se เป็นเพียงการหมุนของตัวแปร - แกนในอวกาศ ตัวแปรไบนารีจะไม่ให้ความต่อเนื่องที่แท้จริงสำหรับองค์ประกอบด้วยองค์ประกอบของตัวเอง - เนื่องจากไม่ได้ต่อเนื่อง แต่ pseudocontinuity สามารถให้ได้ในมุมของการหมุน PCA ซึ่งสามารถปรากฏขึ้นได้ ดังนั้นใน PCA และตรงกันข้ามกับ FA คุณสามารถดูมิติที่ต่อเนื่อง (แกนหมุน) ด้วยตัวแปรไบนารีล้วนๆ (แกนที่ไม่ได้หมุน) - มุมคือสาเหตุของความต่อเนื่อง $^1$ .

มันเป็นที่ถกเถียงกันว่ามันถูกกฎหมายในการคำนวณค่าเฉลี่ยสำหรับตัวแปรไบนารีหรือไม่ โดยทั่วไปแล้ว PCA จะดำเนินการกับความแปรปรวนร่วมหรือความสัมพันธ์ซึ่งหมายถึงการวางจุดหมุนของการหมุน PCA ใน (1) centroid (ค่าเฉลี่ยเลขคณิต) สำหรับข้อมูลไบนารีมันทำให้รู้สึกที่จะต้องพิจารณานอกเหนือจากที่อื่น ๆ และเป็นธรรมชาติมากขึ้นสำหรับสถานที่ข้อมูลไบนารีจุดเช่นเดือยหรือต้นกำเนิด: (2) จุดใดแอตทริบิวต์(0,0)(ถ้าคุณปฏิบัติต่อตัวแปรของคุณเป็น"ลำดับ" ไบนารี ), ( 3) จุด L1 หรือแมนฮัตตันกลาง (4) จุดโหมดหลายตัวแปร $^2$ .

บางคำถามที่เกี่ยวข้องเกี่ยวกับเอฟเอหรือ PCA ข้อมูลไบนารี: 1 , 2 , 3 , 4 , 5 , 6 คำตอบที่นั่นอาจแสดงความคิดเห็นที่แตกต่างจากของฉัน

$^1$ คะแนนคอมโพเนนต์ที่คำนวณใน PCA ของข้อมูลไบนารีเช่นคะแนนวัตถุที่คำนวณใน MCA (การวิเคราะห์การติดต่อหลายรายการ) ของข้อมูลที่ระบุเป็นเพียงเศษส่วนสำหรับพิกัดข้อมูลเม็ดในการทำแผนที่อวกาศแบบยุคลิดแบบเรียบ: สิ่งเหล่านี้ไม่อนุญาตให้เราสรุปได้ว่า ได้รับการวัดระดับของแท้ผ่าน PCA ธรรมดา ในการมีค่ามาตราส่วนอย่างแท้จริงตัวแปรจะต้องปรับขนาดจากจุดเริ่มต้นที่อินพุตหรือต้องถูกกำหนดปริมาณพิเศษหรือสันนิษฐานว่ามีการโค้ง ( ดู ) แต่ใน PCA หรือ MCA แบบคลาสสิกห้องสำหรับ "ความต่อเนื่อง" จะปรากฏในภายหลังในระดับของสถิติสรุป (เช่นการเชื่อมโยงหรือเมทริกซ์ความถี่) เนื่องจากความสามารถในการนับนั้นคล้ายกับความสามารถในการวัดทั้งสองคือ "เชิงปริมาณ" และสำหรับสิ่งนั้นหน่วยงานระดับ - สำหรับตัวแปรเป็นจุดหรือหมวดหมู่เป็นจุด - พิกัดของพวกเขาในแกนหลัก พื้นที่มีการปรับขนาดตามกฎหมายอย่างถูกต้อง แต่ไม่ใช่สำหรับจุดข้อมูล (กรณีข้อมูล) ของข้อมูลไบนารี - "คะแนน" ของพวกเขาคือหลอกค่าต่อเนื่อง : ไม่ใช่การวัดที่แท้จริงเพียงพิกัดซ้อนทับบางอย่าง

$^2$ การสาธิต PCA รุ่นต่างๆพร้อมข้อมูลไบนารี่โดยขึ้นอยู่กับตำแหน่งของต้นกำเนิดของการหมุน Linear PCA สามารถนำไปใช้กับเมทริกซ์ความสัมพันธ์SSCP ชนิดใดก็ได้ มันเป็นตัวเลือกของคุณที่จะให้กำเนิดและปรับขนาด (องค์ประกอบของเมทริกซ์ทแยงมุม) ให้มีค่าเท่ากัน (พูด $1$ ) หรือไม่. PCA ถือว่าเมทริกซ์เป็นประเภท SSCP และขยายให้ใหญ่สุดโดยองค์ประกอบหลักเบี่ยงเบน SS จากแหล่งกำเนิดเบี่ยงเบนเอสเอสจากแหล่งกำเนิดแน่นอนว่าสำหรับข้อมูลไบนารี่ (ซึ่งถูกล้อมรอบ) เอสเอสเบี่ยงเบนขึ้นอยู่กับความถี่ที่สังเกตในทิศทางนี้หรือทิศทางนั้นนอกเหนือจากที่มา; แต่ก็ยังขึ้นอยู่กับตำแหน่งที่เราค้นหาต้นกำเนิด

ตัวอย่างของข้อมูลไบนารี่ (เป็นเพียงกรณีง่ายๆของตัวแปรสองตัว):

Scatterplots ใต้จอแสดงผลจุดข้อมูลบิต jittered (การแสดงผลความถี่) และแสดงแกนองค์ประกอบหลักเป็นเส้นทแยงมุมแบกคะแนนองค์ประกอบที่พวกเขา [คะแนนเหล่านั้นตามคำเรียกร้องของฉันหลอกค่าอย่างต่อเนื่อง] พล็อตด้านซ้ายของภาพทุกภาพแสดงให้เห็นถึง PCA โดยยึดตามการเบี่ยงเบน "ดิบ" จากแหล่งกำเนิดในขณะที่พล็อตที่ถูกต้องแสดงให้เห็นถึง PCA ตามส่วนเบี่ยงเบนจากขนาด

1) PCA ดั้งเดิมกำหนด(0,0)จุดเริ่มต้นเป็นค่าเฉลี่ยของข้อมูล (centroid) สำหรับข้อมูลไบนารีหมายความว่าไม่ใช่ค่าข้อมูลที่เป็นไปได้ อย่างไรก็ตามมันเป็นศูนย์กลางทางกายภาพของแรงโน้มถ่วง PCA เพิ่มความแปรปรวนให้สูงสุด

(อย่าลืมเช่นกันว่าในค่าเฉลี่ยและความแปรปรวนแบบไบนารีนั้นมีการเชื่อมโยงกันอย่างเคร่งครัดพวกเขาจึงพูด "สิ่งเดียว" การกำหนดมาตรฐาน / การปรับขนาดตัวแปรไบนารีนั่นคือการทำ PCA ตามความสัมพันธ์ที่ไม่แปรปรวนร่วมใน อินสแตนซ์ปัจจุบันจะหมายความว่าคุณขัดขวางตัวแปรที่มีความสมดุลมากขึ้น - มีความแปรปรวนมากขึ้น - เพื่อให้ PCA มีค่ามากกว่าตัวแปรที่เอียงมากกว่า)

2) คุณอาจจะทำ PCA ในข้อมูล noncentered คือให้กำเนิดการเดินทางไปยังสถานที่(0,0) (0,0)มันเป็น PCA บน MSCP ( X'X/n) เมทริกซ์หรือเมทริกซ์ความเหมือนโคไซน์ PCA เพิ่มความสามารถในการป้องกันสูงสุดจากสถานะไม่มีแอ็ตทริบิวต์

3) คุณอาจปล่อยให้จุดกำเนิด(0,0)อยู่ที่จุดข้อมูลของผลรวมระยะทางที่เล็กที่สุดของแมนฮัตตันจากจุดนั้นไปยังจุดข้อมูลอื่น ๆ - L1 medoid โดยทั่วไปแล้ว Medoid นั้นเป็นจุดข้อมูล "ตัวแทน" หรือ "ทั่วไป" ที่สุด ดังนั้น PCA จะเพิ่มความผิดปกติสูงสุด (นอกเหนือจากความถี่) ในข้อมูลของเรา L1 medoid ลดลงตาม(1,0)พิกัดดั้งเดิม

4) หรือใส่จุดกำเนิด(0,0)ที่พิกัดข้อมูลซึ่งความถี่เป็นโหมดที่มีหลายตัวแปรมากที่สุด มันเป็น(1,1)เซลล์ข้อมูลในตัวอย่างของเรา PCA จะเพิ่ม (ถูกขับเคลื่อนด้วย) โหมดจูเนียร์

5) ในเนื้อความของคำตอบมันถูกกล่าวถึงว่าสหสัมพันธ์ tetrachoric เป็นเรื่องเสียงเพื่อทำการวิเคราะห์ปัจจัยสำหรับตัวแปรไบนารี อาจกล่าวได้เหมือนกันเกี่ยวกับ PCA: คุณสามารถทำ PCA ตามความสัมพันธ์tetrachoric อย่างไรก็ตามนั่นหมายความว่าคุณกำลังสมมติตัวแปรพื้นฐานต่อเนื่องภายในตัวแปรไบนารี

— ttnphns
แหล่งที่มา

เกี่ยวกับการเชื่อมต่อระหว่างเอฟเอในรายการไบนารีและรุ่น IRT (1- 2-PL) นี่เป็นบทความที่สองที่อาจจะน่าสนใจ: Takane & เดอ Leeuw, เกี่ยวกับความสัมพันธ์ระหว่างทฤษฎีการตอบสนองข้อสอบและการวิเคราะห์ปัจจัยของตัวแปร discretized , Psychometrika ( 1987) 52 (3): 393; และอีกอันหนึ่งคือ Kamata & Bauer, หมายเหตุเกี่ยวกับความสัมพันธ์ระหว่างการวิเคราะห์ปัจจัยและแบบจำลองทฤษฎีการตอบสนองรายการ , SEM (2008) 15: 136

— chl