การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานของตัวแปรแบบต่อเนื่องและหมวดหมู่ได้หรือไม่?


147

ฉันมีชุดข้อมูลที่มีทั้งข้อมูลแบบต่อเนื่องและหมวดหมู่ ฉันกำลังวิเคราะห์โดยใช้ PCA และฉันสงสัยว่ามันดีที่จะรวมตัวแปรเด็ดขาดเป็นส่วนหนึ่งของการวิเคราะห์ ความเข้าใจของฉันคือ PCA สามารถใช้ได้กับตัวแปรต่อเนื่องเท่านั้น ถูกต้องไหม หากไม่สามารถใช้กับข้อมูลที่เป็นหมวดหมู่ได้มีทางเลือกอะไรบ้างในการวิเคราะห์?



มีการอภิปรายเกี่ยวกับ ResearchGate: researchgate.net/post/Should_I_use_PCA_with_categorical_data
GoingMyWay

คำตอบ:


87

แม้ว่า PCA ที่ใช้กับข้อมูลไบนารีจะให้ผลลัพธ์ที่เปรียบเทียบกับที่ได้จากการวิเคราะห์สารบรรณหลายรายการ (คะแนนปัจจัยและค่าลักษณะเฉพาะมีความสัมพันธ์เชิงเส้น) แต่มีเทคนิคที่เหมาะสมกว่าในการจัดการกับชนิดข้อมูลแบบผสมคือการวิเคราะห์ปัจจัยหลายประการFactoMineRแพคเกจ R ( AFDM()) หากตัวแปรของคุณถือได้ว่าเป็นชุดย่อยที่มีโครงสร้างของแอตทริบิวต์อธิบายการวิเคราะห์ปัจจัยหลายตัว ( MFA()) ก็เป็นตัวเลือกเช่นกัน

ความท้าทายกับตัวแปรเด็ดขาดคือการหาวิธีที่เหมาะสมในการแสดงระยะทางระหว่างหมวดหมู่ตัวแปรและบุคคลในพื้นที่แฟคทอเรียล เพื่อที่จะเอาชนะปัญหานี้คุณสามารถมองหาการเปลี่ยนแปลงแบบไม่เชิงเส้นของตัวแปรแต่ละตัวไม่ว่าจะเป็นแบบตามลำดับลำดับเชิงนามพหุนามหรือตัวเลข - ด้วยการปรับสเกลที่เหมาะสมที่สุด นี้จะอธิบายได้ดีในวิธี GIFI สำหรับการปรับขนาดที่เหมาะสมที่สุดใน R: แพคเกจ homalsและการดำเนินงานที่มีอยู่ในแพคเกจที่สอดคล้อง R homals


2
chl ขอบคุณสำหรับตัวชี้ไปที่ FADM ฉันสงสัยว่า: เมื่อฉันใช้ FADM กับชุดข้อมูล (obj <- FADM (x)) ฉันสามารถเข้าถึงชุดข้อมูลที่แปลงแล้วได้อย่างง่ายดายผ่าน: obj $ ind $ coord อย่างไรก็ตามหากฉันต้องการใช้การแปลงเดียวกันกับชุดข้อมูลอื่นฉันจะทำอย่างไร (นี่เป็นสิ่งจำเป็นเช่นถ้าฉันมีชุดรถไฟและฉันพบ "ส่วนประกอบหลัก" จากชุดรถไฟนี้แล้วต้องการดูชุดทดสอบผ่าน "องค์ประกอบหลัก" เหล่านั้น) เอกสารไม่ชัดเจนเกี่ยวกับเรื่องนี้และกระดาษที่ใช้ฟังก์ชั่นนี้เป็นภาษาฝรั่งเศส
casandra

เกี่ยวกับ: Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysisเราไม่สามารถแปลงตัวแปรหมวดหมู่ที่ระบุ (สมมติว่ามี cardinality N) เป็นคอลเลกชันของหุ่นจำลอง (N-1) จากนั้นทำการ PCA กับข้อมูลนี้ได้หรือไม่? (ผมเข้าใจว่ามีเทคนิคที่เหมาะสมมากขึ้น)
Zhubarb

31

การค้นหาของ Google "pca สำหรับตัวแปรแยก" ให้ภาพรวมที่ดีนี้โดย S. Kolenikov (@StasK) และ G. Angeles เพื่อเพิ่มคำตอบ chl การวิเคราะห์พีซีเป็นการวิเคราะห์ eigenvectors ของเมทริกซ์ความแปรปรวนร่วม ดังนั้นปัญหาคือวิธีการคำนวณเมทริกซ์ความแปรปรวนร่วมที่ "ถูกต้อง" หนึ่งในวิธีคือการใช้ ความสัมพันธ์ polychoric


(+1) ขอบคุณสำหรับลิงค์นอกจากนี้ยังเป็นไปได้ที่จะพิจารณาเมทริกซ์สหสัมพันธ์ที่ต่างกัน (ดูเช่นhetcor()จากแพ็คเกจpolycor ) หาก VC matrix เป็น SDP ก็ควรจะทำงาน - ส่วนใหญ่อยู่ในจิตวิญญาณของการวิเคราะห์ปัจจัย ตัวแปรที่กำหนดอาจเป็นรหัสจำลอง
chl

@StasK, รุ่งโรจน์ :) ดูเหมือนว่าไม่เพียง แต่ฉันจะพบว่าการพูดคุยนี้มีประโยชน์ไม่เช่นนั้นมันจะไม่อยู่ในอันดับต้น ๆ ในการค้นหา gooogle คำถามนี้จะปรากฏขึ้นเป็นครั้งคราวดังนั้นคุณอาจต้องการโพสต์บล็อกเกี่ยวกับบล็อกนี้สำหรับบล็อกชุมชนของเรา
mpiktas

@StasK ฉันได้แก้ไขโพสต์เพื่อพูดถึงผู้แต่งของภาพรวม ความตั้งใจเริ่มต้นของฉันคือการแสดงให้เห็นว่าการค้นหาบน Google สามารถสร้างคำตอบที่ดีได้ดังนั้นจึงไม่จำเป็นต้องถามอย่างชัดเจนที่นี่ แต่นี่ไม่ใช่ข้ออ้างที่จะไม่กล่าวถึงผู้เขียนเนื่องจากความผันผวนของอินเทอร์เน็ต
mpiktas

1
@mpiktas ขอบคุณ มีบทความจริงที่มุ่งเป้าไปที่นักเศรษฐศาสตร์ที่ผลิตจากงานนี้: dx.doi.org/10.1111/j.1475-4991.2008.00309.xแม้ว่าบรรณาธิการขอให้เราตัดสิ่งต่าง ๆ ออกไปมาก ข้อมูลและอ้างอิงหนึ่งที่เผยแพร่
StasK

9

ฉันอยากจะแนะนำให้ดูที่ Linting & Kooij, 2012 " การวิเคราะห์องค์ประกอบที่ไม่ใช่เชิงเส้นที่ไม่ใช่เชิงเส้นด้วย CATPCA: a tutorial ", วารสารการประเมินบุคลิกภาพ ; 94 (1)

บทคัดย่อ

บทความนี้จัดทำขึ้นเป็นบทช่วยสอนสำหรับการวิเคราะห์องค์ประกอบที่ไม่เชิงเส้น (NLPCA) ซึ่งจะนำผู้อ่านผ่านกระบวนการวิเคราะห์ข้อมูลจริงเกี่ยวกับการประเมินบุคลิกภาพโดยการทดสอบ Rorschach Inkblot NLPCA เป็นทางเลือกที่ยืดหยุ่นมากขึ้นสำหรับ linear PCA ที่สามารถจัดการการวิเคราะห์ตัวแปรที่เกี่ยวข้องแบบไม่เชิงเส้นกับระดับการวัดประเภทต่างๆ วิธีการนี้เหมาะสมอย่างยิ่งในการวิเคราะห์ข้อมูล (เชิงคุณภาพ) และลำดับ (เช่น Likert-type) ข้อมูลซึ่งอาจรวมกับข้อมูลตัวเลข โปรแกรม CATPCA จากโมดูลหมวดหมู่ใน SPSS ใช้ในการวิเคราะห์ แต่คำอธิบายวิธีการสามารถนำไปใช้กับแพคเกจซอฟต์แวร์อื่น ๆ ได้อย่างง่ายดาย


4

ฉันยังไม่ได้รับสิทธิพิเศษในการแสดงความคิดเห็นในโพสต์ของใครบางคนดังนั้นฉันจึงเพิ่มความคิดเห็นของฉันเป็นคำตอบแยกต่างหากดังนั้นโปรดอดทนด้วย

ต่อจากสิ่งที่ @Martin F แสดงความคิดเห็นเมื่อเร็ว ๆ นี้ฉันได้พบกับ PCAs ที่ไม่ใช่เชิงเส้น ฉันกำลังมองหา PCA แบบไม่เชิงเส้นเป็นทางเลือกที่เป็นไปได้เมื่อตัวแปรต่อเนื่องเข้าหาการกระจายของตัวแปรลำดับเมื่อข้อมูลได้รับการแยกวิเคราะห์ (มันเกิดขึ้นในพันธุศาสตร์หลายครั้งเมื่อความถี่อัลลีลย่อยของตัวแปรลดลงและลดลง ด้วยจำนวนที่น้อยมากซึ่งคุณไม่สามารถพิสูจน์การกระจายตัวของตัวแปรต่อเนื่องได้และคุณต้องคลายสมมติฐานการกระจายโดยทำให้มันเป็นตัวแปรอันดับหรือตัวแปรที่จัดหมวดหมู่) PCA เชิงเส้นไม่สามารถจัดการกับทั้งสองเงื่อนไขเหล่านี้ แต่หลังจาก การพูดคุยกับผู้เชี่ยวชาญทางสถิติในคณะพันธุศาสตร์ ฉันทามติเป็นเอกฉันท์ว่าพีซีแบบไม่เชิงเส้นไม่ได้ใช้บ่อยนักและพฤติกรรมของ PCAs เหล่านั้นยังไม่ได้ทำการทดสอบอย่างกว้างขวาง (อาจเป็นเพราะพวกเขาอ้างถึงเขตข้อมูลพันธุศาสตร์เท่านั้นดังนั้นโปรดนำไปด้วยเม็ดเกลือ) แน่นอนมันเป็นตัวเลือกที่น่าสนใจ ฉันหวังว่าฉันได้เพิ่ม 2 เซ็นต์ (โชคดีที่เกี่ยวข้อง) การสนทนา


ยินดีต้อนรับคำตอบของคุณ Mandar คุณอ้างถึง PCA ที่ไม่ใช่แบบไม่เชิงเส้นโดยวิธี CATPCA หรือ PCA ที่ไม่ใช่แบบไม่เชิงเส้นอีกวิธีหนึ่ง โปรดทราบว่าสำหรับตัวแปรไบนารี CATPCA คือพูดว่าไร้ประโยชน์หรือไม่สำคัญเพราะสเกลของสองขั้วไม่สามารถวัดปริมาณอื่นที่ไม่ใช่ ... dichotomous!
ttnphns

ขอขอบคุณ @ttnphns ฉันเห็นด้วยกับจุดของคุณเกี่ยวกับตัวแปรไบนารีเช่นเดียวกับตัวแปรไบนารีข้อสันนิษฐานใด ๆ ไม่สำคัญ มิฉะนั้นฉันก็อ้างถึงบทหนังสือจาก "รู้เบื้องต้นเกี่ยวกับการไม่เชิงเส้น PCA" [ลิงค์] ( openaccess.leidenuniv.nl/bitstream/handle/1887/12386/ … ) มันหมายถึง CATPCA ส่วนใหญ่และแพคเกจ PRINQUAL จาก SAS
Mandar

2

: มีวิธีการพัฒนาเมื่อเร็ว ๆ นี้ในการแก้ไขปัญหาดังกล่าวเป็นทั่วไปต่ำรุ่นอันดับ

หนึ่งในเอกสารที่ใช้เทคนิคนี้เรียกว่าแม้PCA ในกรอบข้อมูล


PCA สามารถวางเช่นนี้:

สำหรับ x matrixnmM

หา x matrixและ x matrix (สิ่งนี้เข้ารหัสอันดับ e ข้อ จำกัด โดยปริยาย) เช่นนั้นnkX^kmY^k

X^,Y^ = 2argminX,YMXYF2

'generalized' จาก GLRM หมายถึงการเปลี่ยนเป็นอย่างอื่นและเพิ่มคำศัพท์F2


ฟังดูคล้ายกับการประดิษฐ์คิดค้นมากกว่าความคิดใหม่ ค้นหา gifi!
kjetil b halvorsen

คุณพูดไม่ถูกต้องดูเหมือนว่า GLRM นั้นเป็นลักษณะทั่วไป
Jakub Bartczuk

1

PCAmixdata# แพ็คเกจแพ็คเกจ :

ใช้การวิเคราะห์องค์ประกอบหลักการหมุนมุมฉากและการวิเคราะห์ปัจจัยหลายประการสำหรับการผสมของตัวแปรเชิงปริมาณและเชิงคุณภาพ

ตัวอย่างจากบทความสั้นจะแสดงผลลัพธ์สำหรับเอาต์พุตต่อเนื่องและหมวดหมู่

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.