ฉันสามารถทำ PCA โดยใช้มาตรการซ้ำเพื่อลดข้อมูลได้หรือไม่


13

ฉันมีการทดลอง 3 ครั้งต่อสัตว์ 87 ตัวในแต่ละบริบทของ 2 (ข้อมูลที่หายไปบางส่วนไม่มีข้อมูลที่ขาดหายไป = 64 สัตว์) ในบริบทที่ฉันมีมาตรการที่เฉพาะเจาะจงจำนวนมาก (เวลาที่จะป้อนจำนวนครั้งที่กลับมาเพื่อที่อยู่อาศัยและอื่น ๆ ) ดังนั้นฉันต้องการที่จะพัฒนา 2-3 คะแนนพฤติกรรมคอมโพสิตที่อธิบายพฤติกรรมในบริบทที่ (เรียกพวกเขาC1, C2, C3) ฉันต้องการสิ่งC1นั้นซึ่งมีความหมายเหมือนกันในการทดลองทั้ง 3 และ 87 สัตว์เพื่อที่ฉันจะได้ทำการถดถอยเพื่อตรวจสอบผลกระทบของอายุเพศสายเลือดและสัตว์แต่ละตัวที่มีต่อพฤติกรรม จากนั้นฉันต้องการตรวจสอบC1ความเกี่ยวข้องกับคะแนนพฤติกรรมในบริบทอื่น ๆ ภายในอายุที่เฉพาะเจาะจง (ณ วันที่ 1 กิจกรรมในบริบทที่ 1 ทำนายกิจกรรมในบริบทที่ 2 ได้หรือไม่)

หากนี่ไม่ใช่การวัดซ้ำ PCA จะทำงานได้ดี - ทำ PCA ในหลายมาตรการของบริบทจากนั้นใช้ PC1, PC2 ฯลฯ เพื่อตรวจสอบความสัมพันธ์ (Spearman correlations) ระหว่าง PC1 ในบริบทเดียวและ PC1 (หรือ 2 หรือ 3) ในบริบทอื่น ๆ ปัญหาคือมาตรการซ้ำ ๆ ซึ่งตกอยู่ในการปลอมแปลงปลอม ฉันมีผู้ตรวจสอบอย่างไม่มีหมวดหมู่พูด แต่ฉันไม่สามารถหาข้อมูลอ้างอิงที่ชัดเจนว่าเป็นปัญหาเมื่อทำการลดข้อมูลหรือไม่

การให้เหตุผลของฉันเป็นเช่นนี้: มาตรการซ้ำ ๆ ไม่ใช่ปัญหาเพราะสิ่งที่ฉันทำใน PCA นั้นเป็นคำอธิบายล้วนๆเมื่อเทียบกับมาตรการดั้งเดิม ถ้าฉันประกาศโดยคำสั่งว่าฉันใช้เวลาในการเข้าสู่เวทีเป็นวัด "ความกล้าหาญ" ของฉันในบริบทที่ 1 ฉันจะมีการวัดความกล้าหาญในบริบทที่ 1 ซึ่งเทียบเคียงได้กับทุกคนในทุกวัยและไม่มีใครสนใจเลย ถ้าฉันประกาศโดยเฟียตว่าฉันจะใช้ time-to-enter + 0.5 time-to-end-end-end-end ดังนั้นถ้าฉันใช้ PCA เพื่อการลดทอนอย่างหมดจดทำไมมันไม่เป็น PC1 (นั่นอาจเป็น0.28 ป้อน+ 0.63 เสร็จ+ 0.02 0.5+ 0.50.28+ 0.63+ 0.02 เวลาทั้งหมด ... ) ซึ่งอย่างน้อยที่สุดก็ได้รับการบอกกล่าวจากมาตรการหลายอย่างของฉันแทนที่จะคาดเดาว่าเวลาที่จะเข้าเป็นลักษณะโดยทั่วไปของข้อมูลและตัวแทน?

(หมายเหตุฉันไม่สนใจในโครงสร้างพื้นฐานของมาตรการ ... คำถามของฉันคือสิ่งที่เราตีความพฤติกรรมเฉพาะบริบทให้เป็น "ถ้าฉันใช้บริบทที่ 1 และสรุปว่าแฮร์รี่มีความกระตือรือร้นเมื่อเทียบกับสัตว์อื่นฉันเห็นหรือไม่ Harry ใช้งานในบริบทที่ 2 หรือไม่ถ้าเขาเปลี่ยนสิ่งที่เราตีความว่าเป็นกิจกรรมในบริบทที่ 1 เมื่อเขาโตขึ้นเขาจะเปลี่ยนกิจกรรมบริบท 2 ของเขาด้วยหรือไม่)

ฉันดูที่ PARAFAC และดู SEM และฉันไม่มั่นใจว่าวิธีการเหล่านี้ดีกว่าหรือเหมาะสมกว่าสำหรับขนาดตัวอย่างของฉัน ใครสามารถชั่งน้ำหนักได้บ้าง ขอบคุณ


ฉันไม่เข้าใจว่าคุณถูกต้องว่าคุณมี 2 ภายในเรื่องปัจจัย: 1) บริบทที่แตกต่างกันโดยบางส่วนสภาพการทดลอง (เช่นการทดลองในร่ม VS ทดลองกลางแจ้ง), 2) การพิจารณาคดีซึ่งเป็นเพียงแค่การทำซ้ำเป็นความพยายามของการทดลอง และคุณต้องการที่จะทำ PCA ในแต่ละเงื่อนไข แต่มันหยุดคุณได้ว่าคุณไม่ได้ทำการทดลองหลาย ๆ ครั้ง
ttnphns

บริบททั้งสองเป็นการทดสอบแยกกันสองครั้งและมาตรการที่ใช้ในแต่ละการทดสอบนั้นแตกต่างกัน ที่กล่าวว่าใช่คุณเข้าใจสถานการณ์ของฉัน
Leann

สิ่งที่เกี่ยวกับการหลีกเลี่ยงปัญหาและใช้ PCA ในความหมายของการทดลองทั้งสาม?
งานกาลา

คำตอบ:


7

คุณสามารถมองเข้าไปในการวิเคราะห์องค์ประกอบหลาย สิ่งนี้สามารถนำมาใช้ใน R กับ FactoMineR

UPDATE:

ในการทำอย่างละเอียดลีนน์กำลังยื่นข้อเสนอ - อย่างไรก็ตามเมื่อนานมาแล้ว - เพื่อดำเนินการ PCA บนชุดข้อมูลที่มีมาตรการซ้ำ ถ้าฉันเข้าใจโครงสร้างของชุดข้อมูลของเธออย่างถูกต้องสำหรับ 'บริบท' ที่ระบุเธอมีx'มาตรการเฉพาะ' ของสัตว์(เวลาที่ป้อนจำนวนครั้งที่กลับไปยังที่พักพิง ฯลฯ ) เมทริกซ์ สัตว์ 64 ตัวแต่ละตัว (สัตว์ที่ไม่หายไป) ได้รับการติดตามสามครั้ง สมมติว่าเธอมี 10 'มาตรการเฉพาะ' ดังนั้นเธอจะมีเมทริกซ์ 64 × 10 สามตัวเกี่ยวกับพฤติกรรมของสัตว์ (เราสามารถเรียกเมทริกซ์X1ได้X2,, X3) ในการรัน PCA ในสามเมทริกซ์พร้อมกันเธอจะต้อง 'row bind' สามเมทริกซ์ (เช่นPCA(rbind(X1,X2,X3))) แต่สิ่งนี้ไม่สนใจความจริงที่ว่าการสังเกตครั้งแรกและครั้งที่ 64 นั้นอยู่ในสัตว์ชนิดเดียวกัน เพื่อหลีกเลี่ยงปัญหานี้เธอสามารถ 'คอลัมน์ผูก' เมทริกซ์ทั้งสามและเรียกใช้พวกเขาผ่านการวิเคราะห์ปัจจัยหลายอย่าง MFA เป็นวิธีที่มีประโยชน์ในการวิเคราะห์ตัวแปรหลายชุดที่วัดบนบุคคลหรือวัตถุเดียวกันที่จุดต่าง ๆ ในเวลา เธอจะสามารถดึงส่วนประกอบหลักจาก MFA ในลักษณะเดียวกับใน PCA แต่จะมีพิกัดเดียวสำหรับสัตว์แต่ละตัว วัตถุสัตว์จะถูกวางในพื้นที่หลายตัวแปรของการประนีประนอมคั่นด้วยการสังเกตการณ์ทั้งสามของเธอ

เธอจะสามารถดำเนินการวิเคราะห์โดยใช้แพคเกจ FactoMineR ในอาร์โค้ดตัวอย่างจะมีลักษณะดังนี้:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

นอกจากนี้แทนที่จะแยกส่วนประกอบสามประการแรกจาก MFA และวางผ่านการถดถอยหลายครั้งเธออาจคิดถึงการอธิบายตัวแปรอธิบายของเธอโดยตรงไปยัง MFA เป็น 'ตารางเสริม' (ดู?FactoMineR) อีกวิธีหนึ่งก็คือการคำนวณระยะทางแบบยุคลิดของพิกัดวัตถุจาก MFA (เช่นdist1=vegdist(mfa1$ind$coord, "euc")) และวางมันผ่าน RDA ด้วยdist1ฟังก์ชั่นของตัวแปรเฉพาะสัตว์ (เช่นการrda(dist1~age+sex+pedigree)ใช้แพ็คเกจมังสวิรัติ)


2
สวัสดีไคล์ขอบคุณสำหรับคำตอบของคุณ อย่างไรก็ตามคำตอบที่ประกอบด้วยลิงก์มากกว่าลิงก์เล็กน้อยหรือเพียงความยาวของประโยคโดยทั่วไปไม่ถือว่าเป็นคำตอบ แต่เป็นความคิดเห็น โดยเฉพาะอย่างยิ่งคำตอบเฉพาะการเชื่อมโยงได้รับจากการเชื่อมโยง -root ดังนั้นคำตอบควรมีข้อมูลเพียงพอที่จะเป็นประโยชน์แม้ว่าการเชื่อมโยงไม่ทำงานอีกต่อไป คุณช่วยขยายคำตอบของคุณให้มากขึ้นหน่อยได้ไหมบางทีอาจให้สรุปสั้น ๆ ว่ามันเกี่ยวข้องกับการวิเคราะห์ปัจจัยโดยทั่วไปอย่างไร
Glen_b -Reinstate Monica

(+1) ฉันรู้ว่านี่เป็นโพสต์เก่า แต่คำตอบนี้มีประโยชน์มาก! อาจเพิ่มการอ้างอิงอย่างสมบูรณ์ในกรณีที่ลิงก์เสีย: Abdi Hervé, Williams Lynne J. , Valentin Domininique การวิเคราะห์ปัจจัยหลายประการ: การวิเคราะห์องค์ประกอบหลักสำหรับชุดข้อมูลแบบหลายค่าและแบบมัลติล็อก WIREs Comp Stat 2013, 5: 149-179 ดู: 10.1002 / wics.1246
Frans Rodenburg

4

เป็นเรื่องธรรมดาที่จะใช้ PCA เมื่อวิเคราะห์มาตรการซ้ำ ๆ (เช่นใช้สำหรับการวิเคราะห์ข้อมูลการขายราคาหุ้นและอัตราแลกเปลี่ยน) ตรรกะคือตามที่คุณพูด (เช่นเหตุผลคือ PCA เป็นเครื่องมือลดข้อมูลไม่ใช่เครื่องมืออ้างอิง )

สิ่งพิมพ์หนึ่งโดยนักสถิติที่ดีคือ: Bradlow, ET (2002) " การสำรวจชุดข้อมูลวัดซ้ำสำหรับคุณสมบัติที่สำคัญโดยใช้การวิเคราะห์องค์ประกอบหลัก " วารสารการวิจัยทางการตลาด 19: 167-179

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.