ใช้การวิเคราะห์องค์ประกอบหลักเทียบกับการวิเคราะห์การโต้ตอบ


9

ฉันกำลังวิเคราะห์ชุดข้อมูลที่เกี่ยวข้องกับชุมชน intertidal ข้อมูลเป็นเปอร์เซ็นต์การครอบคลุม (ของสาหร่ายทะเล, เพรียง, หอยแมลงภู่, ฯลฯ ) ในรูปสี่เหลี่ยม ฉันเคยคิดเกี่ยวกับการวิเคราะห์การติดต่อ (CA) ในแง่ของจำนวนสปีชีส์และการวิเคราะห์องค์ประกอบหลัก (PCA) เป็นสิ่งที่มีประโยชน์มากขึ้นสำหรับแนวโน้มเชิงเส้นสิ่งแวดล้อม (ไม่ใช่สปีชีส์) ฉันไม่ได้มีโชคใด ๆ ที่คิดว่า PCA หรือ CA จะเหมาะกว่าสำหรับเปอร์เซ็นต์การครอบคลุม (ไม่พบเอกสารใด ๆ ) และฉันไม่แน่ใจด้วยซ้ำว่าสิ่งที่ต่อยอดสูงสุดถึง 100% จะกระจายออกไปได้อย่างไร ?

ฉันคุ้นเคยกับแนวทางคร่าวๆว่าหากความยาวของแกนการวิเคราะห์การโต้ตอบจดหมายที่ถูก detrended แรก (DCA) มากกว่า 2 คุณจะสามารถสันนิษฐานได้ว่าควรใช้ CA อย่างปลอดภัย ความยาวของแกน DCA 1 คือ 2.17 ซึ่งฉันไม่พบว่ามีประโยชน์


3
ทั้ง PCA และ CA นั้นมีความสัมพันธ์กันและทั้งสองอย่างนั้นสามารถใช้อัลกอริทึม SVD ได้ ความแตกต่างที่เป็นทางการพื้นฐาน (ไม่ได้กล่าวถึงใน @ Gavin เป็นคำตอบที่ลึกมาก) คือ PCA จะสลายความสัมพันธ์ระหว่างคอลัมน์เท่านั้น (เช่นโดยการสลายเมทริกซ์ความแปรปรวนร่วมของพวกเขา) รักษาแถวเป็น "กรณี"; ในขณะที่ CA ย่อยสลายคอลัมน์และแถวพร้อมกันให้จัดการกับพวกมันอย่างสมมาตร ดังนั้น biplot ที่เหลืออยู่โดย CA และ quasi-biplot (การโหลด + คะแนน) ที่สามารถพล็อตได้หลังจาก PCA ให้ข้อมูลที่แตกต่างกันในเชิงแนวคิด
ttnphns

คำตอบ:


9

PCA ทำงานกับค่าที่ CA ทำงานกับค่าสัมพัทธ์ ทั้งคู่เป็นสิ่งที่ดีสำหรับข้อมูลมากมายที่เกี่ยวข้องของการเรียงลำดับที่คุณพูดถึง ด้วยข้อมูล% คุณมีการวัดที่เกี่ยวข้องอยู่แล้ว แต่ยังคงมีความแตกต่าง ถามตัวเอง

  • คุณต้องการเน้นรูปแบบในสายพันธุ์ / แท็กซ่าที่อุดมสมบูรณ์ (เช่นที่มีฝาปิดขนาดใหญ่%) หรือ
  • คุณต้องการที่จะมุ่งเน้นไปที่รูปแบบขององค์ประกอบสัมพันธ์หรือไม่

หากอดีตใช้ PCA ถ้าใช้ CA หลัง สิ่งที่ฉันหมายถึงสองคำถามคือคุณต้องการ

A = {50, 20, 10}
B = { 5,  2,  1}

ที่จะถือว่าแตกต่างหรือเหมือนเดิม AและBเป็นสองตัวอย่างและค่าเป็น% cover ของแท็กซ่าสามตัวที่แสดง (ตัวอย่างนี้ออกมาไม่ดีสมมติว่ามีพื้นดินเปล่า! ;-) PCA จะพิจารณาสิ่งเหล่านี้แตกต่างกันมากเนื่องจากระยะทางแบบยุคลิดที่ใช้ แต่ CA จะพิจารณาตัวอย่างสองตัวอย่างนี้ว่าคล้ายกันมากเพราะมีโปรไฟล์ญาติเดียวกัน

ข้อแม้ขนาดใหญ่ที่นี่เป็นลักษณะการประกอบข้อมูลแบบปิดของข้อมูล หากคุณมีกลุ่มไม่กี่กลุ่ม (เช่นทรายตะกอนดินเหนียว) ที่รวมเป็น 1 (100%) วิธีการทั้งสองจะไม่ถูกต้องและคุณสามารถย้ายไปยังการวิเคราะห์ที่เหมาะสมยิ่งขึ้นผ่านทาง Log-ratio PCA ของ Aitchison ซึ่งออกแบบมาสำหรับการปิดองค์ประกอบ ข้อมูล. (IIRC ในการทำเช่นนี้คุณต้องจัดกึ่งกลางตามแถวและคอลัมน์และบันทึกการแปลงข้อมูล) มีวิธีการอื่นเช่นกัน ถ้าคุณใช้ R แล้วหนังสือเล่มหนึ่งที่จะเป็นประโยชน์คือการวิเคราะห์ข้อมูล Compositional กับ R


เช่นเคยคำตอบที่ยอดเยี่ยมจริงๆกาวิน ขอบคุณ! มันชัดเจนมากและฉันจะใช้ PCA ในตอนนั้น เนื่องจากว่าชุมชน intertidal เป็น 3 มิติเปอร์เซ็นต์ครอบคลุมไปจริง 100% ในบางกรณีเมื่อสิ่งมีชีวิตเติบโตเหนือกัน นี่ไม่ใช่รูปแบบองค์ประกอบประกอบปิดที่คุณกำลังพูดถึงใช่มั้ย
HFBrowning

ไม่มันไม่ใช่สิ่งที่เขาพูดถึง โดยการปิดฉันเชื่อว่าเขาหมายถึงระบบที่มีสามเผ่าพันธุ์ A, B, C คุณมี% C = 100% -% B -% A
Pertinax

แล้ว DCA ล่ะ
ดาร์วินพีซี

DCA เป็น CA เวอร์ชันที่สับสนดังนั้นหลักการทั่วไปเดียวกันนี้จึงมีผลกับมัน DCA กำลังทำการทรมานข้อมูลที่แปลก ๆ และฉันไม่คิดว่าเราจะต้องใส่ใจกับมันเป็นวิธีการในกล่องเครื่องมือของเราวันนี้ แต่ความคิดเห็นของคนอื่นจะแตกต่างกันไป
Gavin Simpson
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.