“ เอฟเฟ็กต์เกือกม้า” และ / หรือ“ เอฟเฟ็กต์โค้ง” ในการวิเคราะห์ PCA / การโต้ตอบคืออะไร


20

มีเทคนิคมากมายในสถิติทางนิเวศวิทยาสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจของข้อมูลหลายมิติ สิ่งเหล่านี้เรียกว่าเทคนิค 'การบวช' หลายคนเหมือนหรือใกล้เคียงกับเทคนิคทั่วไปในที่อื่น ๆ ในสถิติ บางทีตัวอย่างต้นแบบอาจเป็นการวิเคราะห์ส่วนประกอบหลัก (PCA) นักนิเวศวิทยาอาจใช้ PCA และเทคนิคที่เกี่ยวข้องเพื่อสำรวจ 'การไล่ระดับสี' (ฉันไม่ชัดเจนเลยว่าการไล่ระดับสีคืออะไร แต่ฉันอ่านเรื่องนี้มาเล็กน้อย)

ในหน้านี้รายการสุดท้ายภายใต้การวิเคราะห์ส่วนประกอบหลัก (PCA)อ่าน:

  • PCA มีปัญหาร้ายแรงสำหรับข้อมูลพืช: ผลของเกือกม้า เรื่องนี้เกิดจากความโค้งของการกระจายพันธุ์ตามการไล่สี เนื่องจากสปีชีส์การตอบสนองของสปีชีส์นั้นโดยทั่วไปจะมีรูปแบบเดียว

เพิ่มเติมหน้าลงไปภายใต้การวิเคราะห์สารบรรณหรือค่าเฉลี่ยซึ่งกันและกัน (RA)มันหมายถึง "ผลกระทบอาร์ค":

  • RA มีปัญหา: เอฟเฟกต์ส่วนโค้ง มันเกิดจากความไม่เชิงเส้นของการแจกแจงตามการไล่ระดับสี
  • ส่วนโค้งนั้นไม่รุนแรงเท่าผลเกือกม้าของ PCA เนื่องจากปลายของการไล่ระดับสีไม่ได้ซับซ้อน

มีคนอธิบายเรื่องนี้ได้ไหม ฉันเพิ่งเห็นปรากฏการณ์นี้ในแปลงที่เป็นตัวแทนของข้อมูลในพื้นที่มิติที่ต่ำกว่า (ได้แก่ การวิเคราะห์การติดต่อและการวิเคราะห์ปัจจัย)

  1. "การไล่ระดับสี" จะตรงกับอะไรมากกว่าปกติ (เช่นในบริบทที่ไม่ใช่เชิงนิเวศน์)?
  2. หากสิ่งนี้เกิดขึ้นกับข้อมูลของคุณมันเป็น "ปัญหา" ("ปัญหาร้ายแรง") หรือไม่ เพื่ออะไร?
  3. เราควรตีความเอาต์พุตที่เกือกม้า / โค้งแสดงขึ้นได้อย่างไร?
  4. ต้องใช้วิธีการรักษาหรือไม่? อะไร? การแปลงข้อมูลดั้งเดิมจะช่วยได้หรือไม่? จะเป็นอย่างไรถ้าข้อมูลนั้นเป็นอันดับเรตติ้ง

คำตอบอาจมีอยู่ในหน้าอื่น ๆ ของไซต์นั้น (เช่นสำหรับPCA , CAและDCA ) ฉันพยายามที่จะทำงานผ่านสิ่งเหล่านั้น แต่การถกเถียงกันในเรื่องคำศัพท์ทางนิเวศวิทยาที่ไม่คุ้นเคยและตัวอย่างที่ยากต่อการเข้าใจปัญหา


1
(+1) ผมพบคำตอบที่ชัดเจนพอสมควรที่ordination.okstate.edu/PCA.htm คำอธิบาย "ความโค้ง" ในคำพูดของคุณนั้นผิดทั้งหมด - ซึ่งเป็นสิ่งที่ทำให้สับสน
whuber

2
ดูที่ Diaconis และคณะ (2008), Horseshoes ในการปรับขนาดหลายมิติและวิธีเคอร์เนลท้องถิ่น , Ann. Appl สถิติ ฉบับ 2 ไม่ใช่ 3, 777-807
พระคาร์ดินัล

ฉันพยายามที่จะตอบคำถามของคุณ แต่ฉันไม่แน่ใจว่าฉันประสบความสำเร็จได้ดีเพียงใดเพราะฉันเป็นนักนิเวศวิทยาและการไล่ระดับสีคือสิ่งที่ฉันคิด
Reinstate Monica - G. Simpson

@whuber: คำอธิบาย "curvilinearity" ที่ยกมาอาจจะสับสนและไม่ชัดเจนมาก แต่ฉันไม่คิดว่ามันเป็น "ผิดทั้งหมด" หากความอุดมสมบูรณ์ของเผ่าพันธุ์เป็นหน้าที่ของตำแหน่งตามจริง "การไล่ระดับสี" (โดยใช้ตัวอย่างจากลิงก์ของคุณ) เป็นเส้นตรงทั้งหมด (อาจเสียหายโดยเสียงรบกวน) จากนั้นคลาวด์ของจุดจะเป็น (ประมาณ) 1 มิติและ PCA จะหามัน คลาวด์ของจุดกลายเป็นงอ / โค้งเนื่องจากฟังก์ชั่นไม่เชิงเส้น กรณีพิเศษของเกาส์เชียนที่ถูกเลื่อนนำไปสู่เกือกม้า
อะมีบาพูดว่า Reinstate Monica

@Amoeba อย่างไรก็ตามผลเกือกม้าไม่ได้เป็นผลมาจาก curvilinearity ของการไล่ระดับสีสายพันธุ์: มันเกิดขึ้นจาก nonlinearities ในการจัดจำหน่ายอัตราส่วน ใบเสนอราคาซึ่งมีผลต่อรูปร่างของการไล่ระดับสีเองนั้นไม่ได้ระบุสาเหตุของปรากฏการณ์อย่างถูกต้อง
whuber

คำตอบ:


19

ไตรมาสที่ 1

นักนิเวศวิทยาพูดถึงการไล่ระดับสีตลอดเวลา มีการไล่ระดับสีหลายประเภท แต่อาจเป็นการดีที่สุดถ้าคุณคิดว่ามันเป็นการรวมกันของตัวแปรที่คุณต้องการหรือมีความสำคัญต่อการตอบสนอง ดังนั้นการไล่ระดับสีอาจเป็นเวลาหรือพื้นที่หรือความเป็นกรดของดินหรือสารอาหารหรือสิ่งที่ซับซ้อนกว่าเช่นการรวมกันเชิงเส้นของช่วงของตัวแปรที่ต้องการโดยการตอบสนองในบางวิธี

เราพูดถึงการไล่ระดับสีเพราะเราสังเกตสิ่งมีชีวิตในอวกาศหรือเวลาและโฮสต์ของสิ่งต่าง ๆ ต่างกันไปตามอวกาศหรือเวลานั้น

ไตรมาสที่ 2

ฉันได้ข้อสรุปว่าในหลาย ๆ กรณีเกือกม้าใน PCA ไม่ใช่ปัญหาที่ร้ายแรงหากคุณเข้าใจว่ามันเกิดขึ้นได้อย่างไรและไม่ทำสิ่งที่โง่ ๆ อย่างเอา PC1 เมื่อ "ไล่ระดับ" แทน PC1 และ PC2 ก็ถูกแบ่งออกเป็นพีซีที่สูงขึ้นเช่นกัน แต่หวังว่าการแสดงแบบ 2 มิติก็โอเค)

ในแคลิฟอร์เนียฉันคิดว่าฉันคิดเหมือนกัน (ตอนนี้ต้องถูกบังคับให้คิดเรื่องนี้) วิธีการแก้ปัญหาสามารถสร้างโค้งเมื่อไม่มีมิติที่สองที่แข็งแกร่งในข้อมูลดังกล่าวว่ารุ่นพับของแกนแรกซึ่งตอบสนองความต้องการ orthogonality ของแกน CA อธิบาย "ความเฉื่อย" มากกว่าทิศทางอื่นในข้อมูล นี่อาจจะรุนแรงกว่านี้เนื่องจากโครงสร้างประกอบด้วย PCA ส่วนโค้งเป็นเพียงวิธีในการแสดงความหลากหลายของสิ่งมีชีวิตในพื้นที่ต่างๆในการไล่ระดับสีเดียว

ฉันไม่เคยเข้าใจเลยว่าทำไมผู้คนกังวลมากเกี่ยวกับการสั่งซื้อที่ผิดตาม PC1 พร้อมกับเกือกม้าที่แข็งแกร่ง ฉันจะตอบโต้ว่าคุณไม่ควรใช้ PC1 ในกรณีเช่นนี้และปัญหาจะหายไป คู่ของพิกัดบน PC1 และ PC2 กำจัดการย้อนกลับของหนึ่งในสองแกนเหล่านั้น

ไตรมาสที่ 3

ถ้าฉันเห็นเกือกม้าใน PCA biplot ฉันจะตีความข้อมูลว่ามีการไล่ระดับสีที่โดดเด่นหรือทิศทางของการเปลี่ยนแปลง

ถ้าฉันเห็นซุ้มประตูฉันอาจจะสรุปเหมือนเดิม แต่ฉันจะต้องระวังอย่างมากที่จะพยายามอธิบายแกน CA 2 เลย

ฉันจะไม่ใช้ DCA - มันแค่บิดโค้งออกไป (ในสถานการณ์ที่ดีที่สุด) เช่นที่คุณไม่เห็นสิ่งแปลกประหลาดในแปลง 2 มิติ แต่ในหลาย ๆ กรณีมันสร้างโครงสร้างปลอมอื่น ๆ เช่นเพชรหรือรูปร่างทรัมเป็ตไปที่ การจัดเรียงตัวอย่างในพื้นที่ DCA ตัวอย่างเช่น:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

ป้อนคำอธิบายรูปภาพที่นี่

เราเห็นการพัดจากจุดตัวอย่างทั่วไปไปทางซ้ายของพล็อต

ไตรมาสที่ 4

ม.

สิ่งนี้จะแนะนำให้ค้นหาทิศทางที่ไม่เชิงเส้นในพื้นที่มิติสูงของข้อมูล วิธีการหนึ่งดังกล่าวเป็นเส้นโค้งหลักของ Hastie & Stuezel แต่มีวิธีการอื่น ๆ ที่ไม่เป็นเชิงเส้นที่มีอยู่ซึ่งอาจพอเพียง

ตัวอย่างเช่นสำหรับข้อมูลทางพยาธิวิทยาบางอย่าง

ป้อนคำอธิบายรูปภาพที่นี่

เราเห็นเกือกม้าที่แข็งแกร่ง เส้นโค้งหลักพยายามกู้คืนการไล่ระดับสีพื้นฐานหรือการจัดเรียง / การจัดเรียงตัวอย่างผ่านทางเส้นโค้งเรียบในมิติ m ของข้อมูล รูปด้านล่างแสดงให้เห็นว่าอัลกอริทึมซ้ำ ๆ มาบรรจบกับสิ่งที่ใกล้เคียงกับการไล่ระดับสีพื้นฐาน (ฉันคิดว่ามันห่างจากข้อมูลที่ด้านบนของพล็อตเพื่อให้ใกล้เคียงกับข้อมูลในมิติที่สูงกว่าและส่วนหนึ่งเป็นเพราะเกณฑ์ความมั่นคงของตัวเองสำหรับเส้นโค้งที่จะประกาศเส้นโค้งหลัก)

ป้อนคำอธิบายรูปภาพที่นี่

ฉันมีรายละเอียดเพิ่มเติมรวมถึงรหัสในโพสต์บล็อกของฉันซึ่งฉันถ่ายภาพเหล่านั้น แต่ประเด็นหลักที่นี่คือเส้นโค้งหลักสามารถกู้คืนตัวอย่างที่รู้จักได้อย่างง่ายดายในขณะที่ PC1 หรือ PC2 ด้วยตัวเองไม่ได้

ในกรณี PCA มันเป็นเรื่องธรรมดาที่จะใช้การเปลี่ยนแปลงในระบบนิเวศ การแปลงที่ได้รับความนิยมคือสิ่งที่สามารถนึกถึงการคืนค่าระยะทางแบบยุคลิดที่ไม่ใช่เมื่อคำนวณระยะทางแบบยุคลิดบนข้อมูลที่ถูกแปลง ตัวอย่างเช่นระยะทาง Hellinger คือ

DHอีล.ล.ผมnก.อีR(x1,x2)=ΣJ=1พี[Y1JY1+-Y2JY2+]2

YผมJJผมYผม+ผม

เกือกม้าเป็นที่รู้จักและศึกษามานานในระบบนิเวศ วรรณกรรมบางต้น (รวมถึงรูปลักษณ์ที่ทันสมัยกว่า) คือ

  • Goodall DW และคณะ (1954) วิธีการที่มีวัตถุประสงค์เพื่อจำแนกพืชพรรณ สาม. การเขียนเรียงความในการใช้งานของการวิเคราะห์ปัจจัย วารสารพฤกษศาสตร์ออสเตรเลีย 2, 304–324
  • Noy-Meir I. และ Austin MP และคณะ (1970) ตัวแทนอุปสมบทหลักและจำลองพืชผลข้อมูล นิเวศวิทยา 51, 551–552
  • Podani J. และMiklós I. และคณะ (2002) ความคล้ายคลึงค่าสัมประสิทธิ์และผลเกือกในหลักวิเคราะห์พิกัด นิเวศวิทยา 83, 3331–3343
  • Swan JMA และคณะ (1970) การตรวจสอบของบางปัญหาการอุปสมบทโดยใช้จำลองพืชผลข้อมูล นิเวศวิทยา 51, 89–102

การอ้างอิงเส้นโค้งหลักที่สำคัญคือ

  • De'ath G. et al. (1999) Curves เงินต้น: เทคนิคใหม่สำหรับการวิเคราะห์ลาดทางอ้อมและทางตรง นิเวศวิทยา 80, 2237-2253
  • Hastie T. และ Stuetzle W. และคณะ (1989) Curves หลัก วารสารสมาคมสถิติอเมริกัน 84, 502–516

ด้วยอดีตเป็นการนำเสนอทางนิเวศวิทยามาก


ขอบคุณกาวิน พิจารณาลำดับที่ 1: 5 จากชุดข้อมูลที่มีคำถามเช่น: "ฉันชอบหมอของฉัน", & "ฉันรู้สึกเหมือนหมอของฉันให้ความสำคัญกับฉันในฐานะบุคคลคนหนึ่ง" สิ่งเหล่านี้ไม่ได้ถูกแจกจ่ายอย่างมีความหมายข้ามพื้นที่หรือเวลา อะไรคือ 'การไล่ระดับสี' ที่นี่?
gung - Reinstate Monica

ด้วยตาราง 5x5 และสูง N วิธีหนึ่งในการมองเห็นข้อมูลคือ w / CA ข้อมูลเป็นเลขลำดับ แต่ CA ไม่รู้จักสิ่งนั้น เพื่อให้เราสามารถตรวจสอบเพื่อดูว่าแถว / คอลัมน์ที่อยู่ติดกันนั้นอยู่ใกล้กว่าแถวอื่น ๆ คะแนนทั้งคู่ตกลงไปตามเส้นที่ชัดเจนตามลำดับที่เหมาะสม แต่เส้นโค้งนั้นทำให้สุดขั้วอยู่ใกล้กันมากกว่าจุดกึ่งกลางในพื้นที่ 2D จะตีความได้อย่างไร?
gung - Reinstate Monica

CA ค้นหาการเรียงลำดับสำหรับทั้งแถว (ตัวอย่าง) และตัวแปร (cols) ที่เพิ่มการกระจายตัวของ "คะแนน" ตัวอย่างสูงสุด พบว่าตัวแปรแฝง (การรวมกันเชิงเส้นของตัวแปร) ที่เพิ่มการกระจายตัวนั้น เราเรียกตัวแปรแฝงนั้นว่าการไล่ระดับสี
Reinstate Monica - G. Simpson

คุณหมายถึงการบีบอัดใกล้กันมากขึ้นในแกน CA 1 หรือใกล้กันมากขึ้นในแง่ของระยะทางแบบยุคลิดในระดับของ biplot หรือไม่? ไม่ว่าจะด้วยวิธีใดนี่เป็นปัญหาในการคาดการณ์ข้อมูลสู่พื้นที่มิติต่ำ DCA พยายามที่จะยกเลิกผลกระทบนี้โดยดึงตัวอย่างออกจากกันในตอนท้ายของแกน DCA ที่ถูกทำลาย 1 และบีบอัดตัวอย่างใกล้กับแหล่งกำเนิด ใช่มันเป็นปัญหา แต่เป็นเพราะความยืดหยุ่นของวิธีการจับการไล่ระดับสีพื้นฐานอย่างเหมาะสม เราสามารถอยู่กับมันหรือใช้แนวทางที่ยืดหยุ่นมากขึ้น (อย่างน้อยในระบบนิเวศน์)
Reinstate Monica - G. Simpson

1
ถ้าคุณดูที่นี่ในมิติที่มากกว่าปัญหาจะหายไป ฉันคิดว่านี่เป็นเพียงข้อ จำกัด ของวิธีการ มันก็โอเคในหลายกรณี แต่ล้มเหลวในคนอื่น ๆ
Reinstate Monica - G. Simpson
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.