คำเตือน: ฉันมีความรู้วงในหัวข้อเท่านั้น แต่เนื่องจากไม่มีใครตอบฉันจะลองดู
ระยะทางเป็นสิ่งสำคัญ
เทคนิคการลดขนาดใด ๆ ก็ตามขึ้นอยู่กับระยะทาง (tSNE, UMAP, MDS, PCoA และอื่น ๆ ที่เป็นไปได้) นั้นดีเท่ากับระยะทางที่คุณใช้ เนื่องจาก @amoeba ชี้ให้เห็นอย่างถูกต้องจึงไม่มีวิธีแก้ปัญหาแบบขนาดเดียวคุณจึงต้องมีตัวชี้วัดระยะทางที่จับสิ่งที่คุณคิดว่าสำคัญในข้อมูลนั่นคือแถวที่คุณพิจารณาว่าคล้ายกันจะมีระยะทางและแถวขนาดเล็ก พิจารณาแตกต่างกันมีระยะทางขนาดใหญ่
คุณจะเลือกเมตริกระยะทางที่ดีได้อย่างไร ก่อนอื่นขอให้ฉันหันเหความสนใจเล็กน้อย:
การบวช
ก่อนหน้ายุครุ่งเรืองของการเรียนรู้เครื่องจักรที่ทันสมัยนักนิเวศวิทยาชุมชน (และคนอื่น ๆ น่าจะลอง) ได้พยายามทำแผนการที่ดีสำหรับการวิเคราะห์เชิงสำรวจของข้อมูลหลายมิติ พวกเขาเรียกกระบวนการบวชและมันเป็นคำสำคัญที่มีประโยชน์ในการค้นหาในวรรณคดีนิเวศวิทยาจะย้อนกลับไปอย่างน้อย 70 ปีและยังคงแข็งแกร่งในวันนี้
สิ่งสำคัญคือนักนิเวศวิทยามีชุดข้อมูลที่หลากหลายและจัดการกับการผสมผสานของคุณลักษณะไบนารีจำนวนเต็มและค่าจริง (เช่นการมี / ไม่มีสปีชีส์จำนวนตัวอย่างที่สังเกตได้ค่า pH อุณหภูมิ) พวกเขาใช้เวลามากมายคิดเกี่ยวกับระยะทางและการเปลี่ยนแปลงเพื่อทำให้การบรรพชาทำงานได้ดี ฉันไม่เข้าใจฟิลด์นี้เป็นอย่างดี แต่ตัวอย่างเช่นการตรวจสอบโดย Legendre และ De Cáceres ความหลากหลายของเบต้าเป็นความแปรปรวนของข้อมูลชุมชน: ความแตกต่างของค่าใช้จ่ายและการแบ่งพาร์ติชันแสดงระยะทางที่คุณอาจต้องการตรวจสอบ
การปรับสเกลหลายมิติ
เครื่องมือสู่การอุปสมบทคือการปรับสเกลหลายมิติ (MDS) โดยเฉพาะตัวแปรที่ไม่ใช่ตัวชี้วัด (NMDS) ซึ่งฉันขอแนะนำให้คุณลองเพิ่มเติมจาก t-SNE ฉันไม่รู้เกี่ยวกับโลก Python แต่การนำ R ไปใช้ในการmetaMDS
ทำงานของvegan
แพ็คเกจนั้นมีลูกเล่นมากมายสำหรับคุณ (เช่นการรันหลาย ๆ การวิ่งจนกว่ามันจะพบสองอันที่คล้ายกัน)
สิ่งนี้ได้รับการโต้แย้งดูความคิดเห็น:ส่วนที่ดีเกี่ยวกับ MDS คือมันยังฉายคุณสมบัติ (คอลัมน์) ดังนั้นคุณสามารถดูได้ว่าคุณลักษณะใดที่ช่วยลดมิติ สิ่งนี้จะช่วยคุณในการตีความข้อมูลของคุณ
โปรดทราบว่า t-SNE ได้รับการวิพากษ์วิจารณ์ว่าเป็นเครื่องมือในการทำความเข้าใจกับสิ่งที่เห็นเช่นการตรวจสอบข้อผิดพลาด - ฉันได้ยิน UMAP แก้ปัญหาบางอย่าง แต่ฉันไม่เคยมีประสบการณ์กับ UMAP ฉันไม่สงสัยเลยว่าเหตุผลส่วนหนึ่งที่นักนิเวศวิทยาใช้ NMDS คือวัฒนธรรมและความเฉื่อยบางที UMAP หรือ t-SNE นั้นดีกว่าจริง ๆ ฉันไม่รู้จริงๆ
แผ่ออกจากระยะทางของคุณเอง
หากคุณเข้าใจโครงสร้างของข้อมูลระยะทางและการแปลงรูปแบบสำเร็จรูปอาจไม่ดีที่สุดสำหรับคุณและคุณอาจต้องการสร้างเมตริกระยะทางแบบกำหนดเอง ในขณะที่ฉันไม่ทราบว่าข้อมูลของคุณเป็นอย่างไรมันอาจจะมีเหตุผลที่จะคำนวณระยะทางแยกต่างหากสำหรับตัวแปรที่มีค่าจริง (เช่นการใช้ระยะทางแบบยุคลิดถ้ามันเหมาะสม) และสำหรับตัวแปรไบนารีและเพิ่มเข้าไป ระยะทางที่พบบ่อยสำหรับข้อมูลไบนารีเช่นJaccard ระยะทางหรือระยะโคไซน์ คุณอาจต้องคิดถึงสัมประสิทธิ์ทวีคูณสำหรับระยะทางเนื่องจาก Jaccard และ Cosine ทั้งคู่มีค่าเป็นโดยไม่คำนึงถึงจำนวนของคุณลักษณะในขณะที่ขนาดของระยะทางแบบยุคลิดสะท้อนให้เห็นถึงจำนวนของคุณลักษณะ[0,1]
คำเตือน
ตลอดเวลาที่คุณควรจำไว้ว่าเมื่อคุณมีปุ่มปรับมากมายคุณสามารถตกหลุมพรางของการปรับแต่งได้อย่างง่ายดายจนกว่าคุณจะเห็นสิ่งที่คุณต้องการเห็น นี่เป็นเรื่องยากที่จะหลีกเลี่ยงการวิเคราะห์เชิงสำรวจอย่างสมบูรณ์ แต่คุณควรระวัง