วิธีการฉายอวกาศมิติสูงในระนาบสองมิติ?


11

ฉันมีชุดของจุดข้อมูลในช่องว่าง N- มิติ นอกจากนี้ฉันยังมีเซนทรอยด์ในพื้นที่ N-มิติเดียวกัน มีวิธีใดบ้างที่อนุญาตให้ฉันฉายจุดข้อมูลเหล่านี้ลงในพื้นที่สองมิติในขณะที่เก็บข้อมูลระยะทางสัมพัทธ์ไว้ในพื้นที่เดิม PCA ถูกต้องหรือไม่


1
หากคุณต้องการพยายามรักษาระยะทางความคิดแรกของฉันน่าจะเป็นการปรับขนาดในระยะทางด้วยตัวเอง (ซึ่งเกี่ยวข้องกับ PCA) แต่เนื่องจากคุณมีสถานที่และไม่ใช่แค่ระยะทางโดยความเข้าใจของฉัน PCA ควรทำงานเพื่อสิ่งนั้น .
Glen_b -Reinstate Monica

1
@Glen_b, จุดสำคัญไม่ได้อยู่ที่ MDS คือสำหรับการป้อนข้อมูลระยะทางและ PCA เป็นสำหรับการป้อนข้อมูลพิกัด แต่ที่ซ้ำ MDS พอดีไม่กี่มิติในขณะที่ยังคงรักษา PCA ขนาดไม่กี่ ดังนั้น MDS จึงรักษาระยะทางได้ค่อนข้างดีกว่า PCA แบบดั้งเดิม คำตอบสำหรับคำถามคือใช่ PCA เหมาะสม แต่ MDS เหมาะสมกว่า
ttnphns

1
นี่คือสิ่งที่ศึกษาในด้านการฝังตัวชี้วัดพื้นที่เช่นคุณจะลดมิติข้อมูลของคุณได้อย่างไรในขณะที่ลดการบิดเบือนของระยะทาง
Bitwise

คำตอบ:


6

กรอบงานทั่วไปที่แก้ไขปัญหาของคุณเรียกว่าการลดขนาด คุณต้องการฉายข้อมูลจากมิติ N ถึง 2 มิติในขณะที่รักษา "ข้อมูลที่จำเป็น" ไว้ในข้อมูลของคุณ วิธีการที่เหมาะสมที่สุดนั้นขึ้นอยู่กับการกระจายข้อมูลของคุณเช่น N-dimension manifold PCA จะพอดีกับเครื่องบินโดยใช้เกณฑ์กำลังสองน้อยที่สุด นี้อาจจะทำงานได้ไม่ดีสำหรับ "แยมโรล" ตัวอย่างเช่นแยมโรล

วิธีการที่ทันสมัยกว่า ได้แก่ Kernel PCA, LLE, แผนที่การกระจายและการกระจายพจนานุกรม เกี่ยวกับการเก็บรักษาระยะทางวิธีการบางอย่างสามารถรักษาระยะทางที่ไม่ใช่ยูคลิด


2
มันเป็นสิ่งสำคัญที่จะต้องทราบว่าวิธีการ "ลดมิติ" มักจะไม่รักษา "ข้อมูลระยะทางที่สัมพันธ์กัน" ไม่ว่าพวกเขาจะทำหรือไม่ขึ้นอยู่กับวิธีและบางส่วนขึ้นอยู่กับ "ระยะทาง" ที่ตั้งใจไว้
whuber

2

ดังที่ได้กล่าวไว้ในคำตอบก่อนหน้านี้มีวิธีการลดขนาดที่หลากหลายและสิ่งสำคัญที่ต้องพิจารณาคือสิ่งที่คุณพยายามนำเสนอ - คุณสนใจที่จะวัดระยะทางแบบยุคลิดหรือไม่? หรือการวัดความคล้ายคลึงกันของกลุ่มตัวอย่าง

สำหรับ PCA ในอดีตนั้นเหมาะสม มักใช้กับมาตรการต่อเนื่องเช่นการวัดตัวอย่าง (สัตว์พืชเป็นต้น ... ) ฉันจะพิจารณาคำกล่าวที่ทันสมัยกว่าในคำตอบก่อนหน้านี้ด้วย

สำหรับหลังที่คุณอาจลองเปรียบเทียบความคล้ายคลึงกันโดยใช้การวัดระยะทางแบบ non-euclidean มีวิธีการที่ดีอยู่สองสามอย่างเช่นการวางองค์ประกอบของหลักการ (PCoA) และ Non-metric Multidimensional Scaling (NMDS) ตัวอย่างของเวลาที่คุณอาจใช้สิ่งเหล่านี้คือเมื่อคุณเปรียบเทียบชุมชนทางนิเวศวิทยาระหว่างพื้นที่ต่าง ๆ และคุณมีสิ่งมีชีวิตหลายชนิดที่พบ ดังนั้นข้อมูลของคุณจึงเป็นข้อมูล "นับ" มีตัวชี้วัดความคล้ายคลึงกันจำนวนมากเช่น Jaccard, Sorensen, Bray-Curtis ซึ่งจะช่วยให้คุณประเมินว่าไซต์ที่คล้ายกันนั้นมีองค์ประกอบของสิ่งมีชีวิตอย่างไร PCoA และ NMDS นั้นให้คุณพล็อตตัวอย่าง (ไซต์) เพื่อแสดงระยะทางนิเวศวิทยา (ความคล้ายคลึงกัน) และคุณมีคะแนนสำหรับไซต์ในแต่ละแกน

มีหนังสือดีๆมากมายและแหล่งข้อมูลอื่น ๆ สำหรับการวิเคราะห์หลายตัวแปร ค้นหา "Ordination" บน Google นอกจากนี้ยังมีแพ็คเกจ R ที่เรียกว่า 'vegan' ซึ่งดีมากสำหรับการใช้งานจริงนี้มากมาย


0

ปัญหาของคุณเสียงเหมือนแอพลิเคชันข้อความ-book สำหรับการปรับหลายมิติ การแนะนำที่ดีสามารถพบได้ที่นี่: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

แน่นอนคุณสามารถลอง PCA แต่ PCA ไม่มีความตั้งใจที่จะเก็บข้อมูลระยะทางสัมพัทธ์ในพื้นที่เดิม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.