ฉันมีชุดของจุดข้อมูลในช่องว่าง N- มิติ นอกจากนี้ฉันยังมีเซนทรอยด์ในพื้นที่ N-มิติเดียวกัน มีวิธีใดบ้างที่อนุญาตให้ฉันฉายจุดข้อมูลเหล่านี้ลงในพื้นที่สองมิติในขณะที่เก็บข้อมูลระยะทางสัมพัทธ์ไว้ในพื้นที่เดิม PCA ถูกต้องหรือไม่
ฉันมีชุดของจุดข้อมูลในช่องว่าง N- มิติ นอกจากนี้ฉันยังมีเซนทรอยด์ในพื้นที่ N-มิติเดียวกัน มีวิธีใดบ้างที่อนุญาตให้ฉันฉายจุดข้อมูลเหล่านี้ลงในพื้นที่สองมิติในขณะที่เก็บข้อมูลระยะทางสัมพัทธ์ไว้ในพื้นที่เดิม PCA ถูกต้องหรือไม่
คำตอบ:
กรอบงานทั่วไปที่แก้ไขปัญหาของคุณเรียกว่าการลดขนาด คุณต้องการฉายข้อมูลจากมิติ N ถึง 2 มิติในขณะที่รักษา "ข้อมูลที่จำเป็น" ไว้ในข้อมูลของคุณ วิธีการที่เหมาะสมที่สุดนั้นขึ้นอยู่กับการกระจายข้อมูลของคุณเช่น N-dimension manifold PCA จะพอดีกับเครื่องบินโดยใช้เกณฑ์กำลังสองน้อยที่สุด นี้อาจจะทำงานได้ไม่ดีสำหรับ "แยมโรล" ตัวอย่างเช่นแยมโรล
วิธีการที่ทันสมัยกว่า ได้แก่ Kernel PCA, LLE, แผนที่การกระจายและการกระจายพจนานุกรม เกี่ยวกับการเก็บรักษาระยะทางวิธีการบางอย่างสามารถรักษาระยะทางที่ไม่ใช่ยูคลิด
ดังที่ได้กล่าวไว้ในคำตอบก่อนหน้านี้มีวิธีการลดขนาดที่หลากหลายและสิ่งสำคัญที่ต้องพิจารณาคือสิ่งที่คุณพยายามนำเสนอ - คุณสนใจที่จะวัดระยะทางแบบยุคลิดหรือไม่? หรือการวัดความคล้ายคลึงกันของกลุ่มตัวอย่าง
สำหรับ PCA ในอดีตนั้นเหมาะสม มักใช้กับมาตรการต่อเนื่องเช่นการวัดตัวอย่าง (สัตว์พืชเป็นต้น ... ) ฉันจะพิจารณาคำกล่าวที่ทันสมัยกว่าในคำตอบก่อนหน้านี้ด้วย
สำหรับหลังที่คุณอาจลองเปรียบเทียบความคล้ายคลึงกันโดยใช้การวัดระยะทางแบบ non-euclidean มีวิธีการที่ดีอยู่สองสามอย่างเช่นการวางองค์ประกอบของหลักการ (PCoA) และ Non-metric Multidimensional Scaling (NMDS) ตัวอย่างของเวลาที่คุณอาจใช้สิ่งเหล่านี้คือเมื่อคุณเปรียบเทียบชุมชนทางนิเวศวิทยาระหว่างพื้นที่ต่าง ๆ และคุณมีสิ่งมีชีวิตหลายชนิดที่พบ ดังนั้นข้อมูลของคุณจึงเป็นข้อมูล "นับ" มีตัวชี้วัดความคล้ายคลึงกันจำนวนมากเช่น Jaccard, Sorensen, Bray-Curtis ซึ่งจะช่วยให้คุณประเมินว่าไซต์ที่คล้ายกันนั้นมีองค์ประกอบของสิ่งมีชีวิตอย่างไร PCoA และ NMDS นั้นให้คุณพล็อตตัวอย่าง (ไซต์) เพื่อแสดงระยะทางนิเวศวิทยา (ความคล้ายคลึงกัน) และคุณมีคะแนนสำหรับไซต์ในแต่ละแกน
มีหนังสือดีๆมากมายและแหล่งข้อมูลอื่น ๆ สำหรับการวิเคราะห์หลายตัวแปร ค้นหา "Ordination" บน Google นอกจากนี้ยังมีแพ็คเกจ R ที่เรียกว่า 'vegan' ซึ่งดีมากสำหรับการใช้งานจริงนี้มากมาย
ปัญหาของคุณเสียงเหมือนแอพลิเคชันข้อความ-book สำหรับการปรับหลายมิติ การแนะนำที่ดีสามารถพบได้ที่นี่: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
แน่นอนคุณสามารถลอง PCA แต่ PCA ไม่มีความตั้งใจที่จะเก็บข้อมูลระยะทางสัมพัทธ์ในพื้นที่เดิม