นี่เป็นคำถามที่กว้างมากซึ่งฉันคิดว่ามันเป็นไปไม่ได้ที่จะครอบคลุมในคำตอบเดียว ดังนั้นฉันคิดว่ามันจะมีประโยชน์มากขึ้นในการให้คำแนะนำและ / หรือแหล่งข้อมูลที่เกี่ยวข้อง นี่คือสิ่งที่ฉันจะทำโดยการให้ข้อมูลและความคิดของฉันต่อไปนี้
ก่อนอื่นฉันควรพูดถึงการสอนที่ยอดเยี่ยมและครอบคลุมเกี่ยวกับการลดขนาดโดย Burges (2009) จาก Microsoft Research เขาสัมผัสกับมิติข้อมูลสูงบ่อยครั้งตลอดทั้งเอกสาร งานนี้อ้างถึงการลดขนาดเป็นมิติลดลงนำเสนอทฤษฎีในปัญหาแนะนำอนุกรมวิธานของวิธีการลดมิติซึ่งประกอบด้วยวิธีการฉายภาพและวิธีการสร้างแบบจำลองหลากหลายรวมทั้งให้ภาพรวมของวิธีการต่างๆในแต่ละหมวดหมู่
"การprojectiveแสวงหา" วิธีการตรวจสอบรวมถึงการวิเคราะห์อิสระส่วนประกอบ (ICA) , การวิเคราะห์องค์ประกอบหลัก (PCA)และรูปแบบเช่นเคอร์เนล PCAและPCA น่าจะเป็น , การวิเคราะห์ความสัมพันธ์ที่ยอมรับ (CCA)และเคอร์เนล CCAเปลี่ยนแปลงเชิงเส้นวิเคราะห์จำแนก (LDA ) , ลดเคอร์เนลมิติ (KDR)และบางคนอื่น ๆ นานาวิธีการตรวจสอบรวมถึงการปรับหลายมิติ (MDS)และสถานที่สำคัญ MDSเปลี่ยนแปลงIsomap , เฉพาะเชิงเส้นฝังและวิธีการแบบกราฟิกเช่นeigenmaps Laplacianและการจัดกลุ่มสเปกตรัม ฉันจะแสดงรายการวิธีการตรวจสอบส่วนใหญ่ที่นี่ในกรณีที่หากสิ่งพิมพ์ต้นฉบับไม่สามารถเข้าถึงได้สำหรับคุณไม่ว่าจะทางออนไลน์ (ลิงก์ด้านบน) หรือออฟไลน์ (การอ้างอิง)
มีข้อแม้สำหรับคำว่า "ครอบคลุม" ที่ฉันได้นำไปใช้กับงานที่กล่าวถึงข้างต้น ในขณะที่มันเป็นจริงค่อนข้างครอบคลุมนี้เป็นญาติเป็นบางส่วนของวิธีการลดมิติจะไม่กล่าวถึงในเอกสารโดยเฉพาะอย่างยิ่งคนที่มุ่งเน้นการสำรวจ (แฝง) ตัวแปร แม้ว่าบางคนจะกล่าวถึงโดยอ้างอิงถึงแหล่งอื่น - หนังสือเกี่ยวกับการลดขนาด
ตอนนี้ฉันจะกล่าวถึงหัวข้อที่เป็นปัญหาโดยย่อโดยอ้างอิงถึงคำตอบที่เกี่ยวข้องหรือคำตอบที่เกี่ยวข้องของฉัน ในเรื่องเพื่อนบ้านที่ใกล้ที่สุด (NN) - ประเภทของข้อมูลมิติสูงโปรดดูคำตอบของฉันที่นี่ (โดยเฉพาะฉันแนะนำให้ตรวจสอบกระดาษ # 4 ในรายการของฉัน) หนึ่งในผลกระทบของการสาปแช่งของมิติคือว่าข้อมูลมิติสูงอยู่บ่อยเบาบาง เมื่อพิจารณาถึงข้อเท็จจริงนี้ฉันเชื่อว่าคำตอบที่เกี่ยวข้องของฉันที่นี่และที่นี่เกี่ยวกับการถดถอยและPCAสำหรับข้อมูลที่กระจัดกระจายและมิติสูงอาจเป็นประโยชน์
อ้างอิง
Burges, CJC (2010) การลดขนาด: ไกด์นำเที่ยว พื้นฐานและแนวโน้ม®ในการเรียนรู้ของเครื่อง, 2 (4), 275-365 ดอย: 10.1561 / 2200000002