A1 การลดขนาดคืออะไร: ถ้าคุณคิดว่าข้อมูลในเมทริกซ์โดยที่แถวเป็นอินสแตนซ์และคอลัมน์เป็นคุณลักษณะ (หรือคุณสมบัติ) การลดขนาดนั้นคือการแมปเมทริกซ์ข้อมูลนี้กับเมทริกซ์ใหม่ที่มีคอลัมน์น้อยลง สำหรับการสร้างภาพถ้าคุณคิดว่าแต่ละเมทริกซ์คอลัมน์ (คุณลักษณะ) เป็นมิติในพื้นที่คุณลักษณะแล้วการลดขนาดที่เป็นภาพของอินสแตนซ์จากพื้นที่มิติที่สูงขึ้น (คอลัมน์เพิ่มเติม) ไปยังพื้นที่ย่อยมิติต่ำ (คอลัมน์น้อยลง)
วัตถุประสงค์ทั่วไปสำหรับการเปลี่ยนแปลงครั้งนี้คือ (1) การเก็บรักษาข้อมูลในเมทริกซ์ข้อมูลในขณะที่ลดความซับซ้อนในการคำนวณ (2) การปรับปรุงความสามารถในการแบ่งแยกของคลาสที่แตกต่างกันในข้อมูล
A2 การลดขนาดเนื่องจากการเลือกคุณสมบัติหรือการแยกคุณสมบัติ: ฉันจะใช้ชุดข้อมูล Iris ที่แพร่หลายซึ่งเป็นเนื้อหา 'สวัสดีโลก' ของวิทยาศาสตร์ข้อมูล ชุดข้อมูล Iris สั้น ๆ มี 3 คลาสและ 4 คุณลักษณะ (คอลัมน์) ฉันจะแสดงให้เห็นถึงการเลือกคุณสมบัติและการแยกสำหรับงานการลดชุดข้อมูลของ Iris จาก 4 เป็น 2
ฉันคำนวณความแปรปรวนร่วมแบบคู่ที่ชาญฉลาดของชุดข้อมูลนี้โดยใช้ไลบรารีใน Python ชื่อ seaborn รหัสคือ: sns.pairplot (ไอริส, ฮิว = "สปีชีส์", เครื่องหมาย = ["o", "s", "D"]) รูปที่ฉันได้รับคือ
ฉันสามารถเลือกคู่ของคุณลักษณะ (2 มิติ) ที่ให้ ฉันแยกที่ยิ่งใหญ่ที่สุดระหว่าง 3 คลาส (สปีชีส์) ในชุดข้อมูลของ Iris นี่จะเป็นกรณีของการเลือกคุณลักษณะ
ถัดไปคือการดึงคุณสมบัติ ในที่นี้ฉันกำลังฉายพื้นที่คุณลักษณะ 4 มิติของ Iris ไปยังพื้นที่ย่อยสองมิติใหม่ซึ่งไม่ได้จัดแนวแกนกับพื้นที่เดิม เหล่านี้เป็นคุณสมบัติใหม่ พวกเขามักจะขึ้นอยู่กับการกระจายในพื้นที่มิติเดิม วิธีที่ได้รับความนิยมมากที่สุดคือการวิเคราะห์องค์ประกอบหลักซึ่งคำนวณ Eigenvectors ในพื้นที่ดั้งเดิม
เห็นได้ชัดว่าเราไม่ได้ถูก จำกัด ให้ใช้เฉพาะการฉายภาพเชิงเส้นและระดับโลกไปยังพื้นที่ย่อยตาม Eigenvectors เราสามารถใช้วิธีการฉายภาพแบบไม่เป็นเชิงเส้นได้เช่นกัน นี่คือตัวอย่างของ PCA ที่ไม่ใช่เชิงเส้นโดยใช้เครือข่ายประสาท
คุณลักษณะ (มิติ) ในตัวอย่างสุดท้ายถูกแยกออกมาจากแอตทริบิวต์ 4 ดั้งเดิมโดยใช้เครือข่ายประสาท คุณสามารถทดลองกับ PCA หลากหลายรสชาติสำหรับชุดข้อมูลม่านตาด้วยตัวคุณเองโดยใช้รหัสวิธี PCAนี้
สรุป: ขณะที่วิธีการดึงคุณสมบัติอาจดูเหนือกว่าในด้านประสิทธิภาพในการเลือกคุณสมบัติ แต่แอปพลิเคชั่นจะถูกเลือกล่วงหน้า โดยทั่วไปคุณลักษณะจากการแยกคุณลักษณะจะสูญเสียการตีความทางกายภาพซึ่งอาจหรืออาจจะไม่เป็นปัญหาตามงานในมือ ตัวอย่างเช่นถ้าคุณกำลังออกแบบเป็นงานที่เก็บรวบรวมข้อมูลมีราคาแพงมากด้วยเซ็นเซอร์ค่าใช้จ่ายและต้องประหยัดแอตทริบิวต์ (จำนวนเซ็นเซอร์ที่แตกต่างกัน), คุณต้องการที่จะเก็บตัวอย่างนักบินขนาดเล็กที่ใช้เซ็นเซอร์ที่มีอยู่ทั้งหมดแล้วเลือกคนที่ มีข้อมูลมากที่สุดสำหรับงานการรวบรวมข้อมูลขนาดใหญ่