การลดขนาดแบบมีผู้สอน


13

ฉันมีชุดข้อมูลซึ่งประกอบด้วยตัวอย่างที่มีป้ายกำกับ 15K (จาก 10 กลุ่ม) ฉันต้องการนำการลดขนาดมาใช้เป็น 2 มิติโดยคำนึงถึงความรู้เกี่ยวกับฉลาก

เมื่อฉันใช้เทคนิคการลดขนาดที่ไม่ได้รับอนุญาต "มาตรฐาน" เช่น PCA พล็อตกระจายดูเหมือนจะไม่มีส่วนเกี่ยวข้องกับฉลากที่รู้จัก

สิ่งที่ฉันกำลังมองหามีชื่อหรือไม่? ฉันต้องการอ่านการอ้างอิงของการแก้ปัญหา


3
หากคุณกำลังมองหาวิธีการเชิงเส้นการวิเคราะห์ discriminant เชิงเส้น (LDA) คือสิ่งที่คุณควรใช้
อะมีบาพูดว่า Reinstate Monica

@ amoeba: ขอบคุณ ฉันใช้มันและมันทำงานได้ดีขึ้นมาก!
Roy

ดีใจที่มันช่วย ฉันให้คำตอบสั้น ๆ พร้อมการอ้างอิงเพิ่มเติม
อะมีบาพูดว่า Reinstate Monica

1
ความเป็นไปได้อย่างหนึ่งคือลดพื้นที่เก้ามิติที่ครอบคลุมเซนทรอยด์ของชั้นเรียนก่อนจากนั้นใช้ PCA เพื่อลดขนาดลงอีกสองมิติ
A. Donda

ที่เกี่ยวข้อง: stats.stackexchange.com/questions/16305 (อาจซ้ำกัน แต่อาจจะเป็นรอบ ๆ ฉันจะกลับมาที่นี่หลังจากที่ฉันอัปเดตคำตอบของฉันด้านล่าง)
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


27

วิธีการเชิงเส้นมาตรฐานที่มากที่สุดของการลดขนาดที่ถูกควบคุมดูแลเรียกว่าการวิเคราะห์เชิงเส้น (LDA) มันถูกออกแบบมาเพื่อค้นหาการฉายภาพในระดับต่ำที่เพิ่มการแยกชั้นเรียนให้สูงสุด คุณสามารถค้นหาข้อมูลจำนวนมากเกี่ยวกับเรื่องนี้อยู่ภายใต้ของเราแท็กและในการเรียนรู้เครื่องใดตำราเรียนเช่นใช้ได้อย่างอิสระเช่นองค์ประกอบของการเรียนรู้ทางสถิติ

นี่คือรูปภาพที่ฉันพบที่นี่พร้อมการค้นหา google อย่างรวดเร็ว มันแสดงให้เห็นถึงการประมาณหนึ่งมิติ PCA และ LDA เมื่อมีสองคลาสในชุดข้อมูล (ที่มาเพิ่มโดยฉัน):

PCA กับ LDA

อีกวิธีหนึ่งเรียกว่าบางส่วนกำลังสองน้อยที่สุด (PLS) LDA สามารถตีความได้ว่ามองหาการคาดการณ์ที่มีความสัมพันธ์มากที่สุดกับตัวแปรจำลองการเข้ารหัสฉลากกลุ่ม (ในกรณีนี้ LDA สามารถถูกมองว่าเป็นกรณีพิเศษของการวิเคราะห์ความสัมพันธ์แบบบัญญัติ, CCA) ในทางตรงกันข้าม PLS มองหาการคาดการณ์ที่มีความแปรปรวนร่วมสูงสุดกับฉลากกลุ่ม ในขณะที่ LDA ให้ผลตอบแทนเพียง 1 แกนสำหรับกรณีของสองกลุ่ม (เช่นในภาพด้านบน) PLS จะค้นหาแกนจำนวนมากที่ได้รับคำสั่งจากความแปรปรวนร่วมที่ลดลง โปรดทราบว่าเมื่อมีมากกว่าสองกลุ่มในชุดข้อมูลจะมี "รสชาติ" ที่แตกต่างกันของ PLS ที่จะให้ผลลัพธ์ที่แตกต่างกันบ้าง

อัปเดต (2018)

ฉันควรหาเวลาขยายคำตอบนี้ กระทู้นี้ดูเหมือนจะเป็นที่นิยม แต่คำตอบเดิมของฉันข้างต้นสั้นมากและไม่ละเอียดพอ

ในขณะเดียวกันฉันจะพูดถึงการวิเคราะห์ส่วนประกอบในพื้นที่ใกล้เคียง - วิธีการเชิงเส้นที่พบการประมาณการเพิ่มความแม่นยำในการจำแนกใกล้เคียงที่สุดเพื่อนบ้าน มีวิธีการไม่เชิงเส้นโดยใช้โครงข่ายประสาทเทียมดูการเรียนรู้การฝังแบบไม่เชิงเส้นโดยการรักษาโครงสร้างย่านชั้นเรียนไว้ หนึ่งยังสามารถใช้ลักษณนามเครือข่ายประสาทกับคอขวดให้ดูลึกคอขวดลักษณนามในภายใต้การควบคุมขนาดลดลงk


1
กราฟิกที่ดีอธิบายได้มาก
Titou
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.