นี่เป็นเรื่องราวสั้น ๆ เกี่ยวกับ การวิเคราะห์จำแนกเชิงเส้น (LDA) เพื่อตอบคำถาม
เมื่อเรามีตัวแปรหนึ่งตัวและกลุ่ม (คลาส) เพื่อแยกแยะมันนี่คือ ANOVA อำนาจการเลือกปฏิบัติของตัวแปรคือS S ระหว่างกลุ่ม/ S S ภายในกลุ่มหรือB / WkSSระหว่างกลุ่ม/เอสSภายในกลุ่มB / W W
เมื่อเรามีตัวแปรนี่คือ MANOVA หากตัวแปรนั้นไม่ได้มีความสัมพันธ์กันไม่ได้อยู่ในกลุ่มตัวอย่างทั้งหมดหรือภายในกลุ่มดังนั้นอำนาจการเลือกปฏิบัติข้างต้นคือB / Wจะถูกคำนวณแบบอะนาล็อกและสามารถเขียนเป็นt r aพีB / W/ T r คอี( S W )โดยที่ S wคือเมทริกซ์การกระจายภายในกลุ่ม (เช่นผลรวมของเมทริกซ์ k SSCPของตัวแปรโดยมีศูนย์กลางอยู่ที่เซนทรอยด์ของกลุ่มนั้น ๆ ) S ขt r a c e ( S)ข)/ trace( SW)SWk p x p
Sขคือเมทริกซ์การกระจายระหว่างกลุ่มโดยที่S t= Sเสื้อ- SWStคือเมทริกซ์กระจายสำหรับข้อมูลทั้งหมด (เมทริกซ์ SSCP ของตัวแปรที่มีศูนย์กลางที่แกรนด์เซนทรอยด์ ("เมทริกซ์กระจาย") เป็นเพียงเมทริกซ์แปรปรวนร่วม โดย sample_size-1)
เมื่อมีความสัมพันธ์ระหว่างตัวแปร - และมักจะมี - ข้างต้นแสดงโดยS - 1 w S bซึ่งไม่ได้เป็นสเกลาร์อีกต่อไป แต่เป็นเมทริกซ์ นี่เป็นเพียงเพราะมีpB/WS−1wSbpตัวแปรการแบ่งแยกซ่อนอยู่หลังการเลือกปฏิบัติ "โดยรวม" และการแบ่งปันบางส่วน
S−1wSbmin(p,k−1)mเลือกปฏิบัติโดยไม่สูญเสียอำนาจการเลือกปฏิบัติอย่างมาก (อีกครั้งคล้ายกับวิธีที่เราใช้ PCA) นี่คือสาระสำคัญของLDA ในฐานะของเทคนิคการลดขนาด (LDA เป็นเทคนิคการจัดหมวดหมู่ของ Bayes แต่นี่เป็นหัวข้อแยกทั้งหมด)
1B/Wฉันพูดถึงในวรรคแรก ยิ่งไปกว่านั้นมันเป็นสิ่งที่ควรค่าแก่การกล่าวถึงว่า discriminants ถึงแม้ว่าจะไม่ได้เกี่ยวข้องกันก็ตาม แต่ก็ไม่ได้ตั้งฉากแบบเรขาคณิตเหมือนแกนที่ถูกวาดในพื้นที่ตัวแปรดั้งเดิม
หัวข้อที่เกี่ยวข้องที่อาจเกี่ยวข้องที่คุณอาจต้องการอ่าน:
LDA คือ MANOVA "ที่ลึกลงไป" ในการวิเคราะห์โครงสร้างที่แฝงอยู่และเป็นกรณีเฉพาะของการวิเคราะห์ความสัมพันธ์ของ Canonical (ความเท่าเทียมที่แน่นอนระหว่างพวกเขาเช่นนี้ )
LDAจำแนกวัตถุอย่างไรและสัมประสิทธิ์ของฟิชเชอร์เป็นอย่างไร (ฉันเชื่อมโยงกับคำตอบของฉันเท่านั้นในขณะที่ฉันจำได้ แต่มีคำตอบที่ดีและดีกว่าจากคนอื่น ๆ ในเว็บไซต์นี้เช่นกัน)
1 LS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSbV=U−1EE(U−1)′SbU−1U
S−1wSbSwS−1/2wS−1/2wSbS−1/2wLAV=S−1/2wASwSb
Γ=L/(L+1)−−−−−−−−−√B/WB/T
V
C=N−k−−−−−√ VXCX
C0=−∑pdiag(X¯)Cdiag(X¯)∑p
K=diag(Sw)−−−−−−−−√VSw
กลุ่มความสัมพันธ์ภายในกลุ่ม ("เมทริกซ์โครงสร้าง" บางครั้งเรียกว่าการโหลด) ระหว่างตัวแปรและการเลือกปฏิบัติถูกกำหนดโดยR=diag(Sw)−1SwV
ดูผลผลิตที่สมบูรณ์ของขั้นตอนการสกัดของการวิเคราะห์จำแนกของม่านตาข้อมูลที่นี่
อ่านนี้คำตอบที่ดีในภายหลังซึ่งจะอธิบายอีกเล็กน้อยอย่างเป็นทางการและรายละเอียดสิ่งเดียวกับที่ผมทำที่นี่
นี้คำถามที่เกี่ยวข้องกับปัญหาของการสร้างมาตรฐานข้อมูลก่อนที่จะทำ LDA