พีชคณิตของ LDA อำนาจการแยกแยะฟิชเชอร์ของตัวแปรและการวิเคราะห์จำแนกเชิงเส้น


13

เห็นได้ชัดว่า

การวิเคราะห์แบบฟิชเชอร์มีจุดมุ่งหมายที่จะเพิ่มการแยกระหว่างคลาสให้สูงสุดพร้อม ๆ กับลดการกระจายตัวของคลาสภายใน วัดที่มีประโยชน์ของอำนาจจำแนกของตัวแปรจึงจะได้รับโดยปริมาณเส้นทแยงมุม: ฉันBii/Wii

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

ผมเข้าใจว่าขนาด ( p x p) ของระหว่าง ( B ) และภายใน-Class ( W ) pการฝึกอบรมจะได้รับจากจำนวนของตัวแปรการป้อนข้อมูล ให้นี้วิธีที่สามารถจะเป็น "วัดที่มีประโยชน์ของอำนาจจำแนก" ของตัวแปรเดียว? ต้องมีตัวแปรอย่างน้อยสองตัวในการสร้างเมทริกซ์ B และ W ดังนั้นการติดตามที่เกี่ยวข้องจะเป็นตัวแทนของตัวแปรมากกว่าหนึ่งตัวBii/Wii

ปรับปรุง: ฉันขวาในการคิดว่าไม่ได้เป็นร่องรอยกว่าร่องรอยที่รวมเป็นนัย แต่องค์ประกอบเมทริกซ์B ฉันฉันBii/WiiBiiหารด้วย ? ปัจจุบันเป็นวิธีเดียวที่ฉันสามารถปรับการแสดงออกด้วยแนวคิดWii

คำตอบ:


24

นี่เป็นเรื่องราวสั้น ๆ เกี่ยวกับ การวิเคราะห์จำแนกเชิงเส้น (LDA) เพื่อตอบคำถาม

เมื่อเรามีตัวแปรหนึ่งตัวและกลุ่ม (คลาส) เพื่อแยกแยะมันนี่คือ ANOVA อำนาจการเลือกปฏิบัติของตัวแปรคือS S ระหว่างกลุ่ม/ S S ภายในกลุ่มหรือB / WkSSbetween groups/SSwithin groupsB/W W

เมื่อเรามีตัวแปรนี่คือ MANOVA หากตัวแปรนั้นไม่ได้มีความสัมพันธ์กันไม่ได้อยู่ในกลุ่มตัวอย่างทั้งหมดหรือภายในกลุ่มดังนั้นอำนาจการเลือกปฏิบัติข้างต้นคือB / Wจะถูกคำนวณแบบอะนาล็อกและสามารถเขียนเป็นt r apB/W/ T r อี( S W )โดยที่ S wคือเมทริกซ์การกระจายภายในกลุ่ม (เช่นผลรวมของเมทริกซ์ k SSCPของตัวแปรโดยมีศูนย์กลางอยู่ที่เซนทรอยด์ของกลุ่มนั้น ๆ ) S trace(Sb)/trace(Sw)Swk p x p Sbคือเมทริกซ์การกระจายระหว่างกลุ่มโดยที่S t=StSwStคือเมทริกซ์กระจายสำหรับข้อมูลทั้งหมด (เมทริกซ์ SSCP ของตัวแปรที่มีศูนย์กลางที่แกรนด์เซนทรอยด์ ("เมทริกซ์กระจาย") เป็นเพียงเมทริกซ์แปรปรวนร่วม โดย sample_size-1)

เมื่อมีความสัมพันธ์ระหว่างตัวแปร - และมักจะมี - ข้างต้นแสดงโดยS - 1 w S bซึ่งไม่ได้เป็นสเกลาร์อีกต่อไป แต่เป็นเมทริกซ์ นี่เป็นเพียงเพราะมีpB/WSw1Sbpตัวแปรการแบ่งแยกซ่อนอยู่หลังการเลือกปฏิบัติ "โดยรวม" และการแบ่งปันบางส่วน

Sw1Sbmin(p,k1)mเลือกปฏิบัติโดยไม่สูญเสียอำนาจการเลือกปฏิบัติอย่างมาก (อีกครั้งคล้ายกับวิธีที่เราใช้ PCA) นี่คือสาระสำคัญของLDA ในฐานะของเทคนิคการลดขนาด (LDA เป็นเทคนิคการจัดหมวดหมู่ของ Bayes แต่นี่เป็นหัวข้อแยกทั้งหมด)

1B/Wฉันพูดถึงในวรรคแรก ยิ่งไปกว่านั้นมันเป็นสิ่งที่ควรค่าแก่การกล่าวถึงว่า discriminants ถึงแม้ว่าจะไม่ได้เกี่ยวข้องกันก็ตาม แต่ก็ไม่ได้ตั้งฉากแบบเรขาคณิตเหมือนแกนที่ถูกวาดในพื้นที่ตัวแปรดั้งเดิม

หัวข้อที่เกี่ยวข้องที่อาจเกี่ยวข้องที่คุณอาจต้องการอ่าน:

LDA คือ MANOVA "ที่ลึกลงไป" ในการวิเคราะห์โครงสร้างที่แฝงอยู่และเป็นกรณีเฉพาะของการวิเคราะห์ความสัมพันธ์ของ Canonical (ความเท่าเทียมที่แน่นอนระหว่างพวกเขาเช่นนี้ ) LDAจำแนกวัตถุอย่างไรและสัมประสิทธิ์ของฟิชเชอร์เป็นอย่างไร (ฉันเชื่อมโยงกับคำตอบของฉันเท่านั้นในขณะที่ฉันจำได้ แต่มีคำตอบที่ดีและดีกว่าจากคนอื่น ๆ ในเว็บไซต์นี้เช่นกัน)


1 LSw1Sb(U1)SbU1USwUU=SwSw1SbV=U1EE(U1)SbU1U

Sw1SbSwSw1/2Sw1/2SbSw1/2LAV=Sw1/2ASwSb

Γ=L/(L+1)B/WB/T

V

C=Nk VXCX

C0=pdiag(X¯)Cdiag(X¯)p

K=diag(Sw)VSw

กลุ่มความสัมพันธ์ภายในกลุ่ม ("เมทริกซ์โครงสร้าง" บางครั้งเรียกว่าการโหลด) ระหว่างตัวแปรและการเลือกปฏิบัติถูกกำหนดโดยR=diag(Sw)1SwV


ดูผลผลิตที่สมบูรณ์ของขั้นตอนการสกัดของการวิเคราะห์จำแนกของม่านตาข้อมูลที่นี่

อ่านนี้คำตอบที่ดีในภายหลังซึ่งจะอธิบายอีกเล็กน้อยอย่างเป็นทางการและรายละเอียดสิ่งเดียวกับที่ผมทำที่นี่

นี้คำถามที่เกี่ยวข้องกับปัญหาของการสร้างมาตรฐานข้อมูลก่อนที่จะทำ LDA


X

1
ใช่. อย่างไรก็ตามคำว่า "วิธีการของฟิชเชอร์" นั้นไม่ชัดเจน มันอาจหมายถึง 2 สิ่ง: 1) LDA (สำหรับ 2 คลาส)เอง ; 2) ฟังก์ชั่นการจำแนกของฟิชเชอร์ใน LDA
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.