วิธีการแบบเบย์และฟิชเชอร์เพื่อการวิเคราะห์จำแนกเชิงเส้น


10

ฉันรู้ 2 วิธีในการทำ LDA แนวทาง BayesianและวิธีของFisherวิธีการฟิชเชอร์

สมมติว่าเรามีข้อมูลโดยที่xคือตัวทำนายp -dimensional และyเป็นตัวแปรตามของK(x,Y)xพีYKคลาส

โดยวิธี Bayesianเราคำนวณหลังและในขณะที่กล่าวในหนังสือสมมติP(x|Yk)เป็นเสียนตอนนี้เรามีฟังก์ชั่นการจำแนกสำหรับkระดับ TH เป็นk ( x )

p(yk|x)=p(x|yk)p(yk)p(x)p(x|yk)p(yk)
p(x|yk)kฉันสามารถเห็นfk(x)เป็นฟังก์ชันเชิงเส้นของxดังนั้นสำหรับคลาสKทั้งหมดที่เรามีฟังก์ชัน discriminant แบบเชิงเส้นK
k(x)=LNพี(x|Yk)+LNพี(Yk)=LN[1(2π)พี/2|Σ|1/2ประสบการณ์(-12(x-μk)TΣ-1(x-μk))]+LNพี(Yk)=xTΣ-1μk-12μkTΣ-1μk+LNพี(Yk)
k(x)xKK

อย่างไรก็ตามด้วยวิธีของฟิชเชอร์เราพยายามฉายถึง( K - 1 )มิติพื้นที่เพื่อแยกฟีเจอร์ใหม่ซึ่งช่วยลดความแปรปรวนภายในคลาสและลดความแปรปรวนระหว่างคลาสให้ได้มากที่สุดสมมติว่าเมทริกซ์การฉายคือWโดยแต่ละคอลัมน์เป็นโครง ทิศทาง. วิธีนี้เป็นเหมือนเทคนิคการลดขนาดx(K-1)W

คำถามของฉันคือ

(1) เราสามารถลดขนาดโดยใช้วิธีการแบบเบย์ได้หรือไม่? ฉันหมายความว่าเราสามารถใช้วิธีการแบบเบส์เพื่อทำการจำแนกประเภทโดยค้นหาฟังก์ชัน discriminant ซึ่งให้ค่าที่ใหญ่ที่สุดสำหรับx ใหม่ แต่สามารถใช้ฟังก์ชัน discriminant เหล่านี้f k ( x )เพื่อฉายxไปสู่มิติที่ต่ำกว่า สเปซ? เช่นเดียวกับวิธีการของฟิชเชอร์k(x)x* * * *k(x)xไม่

(2) ทำและวิธีการทั้งสองวิธีที่เกี่ยวข้องกับแต่ละอื่น ๆ ? ฉันไม่เห็นความสัมพันธ์ใด ๆ ระหว่างพวกเขาเพราะดูเหมือนว่าจะสามารถจัดหมวดหมู่ด้วยค่าและอื่น ๆ มีวัตถุประสงค์หลักเพื่อลดขนาดk(x)

UPDATE

ขอบคุณ @amoeba ตามหนังสือ ESL ฉันพบสิ่งนี้: ป้อนคำอธิบายรูปภาพที่นี่

และนี่คือฟังก์ชั่นการจำแนกเชิงเส้นที่ได้มาผ่านทฤษฎีบท Bayes บวกสมมติว่าทุกชั้นมีเมทริกซ์ความแปรปรวนเดียวกันΣและฟังก์ชั่นจำแนกนี้เป็น SAME เหมือนหนึ่งf k ( x ) ที่ฉันเขียนไว้ด้านบนΣk(x)

ฉันสามารถใช้เป็นทิศทางที่จะฉายxเพื่อลดขนาดได้หรือไม่? ฉันไม่แน่ใจเกี่ยวกับเรื่องนี้ตั้งแต่ AFAIK การลดขนาดทำได้โดยการวิเคราะห์ความแปรปรวนระหว่างΣ-1μkx

อัพเดทอีกครั้ง

จากส่วน 4.3.3 นี่คือวิธีที่การคาดการณ์เหล่านี้ได้รับ:

ป้อนคำอธิบายรูปภาพที่นี่

และแน่นอนมันถือว่าความแปรปรวนร่วมที่ใช้ร่วมกันระหว่างคลาสนั่นคือเมทริกซ์ความแปรปรวนร่วมทั่วไป (สำหรับความแปรปรวนร่วมระดับภายใน)Wใช่ไหม ปัญหาของฉันคือฉันจะคำนวณนี้จากข้อมูลได้อย่างไร เนื่องจากฉันจะมีเมทริกซ์ความแปรปรวนร่วมระดับK ที่แตกต่างกันถ้าฉันพยายามคำนวณWจากข้อมูล ดังนั้นผมจึงต้องสระว่ายน้ำทุกระดับแปรปรวนร่วมกันที่จะได้รับร่วมกันหรือไม่WKW


1
คุณถามสองสิ่งผสมกัน ฉันคิดว่าคุณยังไม่ได้ทำการสนทนากับคำถามก่อนหน้านี้ สิ่งที่คุณอธิบายก่อนคือวิธีการจำแนกแบบเบย์ (ไม่ใช่ "วิธีเข้าแบบเบย์กับ LDA") วิธีการนี้สามารถใช้ (1) กับตัวแปรดั้งเดิมเป็นตัวจำแนกประเภทหรือ (2) กับ discriminants ที่ได้รับใน LDA เป็นตัวจำแนกประเภท อะไรคือแนวทางของฟิชเชอร์
ttnphns

1
(ต่อ) "LDA ของฟิชเชอร์"เป็นเพียง LDA ที่มี K = 2 เมื่อทำการจำแนกภายใน LDA ฟิชเชอร์ดังกล่าวได้คิดค้นสูตรของตัวเองเพื่อทำการจัดหมวดหมู่ สูตรเหล่านี้สามารถใช้ได้กับ K> 2 ด้วย วิธีการจัดหมวดหมู่ของเขาแทบจะไม่ได้ใช้กันทุกวันนี้เพราะวิธีการของเบย์นั้นเป็นเรื่องทั่วไปมากกว่า
ttnphns

1
@ttnphns เหตุผลที่ฉันสับสนเพราะหนังสือเกือบทุกเล่มที่ฉันพูดถึงเกี่ยวกับ LDA โดยใช้วิธี Bayesian นี้บรรยาย LDA เป็นรูปแบบกำเนิดพวกเขาไม่ได้พูดถึงอัตราส่วนของความแปรปรวนระหว่างกลุ่มและภายในกลุ่ม .
อะโวคาโด

1
@loganecolss: คุณเห็นคำตอบของฉันด้านล่างหรือไม่ คุณมีคำถามเกี่ยวกับเรื่องนี้หรือไม่? ฉันสับสนเล็กน้อยเพราะฉันคิดว่าฉันอธิบายสิ่งที่คุณขอตอนนี้อีกครั้งในความคิดเห็น "ความแปรปรวนระหว่างภายใน" เป็นวิธีเชิงคณิตศาสตร์เทียบเท่ากับ "วิธี Bayesian" โดยมีสมมติฐานของความแปรปรวนร่วมที่เท่ากัน คุณสามารถคิดว่านี่เป็นทฤษฎีบททางคณิตศาสตร์ที่น่าแปลกใจถ้าคุณต้องการ หลักฐานที่ให้ไว้ในหนังสือของ Hastie ซึ่งสามารถใช้งานออนไลน์ได้อย่างอิสระและในตำราเรียนอื่น ๆ ของเครื่องก็เช่นกัน ดังนั้นฉันไม่แน่ใจว่า "วิธีแท้จริงในการทำ LDA" อาจหมายถึงอะไร ทั้งสองวิธีที่เหมือนกัน
อะมีบา

1
@loganecolss: เชื่อฉันพวกเขาเทียบเท่า :) ใช่คุณควรจะได้รับการคาดการณ์ แต่คุณต้องมีข้อสันนิษฐานเพิ่มเติมของเมทริกซ์ความแปรปรวนร่วมที่เท่ากัน (ตามที่ฉันเขียนไว้ในคำตอบของฉัน) ดูความคิดเห็นของฉันด้านล่าง
อะมีบา

คำตอบ:


11

ฉันจะให้คำตอบสั้น ๆ อย่างไม่เป็นทางการเท่านั้นและอ้างอิงถึงหัวข้อ 4.3 องค์ประกอบของการเรียนรู้ทางสถิติเพื่อดูรายละเอียด

ปรับปรุง: "องค์ประกอบ" เกิดขึ้นเพื่อให้ครอบคลุมในรายละเอียดมากว่าคำถามที่คุณจะถามที่นี่รวมทั้งสิ่งที่คุณเขียนในการปรับปรุงของคุณ ส่วนที่เกี่ยวข้องคือ 4.3 และโดยเฉพาะอย่างยิ่ง 4.3.2-4.3.3

(2) ทำและวิธีการทั้งสองวิธีที่เกี่ยวข้องกับแต่ละอื่น ๆ ?

x

xx

ข้อมูลเชิงลึกที่สำคัญคือสมการลดความซับซ้อนมากถ้าสมมติว่าชั้นเรียนทุกคนมีความแปรปรวนเหมือน[ ปรับปรุง:ถ้าคุณคิดว่ามันทั้งหมดพร้อมนี้อาจเป็นส่วนหนึ่งของความเข้าใจผิด] ในกรณีที่ขอบเขตการตัดสินใจกลายเป็นเชิงเส้นและนั่นคือเหตุผลที่กระบวนการนี้เรียกว่าการวิเคราะห์จำแนกเชิงเส้น LDA

ต้องใช้พีชคณิตผสมเพื่อตระหนักว่าในกรณีนี้สูตรจริง ๆ แล้วเทียบเท่ากับที่ฟิชเชอร์ทำงานโดยใช้วิธีการของเขา คิดว่าเป็นทฤษฎีบททางคณิตศาสตร์ ดูตำราของ Hastie สำหรับคณิตศาสตร์ทั้งหมด

(1) เราสามารถลดขนาดโดยใช้วิธีแบบเบย์ได้หรือไม่?

ถ้าโดย "Bayesian approach" คุณหมายถึงการจัดการกับเมทริกซ์ความแปรปรวนร่วมที่แตกต่างกันในแต่ละชั้นดังนั้นไม่ อย่างน้อยมันจะไม่เป็นการลดขนาดเชิงเส้น (ไม่เหมือนกับ LDA) เนื่องจากสิ่งที่ฉันเขียนไว้ด้านบน

Σ-1μkkΣ-1MMμk


1
+1 ฉันอาจจะเชื่อมโยงไปยังคำตอบของตัวเองกล่าวขวัญ QDA ฉันstats.stackexchange.com/a/71571/3277
ttnphns

X

Σ

k(x)k(x)xΣ-1μk

ฉันอัปเดตโพสต์ของฉันเพิ่มคลิปของส่วน 4.3
อะโวคาโด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.