การวิเคราะห์จำแนกเชิงเส้นและกฎของเบย์: การจำแนกประเภท


12

ความสัมพันธ์ระหว่างการวิเคราะห์จำแนกเชิงเส้นและกฎเบย์คืออะไร? ฉันเข้าใจว่า LDA ถูกใช้ในการจัดหมวดหมู่โดยพยายามลดอัตราส่วนความแปรปรวนภายในกลุ่มและระหว่างความแปรปรวนกลุ่ม แต่ฉันไม่ทราบว่ากฎของ Bayes ใช้งานอย่างไร


ฟังก์ชันแยกจะถูกแยกเพื่อเพิ่มความแตกต่างระหว่างกลุ่มกับอัตราส่วนความแปรปรวนภายในกลุ่มสูงสุด มันไม่มีส่วนเกี่ยวข้องกับการจัดประเภทซึ่งเป็นขั้นตอนที่สองและเป็นเอกเทศของ LDA
ttnphns

คำตอบ:


16

การจำแนกประเภทใน LDA เป็นไปตาม (แนวทางของ Bayes) [เกี่ยวกับการแยกความแตกต่างเราอาจดูที่นี่ ]

ตามทฤษฎีบทของเบย์ความน่าจะเป็นที่ต้องการสำหรับเราที่เกี่ยวข้องกับคลาสขณะที่สังเกตจุดคือโดยที่x P ( k | x ) = P ( k ) P ( x | k ) / P ( x )kxP(k|x)=P(k)P(x|k)/P(x)

k P ( x ) x P ( x | k ) x k kP(k) - ความน่าจะเป็นแบบไม่มีเงื่อนไข (พื้นหลัง) ของคลาส ; - ความน่าจะเป็นแบบไม่มีเงื่อนไข (พื้นหลัง) ของจุด ; - น่าจะเป็นของการปรากฏตัวของจุดในชั้นเรียนถ้าชั้นเป็นเรื่องที่เกี่ยวข้องกับมีkkP(x)xP(x|k)xkk

"การสังเกตจุดในปัจจุบัน" เป็นเงื่อนไขพื้นฐานและเพื่อให้สามารถละเว้นส่วนได้ ดังนั้นk)P ( x ) = 1 P ( k | x ) = P ( k ) P ( x | k )xP(x)=1P(k|x)=P(k)P(x|k)

x k P ( k ) P ( k ) P ( k | x ) x k P ( x | k )P(k)เป็นความน่าจะเป็นก่อน (ก่อนการวิเคราะห์) ที่คลาสเนทีฟสำหรับคือ ; ถูกระบุโดยผู้ใช้ โดยปกติแล้วคลาสทั้งหมดจะได้รับ = 1 / number_of_classes ที่เท่ากัน เพื่อคำนวณคือหลัง (โพสต์วิเคราะห์) ความน่าจะเป็นว่าชนชั้นพื้นเมืองสำหรับมีหนึ่งควรรู้ว่าk)xkP(k)P(k)P(k|x)xkP(x|k)

P ( x | k ) x k P D F ( x | k ) p pP(x|k) - ความน่าจะเป็นต่อ se - ไม่สามารถหาได้สำหรับการเลือกปฏิบัติประเด็นหลักของ LDA นั้นมีความต่อเนื่องไม่ใช่ตัวแปรที่ไม่ต่อเนื่อง จำนวนที่แสดงในกรณีนี้และเป็นสัดส่วนกับความหนาแน่นของความน่าจะเป็น (ฟังก์ชัน PDF) ด้วยเหตุนี้เราจำเป็นต้องคำนวณ PDF สำหรับจุดในคลาส ,ในการแจกแจงปกติ -dimensional ที่เกิดขึ้นโดยค่าของdiscriminants[ดูวิกิพีเดียการแจกแจงปกติหลายตัวแปรใน Wikipedia]P(x|k)xkPDF(x|k)pp

PDF(x|k)=ed/2(2π)p/2|S|)

โดยที่ - กำลังสองของระยะทาง Mahalanobis [ดู Wikipedia ระยะทาง Mahalanobis] ในพื้นที่จำแนกของ discriminants จากจุดไปยัง centroid ในชั้นเรียน - เมทริกซ์ความแปรปรวนร่วมระหว่าง discriminantsสังเกตได้ในชั้นเรียนนั้นx SdxS

คำนวณด้วยวิธีนี้สำหรับแต่ละคลาส สำหรับจุดและคลาสแสดงความต้องการสำหรับเรา แต่ด้วยการสำรองข้างต้นที่ PDF ไม่ใช่ความน่าจะเป็นต่อเพียงสัดส่วนเท่านั้นเราควรทำให้มาตรฐานหารด้วยผลรวมของทุกชั้นเรียน ตัวอย่างเช่นหากมี 3 คลาสในทั้งหมด , ,ดังนั้นP ( k ) * P D F ( x | k ) x k P ( k ) * P ( x | k ) P ( k ) * P D F ( x | k ) P ( k ) P D F ( x | k ) kPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)P(k)PDF(x|k)P(k)PDF(x|k)kเมตรlm

P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

จุดถูกกำหนดโดย LDA ให้กับคลาสที่สูงที่สุดxP(k|x)

บันทึก. นี่เป็นวิธีการทั่วไป โปรแกรม LDA จำนวนมากโดยค่าเริ่มต้นจะใช้พูลภายในเมทริกซ์สำหรับคลาสทั้งหมดในสูตรสำหรับ PDF ด้านบน ถ้าเป็นเช่นนั้นช่วยลดความยุ่งยากสูตรอย่างมากเพราะเช่นใน LDA เป็นเมทริกซ์เอกลักษณ์ (ดูเชิงอรรถด้านล่างที่นี่ ) และด้วยเหตุนี้และผลัดกันเป็นระยะทางแบบยุคลิดสแควร์ (การแจ้งเตือน: รวบรวมภายในระดับเรากำลังพูดถึงคือความแปรปรวนร่วมระหว่าง discriminants - ไม่ใช่ระหว่างตัวแปรอินพุตซึ่ง matrix มักจะถูกกำหนดเป็น )SS|S|=1dSSw

การเพิ่ม ก่อนที่กฎการจัดหมวดหมู่ของBayesข้างต้นนั้นได้รับการแนะนำให้รู้จักกับ LDA ชาวประมงผู้บุกเบิก LDA ได้นำเสนอการคำนวณในขณะนี้ที่เรียกว่าฟังก์ชั่นการจำแนกเชิงเส้นของฟิชเชอร์เพื่อจำแนกคะแนนใน LDA สำหรับจุดคะแนนฟังก์ชันของคลาสคือการรวมกันเชิงเส้นโดยที่เป็นตัวแปรตัวทำนายในการวิเคราะห์xkbkv1V1x+bkv2V2x+...+ConstkV1,V2,...Vp

สัมประสิทธิ์ ,เป็นจำนวนของคลาสและเป็นองค์ประกอบของการกระจายภายในกลุ่ม เมทริกซ์ของตัวแปร g s v w p Vbkv=(ng)wpsvwV¯kwgsvwp V

Constk=log(P(k))(vpbkvV¯kv)/2 2

Pointได้รับมอบหมายให้เรียนในชั้นที่มีคะแนนสูงสุด ผลการจำแนกประเภทที่ได้จากวิธีการของฟิชเชอร์นี้ (ซึ่งข้ามการสกัด discriminants ใน eigendecomposition ที่ซับซ้อน) เหมือนกันกับวิธีที่ได้จากวิธีของเบย์เฉพาะในกรณีที่พูลร่วมภายในเมทริกซ์ความแปรปรวนร่วมคลาสใช้กับวิธีของเบย์ ด้านบน) และการเลือกปฏิบัติทั้งหมดถูกใช้ในการจำแนกประเภท วิธีการ Bayes' เป็นทั่วไปมากขึ้นเพราะจะช่วยให้ใช้แยกต่างหากฝึกอบรมภายในชั้นเรียนได้เป็นอย่างดีx


นี่คือวิธีการแบบเบย์ใช่ไหม? อะไรคือแนวทางของฟิชเชอร์ในเรื่องนี้?
zca0

1
เพิ่มคำตอบตามคำขอของคุณแล้ว
ttnphns

XKp(K|X)p(K|X)K

และฉันคิดว่าวิธีการของเบย์นั้นเป็นที่เข้าใจมากขึ้นและทำไมเราต้องใช้วิธีการของฟิชเชอร์
อะโวคาโด

เราไม่ต้องการ เพียงเพื่อเรื่องทางประวัติศาสตร์
ttnphns

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.