อะไรคือความแตกต่างระหว่าง Support Vector Machines และการวิเคราะห์จำแนกเชิงเส้น?
อะไรคือความแตกต่างระหว่าง Support Vector Machines และการวิเคราะห์จำแนกเชิงเส้น?
คำตอบ:
LDA: สมมติว่า: มีการกระจายข้อมูลตามปกติ ทุกกลุ่มมีการกระจายตัวเหมือนกันในกรณีที่กลุ่มมีเมทริกซ์ความแปรปรวนร่วมที่แตกต่างกัน LDA จะกลายเป็นการวิเคราะห์พหุนามกำลังสอง LDA เป็นผู้เลือกปฏิบัติที่ดีที่สุดที่มีอยู่ในกรณีที่สมมติฐานทั้งหมดเป็นจริง โดยวิธีการ QDA เป็นลักษณนามที่ไม่ใช่เชิงเส้น
SVM: จัดวาง Hyperplane แยกส่วนที่เหมาะสมที่สุด (OSH) OSH สมมติว่าทุกกลุ่มแยกกันโดยสิ้นเชิง SVM ใช้ 'ตัวแปรหย่อน' ที่อนุญาตให้มีการทับซ้อนจำนวนหนึ่งระหว่างกลุ่ม SVM ไม่ได้ตั้งสมมติฐานเกี่ยวกับข้อมูลเลยหมายความว่ามันเป็นวิธีการที่ยืดหยุ่นมาก ความยืดหยุ่นในทางกลับกันมักทำให้ยากต่อการตีความผลลัพธ์จากตัวจําแนก SVM เมื่อเทียบกับ LDA
การจัดหมวดหมู่ SVM เป็นปัญหาการเพิ่มประสิทธิภาพ LDA มีวิธีการวิเคราะห์ ปัญหาการปรับให้เหมาะสมสำหรับ SVM นั้นมีสูตรการคำนวณแบบคู่และเป็นครั้งแรกที่อนุญาตให้ผู้ใช้ปรับให้เหมาะสมกับจำนวนจุดข้อมูลหรือจำนวนของตัวแปรทั้งนี้ขึ้นอยู่กับวิธีการใดที่เป็นไปได้มากที่สุดในการคำนวณ SVM ยังสามารถใช้เมล็ดเพื่อแปลงลักษณนาม SVM จากลักษณนามเชิงเส้นเป็นลักษณนามที่ไม่ใช่เชิงเส้น ใช้เครื่องมือค้นหาที่คุณชื่นชอบเพื่อค้นหา 'SVM kernel trick' เพื่อดูว่า SVM ใช้ประโยชน์จากเมล็ดเพื่อแปลงพื้นที่พารามิเตอร์ได้อย่างไร
LDA ใช้ประโยชน์จากชุดข้อมูลทั้งหมดเพื่อประเมินเมทริกซ์ความแปรปรวนร่วมดังนั้นจึงค่อนข้างเสี่ยงต่อค่าผิดปกติ SVM ถูกปรับให้เหมาะสมกับชุดย่อยของข้อมูลซึ่งเป็นจุดข้อมูลที่อยู่บนระยะห่างระหว่างการแยก จุดข้อมูลที่ใช้สำหรับการปรับให้เหมาะสมนั้นเรียกว่าเวกเตอร์สนับสนุนเนื่องจากเป็นตัวกำหนดว่า SVM แยกแยะระหว่างกลุ่มได้อย่างไรและสนับสนุนการจำแนกประเภทอย่างไร
เท่าที่ฉันรู้ SVM ไม่ค่อยแยกแยะระหว่างสองคลาสมากกว่ากัน ทางเลือกที่แข็งแกร่งกว่าเดิมคือใช้การจำแนกโลจิสติก LDA จัดการหลายคลาสได้ดีตราบใดที่ตรงตามสมมติฐาน ฉันเชื่อว่า (คำเตือน: การเรียกร้องที่ไม่มีเงื่อนไขอย่างมาก) ว่าเกณฑ์มาตรฐานเก่าหลายแห่งพบว่า LDA มักจะทำงานได้ค่อนข้างดีภายใต้สถานการณ์มากมายและ LDA / QDA นั้นมักจะใช้วิธีการวิเคราะห์ในเบื้องต้น
LDA สามารถนำมาใช้สำหรับการเลือกคุณลักษณะเมื่อกับ LDA เบาบาง: https://web.stanford.edu/~hastie/Papers/sda_resubm_daniela-final.pdf SVM ไม่สามารถทำการเลือกคุณสมบัติได้
ในระยะสั้น: LDA และ SVM มีเหมือนกันน้อยมาก โชคดีที่พวกเขามีประโยชน์อย่างมาก
SVM มุ่งเน้นเฉพาะจุดที่ยากต่อการจำแนก LDA มุ่งเน้นไปที่จุดข้อมูลทั้งหมด จุดที่ยากลำบากเช่นอยู่ใกล้กับเขตแดนตัดสินใจและจะเรียกว่าการสนับสนุนเวกเตอร์ ขอบเขตการตัดสินใจสามารถเป็นแบบเส้นตรงได้เช่นกันเช่นเคอร์เนล RBF หรือเคอร์เนลแบบโพลิโนเมียล LDA คือการแปลงเชิงเส้นเพื่อเพิ่มความสามารถในการแยกได้สูงสุด
LDA สันนิษฐานว่าจุดข้อมูลมีความแปรปรวนร่วมเดียวกันและความหนาแน่นของความน่าจะเป็นจะถูกกระจายตามปกติ SVM ไม่มีสมมติฐานดังกล่าว
LDA เป็นระบบกำเนิด SVM เป็นแบบเลือกปฏิบัติ
Support vector machinesค้นหาตัวคั่นเชิงเส้น (การรวมกันเชิงเส้น, ไฮเปอร์เพลน) ที่แยกคลาสที่มีข้อผิดพลาดน้อยที่สุดและเลือกตัวคั่นด้วยระยะห่างสูงสุด (ความกว้างที่ขอบเขตอาจเพิ่มขึ้นก่อนที่จะกดจุดข้อมูล)
เช่นตัวคั่นเชิงเส้นที่แยกชั้นเรียนได้ดีที่สุด
หนึ่งที่มีระยะขอบสูงสุด:
การวิเคราะห์จำแนกเชิงเส้นค้นหาค่าเฉลี่ยเวกเตอร์ของแต่ละชั้นแล้วหาทิศทางการฉาย (การหมุน) ที่เพิ่มการแยกค่าเฉลี่ยสูงสุด:
นอกจากนี้ยังคำนึงถึงความแปรปรวนภายในคลาสเพื่อหาเส้นโครงซึ่งช่วยลดการทับซ้อนของการกระจาย (ความแปรปรวนร่วม) ในขณะที่เพิ่มการแยกค่าเฉลี่ยสูงสุด: