วิธีการ LDA ซึ่งเป็นเทคนิคการจำแนกประเภทยังทำหน้าที่เป็นเทคนิคการลดขนาดเช่น PCA


19

ในบทความนี้ ผู้เขียนเชื่อมโยงการวิเคราะห์จำแนกเชิงเส้น (LDA) กับการวิเคราะห์องค์ประกอบหลัก (PCA) ด้วยความรู้ที่ จำกัด ของฉันฉันไม่สามารถทำตามวิธี LDA ได้ค่อนข้างคล้ายกับ PCA

ฉันคิดเสมอว่า LDA เป็นรูปแบบของอัลกอริทึมการจำแนกประเภทซึ่งคล้ายกับการถดถอยโลจิสติก ฉันจะซาบซึ้งในความช่วยเหลือในการทำความเข้าใจว่า LDA คล้ายกับ PCA อย่างไรเช่นเป็นเทคนิคการลดขนาด


2
มันไม่ถูกต้องที่จะเรียก LDA เพียงเทคนิคการจำแนกประเภท มันเป็นเทคนิคคอมโพสิต 2 ขั้นตอน: ลดมิติแรกแล้วจำแนก ในฐานะที่เป็นการลดขนาดมันจะถูกตรวจสอบไม่เหมือน PCA การจำแนกประเภทจะพิจารณาความน่าจะเป็นที่ขอบซึ่งแตกต่างจากการถดถอยโลจิสติก
ttnphns

มีความชัดเจนที่จะใช้คำว่า 'การลดมิติข้อมูล' เพื่อจัดการกับวิธีการเรียนรู้ที่ไม่ได้รับอนุญาตเท่านั้นเช่นการวิเคราะห์การจัดกลุ่มและการทำซ้ำซ้อน LDA มีการควบคุมการเรียนรู้อย่างเข้มงวดดังนั้นจะสร้างความลำเอียงที่เกินความจริงเพราะมันจะถูกใช้ในขั้นตอนแรกของการลดข้อมูล
Frank Harrell

คำถามที่คล้ายกันมากเก่า: stats.stackexchange.com/q/22884/3277
ttnphns

1
ยกตัวอย่างเช่นแฟรงค์กลยุทธ์ที่หลากหลายของการเลือกคุณสมบัติสามารถนำไปใช้ในขั้นตอนที่ 1 ของ LDA (รวมถึงวิธีการที่น่ารังเกียจสำหรับคุณ :-)
ttnphns

คำตอบ:


22

ดังที่ฉันได้บันทึกไว้ในความคิดเห็นสำหรับคำถามของคุณการวิเคราะห์จำแนกเป็นขั้นตอนประกอบที่มีสองขั้นตอนที่แตกต่างกันคือการลดมิติ (กำกับดูแล) และขั้นตอนการจำแนก ในการลดขนาดเราแยกฟังก์ชั่นที่เลือกปฏิบัติซึ่งเข้ามาแทนที่ตัวแปรอธิบายดั้งเดิม จากนั้นเราจัดประเภทการสังเกต (โดยทั่วไปตามวิธีของเบย์) ให้กับชั้นเรียนโดยใช้ฟังก์ชั่นเหล่านั้น

บางคนมักจะล้มเหลวในการรับรู้ลักษณะสองขั้นตอนที่ชัดเจนของ LDA เพียงเพราะพวกเขาได้ทำความคุ้นเคยกับ LDA ที่มี 2 คลาสเท่านั้น (เรียกว่าการวิเคราะห์จำแนกของฟิชเชอร์ ) ในการวิเคราะห์ดังกล่าวมีเพียงฟังก์ชันจำแนกอย่างเดียวเท่านั้นที่มีอยู่และการจำแนกประเภทเป็นแบบตรงไปตรงมาและทุกอย่างสามารถอธิบายได้ในตำราเรียนใน "ผ่าน" เดียวโดยไม่ต้องเชิญแนวคิดเรื่องการลดพื้นที่

LDA นั้นเกี่ยวข้องกับ MANOVA อย่างใกล้ชิด ด้านหลังเป็นด้าน "พื้นผิวและกว้าง" ของโมเดลเชิงเส้น (หลายตัวแปร) ในขณะที่รูปภาพ "ความลึกและโฟกัส" ของมันคือการวิเคราะห์ความสัมพันธ์แบบบัญญัติ (CCA) ประเด็นก็คือความสัมพันธ์ระหว่างชุดตัวแปรหลายตัวแปรสองชุดไม่ได้เป็นแบบมิติเดียวและอธิบายโดยตัวแปร "แฝง" สองสามคู่ที่เรียกว่าตัวแปรแบบบัญญัติ

เป็นมิติลด LDA ในทางทฤษฎีเป็น CCA ที่มีสองชุดของตัวแปรชุดหนึ่งเป็นตัวแปรช่วงเวลา "อธิบาย" ที่มีความสัมพันธ์และชุดอื่น ๆ ที่เป็นตัวแปรจำลอง (หรือรหัสความคมชัดอื่น ๆ ) เป็นตัวแทนกลุ่มkชั้นเรียน จากการสังเกตk-1k

ใน CCA เราจะพิจารณาตัวแปรที่สัมพันธ์กันสองชุดที่ X และ Y มีสิทธิเท่าเทียมกัน ดังนั้นเราจึงแยกความแตกต่างที่ยอมรับของทั้งสองฝ่ายและพวกมันรวมกันเป็นคู่: แปรผัน 1 จากชุด X และแปร 1 จากชุด Y ที่มีความสัมพันธ์แบบบัญญัติระหว่างกันสูงสุด จากนั้นเปลี่ยนชุดที่ 2 จากชุด X และชุดที่ 2 จากชุด Y ที่มีค่าสหสัมพันธ์ที่น้อยลง ฯลฯ ใน LDA เรามักจะไม่สนใจตัวเลขในชุดตัวแปรที่เป็นที่ยอมรับจากด้านชุดของคลาส อย่างไรก็ตามเราให้ความสนใจในตัวแปรที่เป็นที่ยอมรับจากด้านชุดคำอธิบาย เหล่านี้จะเรียกว่าเป็นที่ยอมรับฟังก์ชั่นการจำแนกหรือดิสคริมิแนนต์

พีkม.ผมn(k-1,พี)ดู )

หากต้องการยกเลิกนี่เป็น CCA ตามธรรมชาติ LDA ที่มีคลาสมากกว่า 3 คลาสจะเรียกว่า "canonical LDA" แม้ว่าโดยทั่วไปแล้วCCAและLDAจะใช้อัลกอริทึมค่อนข้างแตกต่างกันในมุมมองของประสิทธิภาพของโปรแกรมพวกเขาก็ "เหมือนกัน" มากพอที่จะสามารถคำนวณผลลัพธ์ (สัมประสิทธิ์อื่น ๆ ) ที่ได้รับในขั้นตอนเดียว ส่วนใหญ่ของความเฉพาะเจาะจง LDA อยู่ในโดเมนของการเข้ารหัสตัวแปรเด็ดขาดที่เป็นตัวแทนของกลุ่ม นี่คือภาวะที่กลืนไม่เข้าคายไม่ออกที่เหมือนกันซึ่งเป็นที่สังเกตใน (M) ANOVA แผนการเข้ารหัสที่แตกต่างกันนำไปสู่วิธีการตีความค่าสัมประสิทธิ์ที่แตกต่างกัน

เนื่องจาก LDA (เป็นการลดขนาด) สามารถเข้าใจได้ว่าเป็นกรณีเฉพาะของ CCA คุณจึงต้องสำรวจคำตอบนี้เปรียบเทียบ CCA กับ PCA และการถดถอย ประเด็นหลักคือว่า CCA นั้นอยู่ใกล้กับการถดถอยมากกว่า PCA เพราะ CCA เป็นเทคนิคที่ได้รับการตรวจสอบ (การรวมกันเชิงเส้นแฝงถูกดึงออกมาให้สัมพันธ์กับบางสิ่งภายนอก) และ PCA ไม่ (การรวมเชิงเส้นแฝงถูกดึงออกมา เพื่อสรุปภายใน) นี่คือการลดขนาดของสองสาขา

เมื่อพูดถึงคณิตศาสตร์คุณอาจพบว่าในขณะที่ความแปรปรวนขององค์ประกอบหลักสอดคล้องกับค่าลักษณะเฉพาะของ data cloud (เมทริกซ์ความแปรปรวนร่วมระหว่างตัวแปร) ความแปรปรวนของ discriminants นั้นไม่เกี่ยวข้องกับค่าลักษณะเฉพาะที่เกิดขึ้นอย่างชัดเจน LDA เหตุผลก็คือใน LDA ค่าลักษณะเฉพาะไม่สรุปรูปร่างของคลาวด์ข้อมูล ค่อนข้างจะเกี่ยวข้องกับปริมาณนามธรรมของอัตราส่วนระหว่างคลาสกับการเปลี่ยนแปลงภายในคลาสในคลาวด์

ดังนั้นองค์ประกอบหลักจะช่วยเพิ่มความแปรปรวนและการแบ่งแยกให้เกิดประโยชน์สูงสุดในการแยกชั้นเรียน กรณีง่าย ๆ ที่พีซีไม่สามารถแยกแยะระหว่างคลาสได้ดีพอ แต่ตัวเลือกสามารถเป็นรูปภาพเหล่านี้ได้ เมื่อวาดเป็นเส้นในคุณลักษณะการเลือกปฏิบัติพื้นที่ดั้งเดิมมักจะไม่ปรากฏในมุมฉาก (ถูก uncorrelated แต่อย่างไรก็ตาม) แต่พีซีทำ


เชิงอรรถสำหรับพิถีพิถัน ในผลลัพธ์ของพวกเขา LDA เกี่ยวข้องกับ CCAอย่างไร ในการทำซ้ำ: ถ้าคุณใช้ LDA กับpตัวแปรและkคลาสและคุณใช้ CCA กับ Set1 เป็นpตัวแปรเหล่านั้นและ Set2 เป็นk-1ตัวแปรตัวบ่งชี้ตัวแทนกลุ่ม (จริง ๆ แล้วไม่จำเป็นต้องเป็นตัวแปรตัวบ่งชี้ - ตัวแปรความคมชัดชนิดอื่นเช่นเบี่ยงเบนหรือ Helmert) ) จากนั้นผลลัพธ์จะเทียบเท่ากับตัวแปรทางบัญญัติที่แยกออกมาสำหรับ Set1 - ซึ่งตรงกับฟังก์ชัน discriminant ที่แยกใน LDA ความสัมพันธ์ที่แน่นอนคืออะไร?

JJ

ค่าสัมประสิทธิ์มาตรฐาน CCALDA สัมประสิทธิ์ดิบ=ค่าตัวแปร CCA ตามบัญญัติของบัญญัติค่าจำแนก LDA=พูภายในคลาสความแปรปรวนในตัวแปร พูภายในความแปรปรวนของชั้นเรียนในการเลือกปฏิบัติ

n-11

พูภายในคลาสความแปรปรวนในตัวแปร
เซนต์. การเบี่ยงเบนของการเลือกปฏิบัติσ

ความแตกต่างระหว่าง CCA และ LDA นั้นเกิดจากการที่ LDA "รู้" ว่ามีคลาส (กลุ่ม): คุณระบุกลุ่มโดยตรงเพื่อคำนวณการฝึกอบรมภายในและระหว่างการกระจาย ทำให้การคำนวณทั้งสองเร็วขึ้นและผลลัพธ์ที่สะดวกยิ่งขึ้นสำหรับการจำแนกประเภทที่ตามมาโดยเลือกปฏิบัติ ในทางกลับกัน CCA ไม่ทราบถึงคลาสและประมวลผลข้อมูลราวกับว่าพวกเขาทั้งหมดเป็นตัวแปรต่อเนื่อง - ซึ่งเป็นเรื่องทั่วไป แต่เป็นการคำนวณที่ช้ากว่า แต่ผลลัพธ์จะเท่ากันและฉันแสดงให้เห็นว่า

จนถึงตอนนี้มันก็ส่อให้เห็นว่าk-1หุ่นเข้าสู่ CCA วิธีทั่วไปคือศูนย์กลาง (เช่นตัวแปรของ Set1) บางคนอาจถามว่าเป็นไปได้หรือไม่ที่จะป้อนkหุ่นทั้งหมดและไม่ได้อยู่ตรงกลาง (เพื่อหลบหนีภาวะเอกฐาน)? ใช่เป็นไปได้แม้ว่าอาจจะสะดวกกว่าก็ตาม จะมีปรากฏค่าศูนย์แปรปรวนเพิ่มเติมตามบัญญัติค่าสัมประสิทธิ์เพิ่มเติมซึ่งควรจะถูกโยนทิ้งไป ผลลัพธ์อื่น ๆ ยังคงใช้ได้ ยกเว้นdf s เพื่อทดสอบความสำคัญของความสัมพันธ์แบบบัญญัติ df สำหรับความสัมพันธ์ที่ 1 จะได้รับp*kซึ่งเป็นสิ่งที่ผิดและ DF จริงเช่นเดียวกับใน LDA p*(k-1)เป็น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.