ดังที่ฉันได้บันทึกไว้ในความคิดเห็นสำหรับคำถามของคุณการวิเคราะห์จำแนกเป็นขั้นตอนประกอบที่มีสองขั้นตอนที่แตกต่างกันคือการลดมิติ (กำกับดูแล) และขั้นตอนการจำแนก ในการลดขนาดเราแยกฟังก์ชั่นที่เลือกปฏิบัติซึ่งเข้ามาแทนที่ตัวแปรอธิบายดั้งเดิม จากนั้นเราจัดประเภทการสังเกต (โดยทั่วไปตามวิธีของเบย์) ให้กับชั้นเรียนโดยใช้ฟังก์ชั่นเหล่านั้น
บางคนมักจะล้มเหลวในการรับรู้ลักษณะสองขั้นตอนที่ชัดเจนของ LDA เพียงเพราะพวกเขาได้ทำความคุ้นเคยกับ LDA ที่มี 2 คลาสเท่านั้น (เรียกว่าการวิเคราะห์จำแนกของฟิชเชอร์ ) ในการวิเคราะห์ดังกล่าวมีเพียงฟังก์ชันจำแนกอย่างเดียวเท่านั้นที่มีอยู่และการจำแนกประเภทเป็นแบบตรงไปตรงมาและทุกอย่างสามารถอธิบายได้ในตำราเรียนใน "ผ่าน" เดียวโดยไม่ต้องเชิญแนวคิดเรื่องการลดพื้นที่
LDA นั้นเกี่ยวข้องกับ MANOVA อย่างใกล้ชิด ด้านหลังเป็นด้าน "พื้นผิวและกว้าง" ของโมเดลเชิงเส้น (หลายตัวแปร) ในขณะที่รูปภาพ "ความลึกและโฟกัส" ของมันคือการวิเคราะห์ความสัมพันธ์แบบบัญญัติ (CCA) ประเด็นก็คือความสัมพันธ์ระหว่างชุดตัวแปรหลายตัวแปรสองชุดไม่ได้เป็นแบบมิติเดียวและอธิบายโดยตัวแปร "แฝง" สองสามคู่ที่เรียกว่าตัวแปรแบบบัญญัติ
เป็นมิติลด LDA ในทางทฤษฎีเป็น CCA ที่มีสองชุดของตัวแปรชุดหนึ่งเป็นตัวแปรช่วงเวลา "อธิบาย" ที่มีความสัมพันธ์และชุดอื่น ๆ ที่เป็นตัวแปรจำลอง (หรือรหัสความคมชัดอื่น ๆ ) เป็นตัวแทนกลุ่มkชั้นเรียน จากการสังเกตk - 1k
ใน CCA เราจะพิจารณาตัวแปรที่สัมพันธ์กันสองชุดที่ X และ Y มีสิทธิเท่าเทียมกัน ดังนั้นเราจึงแยกความแตกต่างที่ยอมรับของทั้งสองฝ่ายและพวกมันรวมกันเป็นคู่: แปรผัน 1 จากชุด X และแปร 1 จากชุด Y ที่มีความสัมพันธ์แบบบัญญัติระหว่างกันสูงสุด จากนั้นเปลี่ยนชุดที่ 2 จากชุด X และชุดที่ 2 จากชุด Y ที่มีค่าสหสัมพันธ์ที่น้อยลง ฯลฯ ใน LDA เรามักจะไม่สนใจตัวเลขในชุดตัวแปรที่เป็นที่ยอมรับจากด้านชุดของคลาส อย่างไรก็ตามเราให้ความสนใจในตัวแปรที่เป็นที่ยอมรับจากด้านชุดคำอธิบาย เหล่านี้จะเรียกว่าเป็นที่ยอมรับฟังก์ชั่นการจำแนกหรือดิสคริมิแนนต์
พีkm i n ( k - 1 , p )ดู )
หากต้องการยกเลิกนี่เป็น CCA ตามธรรมชาติ LDA ที่มีคลาสมากกว่า 3 คลาสจะเรียกว่า "canonical LDA" แม้ว่าโดยทั่วไปแล้วCCAและLDAจะใช้อัลกอริทึมค่อนข้างแตกต่างกันในมุมมองของประสิทธิภาพของโปรแกรมพวกเขาก็ "เหมือนกัน" มากพอที่จะสามารถคำนวณผลลัพธ์ (สัมประสิทธิ์อื่น ๆ ) ที่ได้รับในขั้นตอนเดียว ส่วนใหญ่ของความเฉพาะเจาะจง LDA อยู่ในโดเมนของการเข้ารหัสตัวแปรเด็ดขาดที่เป็นตัวแทนของกลุ่ม นี่คือภาวะที่กลืนไม่เข้าคายไม่ออกที่เหมือนกันซึ่งเป็นที่สังเกตใน (M) ANOVA แผนการเข้ารหัสที่แตกต่างกันนำไปสู่วิธีการตีความค่าสัมประสิทธิ์ที่แตกต่างกัน
เนื่องจาก LDA (เป็นการลดขนาด) สามารถเข้าใจได้ว่าเป็นกรณีเฉพาะของ CCA คุณจึงต้องสำรวจคำตอบนี้เปรียบเทียบ CCA กับ PCA และการถดถอย ประเด็นหลักคือว่า CCA นั้นอยู่ใกล้กับการถดถอยมากกว่า PCA เพราะ CCA เป็นเทคนิคที่ได้รับการตรวจสอบ (การรวมกันเชิงเส้นแฝงถูกดึงออกมาให้สัมพันธ์กับบางสิ่งภายนอก) และ PCA ไม่ (การรวมเชิงเส้นแฝงถูกดึงออกมา เพื่อสรุปภายใน) นี่คือการลดขนาดของสองสาขา
เมื่อพูดถึงคณิตศาสตร์คุณอาจพบว่าในขณะที่ความแปรปรวนขององค์ประกอบหลักสอดคล้องกับค่าลักษณะเฉพาะของ data cloud (เมทริกซ์ความแปรปรวนร่วมระหว่างตัวแปร) ความแปรปรวนของ discriminants นั้นไม่เกี่ยวข้องกับค่าลักษณะเฉพาะที่เกิดขึ้นอย่างชัดเจน LDA เหตุผลก็คือใน LDA ค่าลักษณะเฉพาะไม่สรุปรูปร่างของคลาวด์ข้อมูล ค่อนข้างจะเกี่ยวข้องกับปริมาณนามธรรมของอัตราส่วนระหว่างคลาสกับการเปลี่ยนแปลงภายในคลาสในคลาวด์
ดังนั้นองค์ประกอบหลักจะช่วยเพิ่มความแปรปรวนและการแบ่งแยกให้เกิดประโยชน์สูงสุดในการแยกชั้นเรียน กรณีง่าย ๆ ที่พีซีไม่สามารถแยกแยะระหว่างคลาสได้ดีพอ แต่ตัวเลือกสามารถเป็นรูปภาพเหล่านี้ได้ เมื่อวาดเป็นเส้นในคุณลักษณะการเลือกปฏิบัติพื้นที่ดั้งเดิมมักจะไม่ปรากฏในมุมฉาก (ถูก uncorrelated แต่อย่างไรก็ตาม) แต่พีซีทำ
เชิงอรรถสำหรับพิถีพิถัน ในผลลัพธ์ของพวกเขา LDA เกี่ยวข้องกับ CCAอย่างไร ในการทำซ้ำ: ถ้าคุณใช้ LDA กับp
ตัวแปรและk
คลาสและคุณใช้ CCA กับ Set1 เป็นp
ตัวแปรเหล่านั้นและ Set2 เป็นk-1
ตัวแปรตัวบ่งชี้ตัวแทนกลุ่ม (จริง ๆ แล้วไม่จำเป็นต้องเป็นตัวแปรตัวบ่งชี้ - ตัวแปรความคมชัดชนิดอื่นเช่นเบี่ยงเบนหรือ Helmert) ) จากนั้นผลลัพธ์จะเทียบเท่ากับตัวแปรทางบัญญัติที่แยกออกมาสำหรับ Set1 - ซึ่งตรงกับฟังก์ชัน discriminant ที่แยกใน LDA ความสัมพันธ์ที่แน่นอนคืออะไร?
JJ
ค่าสัมประสิทธิ์มาตรฐาน CCALDA สัมประสิทธิ์ดิบ= ค่าตัวแปร CCA ตามบัญญัติของบัญญัติค่าจำแนก LDA= พูลภายในความแปรปรวนของคลาสในรูปแบบ พูภายในความแปรปรวนของชั้นเรียนในการเลือกปฏิบัติ---------------------------√
n-1
1
พูภายในคลาสความแปรปรวนในตัวแปร---------------------------------√
เซนต์. การเบี่ยงเบนของการเลือกปฏิบัติσ
ความแตกต่างระหว่าง CCA และ LDA นั้นเกิดจากการที่ LDA "รู้" ว่ามีคลาส (กลุ่ม): คุณระบุกลุ่มโดยตรงเพื่อคำนวณการฝึกอบรมภายในและระหว่างการกระจาย ทำให้การคำนวณทั้งสองเร็วขึ้นและผลลัพธ์ที่สะดวกยิ่งขึ้นสำหรับการจำแนกประเภทที่ตามมาโดยเลือกปฏิบัติ ในทางกลับกัน CCA ไม่ทราบถึงคลาสและประมวลผลข้อมูลราวกับว่าพวกเขาทั้งหมดเป็นตัวแปรต่อเนื่อง - ซึ่งเป็นเรื่องทั่วไป แต่เป็นการคำนวณที่ช้ากว่า แต่ผลลัพธ์จะเท่ากันและฉันแสดงให้เห็นว่า
จนถึงตอนนี้มันก็ส่อให้เห็นว่าk-1
หุ่นเข้าสู่ CCA วิธีทั่วไปคือศูนย์กลาง (เช่นตัวแปรของ Set1) บางคนอาจถามว่าเป็นไปได้หรือไม่ที่จะป้อนk
หุ่นทั้งหมดและไม่ได้อยู่ตรงกลาง (เพื่อหลบหนีภาวะเอกฐาน)? ใช่เป็นไปได้แม้ว่าอาจจะสะดวกกว่าก็ตาม จะมีปรากฏค่าศูนย์แปรปรวนเพิ่มเติมตามบัญญัติค่าสัมประสิทธิ์เพิ่มเติมซึ่งควรจะถูกโยนทิ้งไป ผลลัพธ์อื่น ๆ ยังคงใช้ได้ ยกเว้นdf s เพื่อทดสอบความสำคัญของความสัมพันธ์แบบบัญญัติ df สำหรับความสัมพันธ์ที่ 1 จะได้รับp*k
ซึ่งเป็นสิ่งที่ผิดและ DF จริงเช่นเดียวกับใน LDA p*(k-1)
เป็น