คุณสมบัติการทำให้เป็นมาตรฐานเมื่อใช้ LDA เป็นขั้นตอนการประมวลผลล่วงหน้า


9

หากมีการใช้การวิเคราะห์เชิงเส้นหลายชั้น (หรือฉันยังอ่านการวิเคราะห์การจำแนกหลาย ๆ ครั้ง) ใช้สำหรับการลดขนาด (หรือการเปลี่ยนแปลงหลังจากการลดมิติผ่าน PCA) ฉันเข้าใจว่าโดยทั่วไปคือ "การทำให้เป็นมาตรฐานของคะแนน Z" (หรือมาตรฐาน) ไม่จำเป็นต้องใช้ฟีเจอร์แม้ว่าจะทำการวัดด้วยเครื่องชั่งที่แตกต่างกันอย่างสมบูรณ์ถูกต้องหรือไม่ เนื่องจาก LDA มีคำที่คล้ายกับระยะทาง Mahalanobis ซึ่งหมายถึงระยะทางแบบยุคลิดแบบดั้งเดิมหรือไม่?

ดังนั้นจึงไม่เพียง แต่ไม่จำเป็นเท่านั้น แต่ผลลัพธ์ที่ได้หลังจาก LDA สำหรับคุณสมบัติที่เป็นมาตรฐานและไม่ได้มาตรฐานควรจะเหมือนกันทุกประการ!


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scalesไม่คำสั่งนี้ไม่ถูกต้อง ปัญหาของมาตรฐานกับ LDA เหมือนกันในวิธีการหลายตัวแปรใด ๆ ตัวอย่างเช่น PCA ระยะทาง Mahalanobis ไม่มีส่วนเกี่ยวข้องกับหัวข้อนั้น
ttnphns

ขอบคุณจะดีมากถ้าคุณสามารถแสดงความคิดเห็นเกี่ยวกับ "ปัญหามาตรฐาน" ใน PCA เช่นนี้ หากคุณสมบัติไม่ได้มาตรฐานสำหรับ PCA คุณสมบัติบางอย่างที่มีส่วนร่วม (น้ำหนัก) ไม่มากไปกว่านั้นถ้าวัดจากขนาดที่แตกต่างกันและให้แกนส่วนประกอบที่แตกต่างกันโดยสิ้นเชิงกับฉัน และสำหรับ LDA ทำไมมันไม่จำเป็น? ผลลัพธ์ (การแบ่งแยกเชิงเส้น) แตกต่างกันหรือไม่หากไม่ทำไม

2
เมื่อคุณสร้างมาตรฐาน (เช่นกึ่งกลางจากนั้นปรับขนาด) คุณจะวิเคราะห์ความสัมพันธ์จริง ๆ หากคุณไม่ได้มาตรฐานเพียงแค่ตั้งศูนย์คุณจะทำการวิเคราะห์ความแปรปรวนร่วม ผลลัพธ์จะแตกต่างกันซึ่งเป็นเรื่องปกติเพราะมันเหมือนกับที่คุณจัดการกับข้อมูลที่แตกต่างกัน ความจริงข้อนี้ไม่ควรกังวลกับคุณ คุณอาจจะสนุกกับการอ่านกระทู้stats.stackexchange.com/q/62677/3277
ttnphns

2
@SebastianRaschka, อะมีบา: ฉันต้องพิจารณาความคิดเห็นของฉันThe issue of standardization with LDA is the same as in any multivariate methodอีกครั้ง ที่จริงแล้วด้วย LDA (ตรงข้ามกับ PCA เป็นต้น) ผลลัพธ์ไม่ควรแตกต่างกันว่าคุณอยู่กึ่งกลางเท่านั้น (LDA อยู่กึ่งกลางภายในเสมอตัวแปรเพื่อแยก discriminants) หรือ z-standardized ข้อมูล
ttnphns

2
(ต่อ) ค่าลักษณะเฉพาะค่าสัมประสิทธิ์มาตรฐานความสัมพันธ์ของโครงสร้างคะแนนจำแนก - ทุกอย่างจะเหมือนกัน มีเพียงไอเกนที่จะแตกต่างกัน เหตุผลที่ไม่มีผลกระทบของมาตรฐานในผลลัพธ์หลักใน LDA คือ LDA จะสลายอัตราส่วนระหว่างความแปรปรวนร่วมระหว่างกันและไม่ใช่ความแปรปรวนร่วมที่มีขนาดเท่าที่ PCA ทำ
ttnphns

คำตอบ:


13

เครดิตสำหรับคำตอบนี้ไปที่ @ttnphns ซึ่งอธิบายทุกอย่างในความคิดเห็นด้านบน ยังฉันต้องการที่จะให้คำตอบเพิ่มเติม

สำหรับคำถามของคุณ: ผลลัพธ์ LDA ของคุณสมบัติที่เป็นมาตรฐานและไม่ได้มาตรฐานจะเหมือนกันหรือไม่ --- คำตอบคือใช่ ฉันจะให้ข้อโต้แย้งอย่างไม่เป็นทางการก่อนแล้วจึงดำเนินการทางคณิตศาสตร์ต่อไป

ลองนึกภาพชุดข้อมูล 2D ที่แสดงเป็นพล็อตการกระจายที่ด้านหนึ่งของบอลลูน (ภาพบอลลูนต้นฉบับที่ถ่ายจากที่นี่ ): LDA บนเอาท์พุต

ที่นี่จุดสีแดงคือชั้นหนึ่งจุดสีเขียวเป็นอีกชั้นหนึ่งและเส้นสีดำคือขอบเขตระดับ LDA ตอนนี้การลดขนาดของแกนหรือสอดคล้องกับการยืดบอลลูนในแนวนอนหรือแนวตั้ง เป็นที่ชัดเจนอย่างสังหรณ์ใจว่าถึงแม้ว่าความลาดเอียงของเส้นสีดำจะเปลี่ยนไปหลังจากการยืดเหยียดยาว แต่ชั้นเรียนจะแยกกันเหมือนก่อนหน้านี้และตำแหน่งสัมพัทธ์ของเส้นสีดำจะไม่เปลี่ยนแปลง การสังเกตการทดสอบแต่ละครั้งจะถูกกำหนดให้กับชั้นเรียนเดียวกันก่อนการยืดกล้ามเนื้อ ดังนั้นอาจกล่าวได้ว่าการยืดไม่มีผลต่อผลลัพธ์ของ LDAxy


ตอนนี้ทางคณิตศาสตร์ LDA พบชุดของแกนจำแนกโดยการคำนวณ eigenvectorsที่และอยู่ภายใน - และระหว่างชั้น เมทริกซ์กระจาย เท่ากันเหล่านี้จะ eigenvectors ทั่วไปของปัญหา eigenvalue ทั่วไป{V}W1BWBBv=λWv

พิจารณาข้อมูลที่ศูนย์กลางเมทริกซ์กับตัวแปรในคอลัมน์และจุดข้อมูลในแถวเพื่อให้เมทริกซ์กระจายรวมจะได้รับจาก{X} การกำหนดจำนวนข้อมูลให้เป็นมาตรฐานเพื่อปรับแต่ละคอลัมน์ของด้วยจำนวนที่แน่นอนคือการแทนที่ด้วยที่เป็นเมทริกซ์ทแยงมุมที่มีค่าสัมประสิทธิ์การปรับขนาด (ค่าเบี่ยงเบนมาตรฐานของแต่ละคอลัมน์) บนเส้นทแยงมุม หลังจาก rescaling เมทริกซ์กระจายจะเปลี่ยนดังนี้:และการเปลี่ยนแปลงแบบเดียวกันจะเกิดขึ้นกับXT=XXXXnew=XΛΛTnew=ΛTΛWnewและ{ใหม่}Bnew

ปล่อยเป็น eigenvector ของปัญหาดั้งเดิมคือถ้าเราคูณสมการนี้ด้วยทางด้านซ้ายและใส่ทั้งสองข้างหน้าเราได้รับเช่นซึ่งหมายความว่าโวลต์

Bโวลต์=λWโวลต์.
ΛΛΛ-1โวลต์
ΛBΛΛ-1โวลต์=λΛWΛΛ-1โวลต์,
BnอีWΛ-1โวลต์=λWnอีWΛ-1โวลต์,
Λ-1โวลต์เป็น eigenvector หลังจาก rescaling กับ eigenvalueเหมือนเดิมทุกประการλ

ดังนั้นแกนที่แยกแยะได้ (ที่กำหนดโดย eigenvector) จะเปลี่ยน แต่ค่าลักษณะเฉพาะของมันที่แสดงจำนวนชั้นที่ถูกแยกออกจะยังคงเหมือนเดิม ยิ่งไปกว่านั้นการฉายภาพบนแกนนี้ซึ่งได้รับมาโดยจะได้รับนั่นคือจะยังคงเหมือนเดิม (อาจสูงถึงปัจจัยการปรับสเกล)Xโวลต์XΛ(Λ-1โวลต์)=Xโวลต์


2
+1 "คุณธรรม" ของเรื่องราวทั้งหมดคือความแตกต่างระหว่าง dataมีศูนย์กลางเพียงตัวเดียวและ dataเป็นมาตรฐานเท่านั้นที่ถูกดูดซับโดยสิ้นเชิงใน eigenvectors ดังนั้นเมื่อข้อมูลถูกคูณด้วยค่าลักษณะเฉพาะเพื่อสร้างความแตกต่างคะแนนผลของมาตรฐานจะถูกยกเลิก XXΛΛ
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.