การวิเคราะห์จำแนกเชิงเส้นจะลดขนาดได้อย่างไร


18

มีคำจาก "องค์ประกอบของการเรียนรู้ทางสถิติ" ที่หน้า 91:

K centroids ในพื้นที่อินพุต p-dimension ขยายพื้นที่ส่วนใหญ่มิติ K-1 และถ้า p มีขนาดใหญ่กว่า K นี่จะเป็นมิติที่ลดลงอย่างมาก

ฉันมีสองคำถาม:

  1. ทำไม K centroids ในพื้นที่อินพุต p-p ขยายที่พื้นที่ส่วนใหญ่ K-1 มิติ?
  2. K centroid เป็นอย่างไรบ้าง?

ไม่มีคำอธิบายในหนังสือและฉันไม่พบคำตอบจากเอกสารที่เกี่ยวข้อง


3
centroids อยู่ในที่ส่วนใหญ่K - 1มิติเลียนแบบสเปซ ยกตัวอย่างเช่นจุดสองจุดอยู่บนเส้นหนึ่งซึ่งเป็นพื้นที่ย่อย2 - 1มิติ นี่เป็นเพียงคำจำกัดความของสเปซย่อย affine และพีชคณิตเชิงเส้นเบื้องต้น KK121
deinst

คำถามที่คล้ายกันมาก: stats.stackexchange.com/q/169436/3277
ttnphns

คำตอบ:


16

min(k1,p)

ป้อนคำอธิบายรูปภาพที่นี่

พีชคณิตของ LDA ในขั้นตอนการสกัดคือที่นี่


กราฟที่ดี, คุณใช้ซอฟต์แวร์ / แพ็คเกจอะไรในการสร้าง?
มิเชล

SPSS มาโครที่เขียนด้วยตนเองสำหรับ SPSS
ttnphns

นี่หมายความว่าคุณจะไม่เห็นการแยกชั้นเรียนที่ดีใน LDA ด้วยพูดสามชั้นซ้อนทับกันจนกว่าคุณจะขายแกนได้หรือไม่? ฉันหมายถึงฉันกำลังใช้งาน LDA และชั้นเรียนของฉันแยกจากกัน ... แต่พวกเขาอยู่ด้านบนของแต่ละคนในทุกแกนที่แยกแยะยกเว้นคนแรก ... และคนนั้นมีขนาดใหญ่
donlan

14

ในขณะที่ "องค์ประกอบของการเรียนรู้ทางสถิติ" เป็นหนังสือที่ยอดเยี่ยม แต่ก็ต้องการระดับความรู้ค่อนข้างสูงเพื่อให้ได้ประโยชน์สูงสุดจากมัน มีแหล่งข้อมูลอื่น ๆ มากมายบนเว็บเพื่อช่วยให้คุณเข้าใจหัวข้อในหนังสือ

ให้ยกตัวอย่างง่ายๆของการวิเคราะห์จำแนกเชิงเส้นที่คุณต้องการจัดกลุ่มชุดของจุดข้อมูลสองมิติในกลุ่ม K = 2 มิติการดร็อปจะเป็นเพียง K-1 = 2-1 = 1 ตามที่ @deinst อธิบายแล้วมิติการดร็อปสามารถอธิบายได้ด้วยเรขาคณิตเบื้องต้น

จุดสองจุดในมิติใด ๆ สามารถรวมกันเป็นเส้นได้และเส้นหนึ่งมิติ นี่คือตัวอย่างของ K-1 = 2-1 = 1 สเปซย่อย

ในตัวอย่างง่าย ๆ นี้ชุดของจุดข้อมูลจะกระจัดกระจายในพื้นที่สองมิติ คะแนนจะถูกแทนด้วย (x, y) ดังนั้นตัวอย่างเช่นคุณอาจมีจุดข้อมูลเช่น (1,2), (2,1), (9,10), (13,13) ตอนนี้การใช้การวิเคราะห์จำแนกเชิงเส้นเพื่อสร้างสองกลุ่ม A และ B จะส่งผลให้จุดข้อมูลที่ถูกจัดว่าเป็นของกลุ่ม A หรือกลุ่ม B เช่นว่าคุณสมบัติบางอย่างมีความพึงพอใจ การวิเคราะห์จำแนกเชิงเส้นพยายามที่จะเพิ่มความแปรปรวนระหว่างกลุ่มเมื่อเทียบกับความแปรปรวนภายในกลุ่ม

กล่าวอีกนัยหนึ่งกลุ่ม A และ B จะอยู่ห่างกันและมีจุดข้อมูลที่อยู่ติดกัน ในตัวอย่างง่ายๆนี้มันชัดเจนว่าคะแนนจะถูกจัดกลุ่มดังนี้ กลุ่ม A = {(1,2), (2,1)} และกลุ่ม B = {(9,10), (13,13)}

ตอนนี้เซนทรอยด์จะถูกคำนวณเป็นเซนทรอยด์ของกลุ่มจุดข้อมูล

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

Centroids นั้นมีเพียง 2 จุดและมันจะขยายเป็นเส้น 1 มิติซึ่งเชื่อมต่อเข้าด้วยกัน

รูปที่ 1

คุณสามารถคิดถึงการวิเคราะห์จำแนกเชิงเส้นเป็นเส้นโครงของจุดข้อมูลบนเส้นเพื่อให้จุดข้อมูลทั้งสองกลุ่มเป็น "แยกเท่าที่จะเป็นไปได้"

หากคุณมีสามกลุ่ม (และพูดจุดข้อมูลสามมิติ) คุณจะได้สามเซ็นทรอยด์เพียงแค่สามจุดและสามจุดในพื้นที่ 3 มิติกำหนดระนาบสองมิติ กฎอีกครั้ง K-1 = 3-1 = 2 มิติ

ฉันขอแนะนำให้คุณค้นหาเว็บเพื่อหาแหล่งข้อมูลที่จะช่วยอธิบายและขยายการแนะนำง่ายๆที่ฉันได้รับ ตัวอย่างเช่นhttp://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf


1
ยินดีต้อนรับสู่เว็บไซต์ของเรา Martino!
whuber

ขอบคุณ @whuber กราฟที่ดีฉันไม่มีเครื่องมือดังกล่าวอยู่ในมือ :(
martino

ฉันไม่คิดว่าคุณมีชื่อเสียงในการโพสต์ภาพมาร์ติโน: นั่นเป็นเหตุผลที่ฉันสร้างขึ้นมาเพื่อคุณ แต่ตอนนี้ - หรือเร็ว ๆ นี้ - คุณจะมีตัวแทนเพียงพอ ถ้าไม่มีอะไรเป็นประโยชน์คุณสามารถใช้ซอฟต์แวร์ที่มีอยู่ได้อย่างอิสระกับความสามารถในการวาดภาพเรขาคณิตเช่นRหรือGeoGebra (คุณจะพบว่าคำตอบที่แสดงให้เห็นนั้นได้รับความสนใจมากขึ้นพวกเขาน่าดึงดูดและอ่านง่ายขึ้น)
whuber

ทำไมต้องลงคะแนน หากมีปัญหากับคำตอบมันจะเป็นประโยชน์ในการชี้ให้เห็น - ฉันไม่เห็นเลย
martino
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.