ความสัมพันธ์ระหว่าง k-หมายถึงการจัดกลุ่มและ PCA คืออะไร?


60

มันเป็นเรื่องธรรมดาที่จะใช้ PCA (การวิเคราะห์องค์ประกอบหลัก) ก่อนอัลกอริทึมการจัดกลุ่ม (เช่น k-mean) เชื่อว่าช่วยปรับปรุงผลการจัดกลุ่มในทางปฏิบัติ (ลดเสียงรบกวน)

อย่างไรก็ตามฉันสนใจที่จะศึกษาเชิงเปรียบเทียบและเชิงลึกเกี่ยวกับความสัมพันธ์ระหว่าง PCA และ k-mean ตัวอย่างเช่น Chris Ding และ Xiaofeng He, 2004, K- หมายถึงการทำคลัสเตอร์ผ่านการวิเคราะห์องค์ประกอบหลักแสดงให้เห็นว่า "ส่วนประกอบหลักเป็นวิธีการแก้ปัญหาอย่างต่อเนื่องสำหรับตัวบ่งชี้การเป็นสมาชิกคลัสเตอร์แบบไม่ต่อเนื่องสำหรับการจัดกลุ่ม K-mean" แต่ผมมีช่วงเวลาที่ยากในการทำความเข้าใจกระดาษนี้และวิกิพีเดียจริงอ้างว่ามันเป็นความผิด

นอกจากนี้ผลลัพธ์ของทั้งสองวิธียังค่อนข้างแตกต่างกันในแง่ที่ PCA ช่วยลดจำนวนของ "คุณสมบัติ" ในขณะที่รักษาความแปรปรวนขณะที่การจัดกลุ่มจะลดจำนวนของ "ข้อมูล - คะแนน" โดยสรุปหลายจุดตามความคาดหวัง / หมายถึง (ในกรณีของ k- หมายถึง) ดังนั้นหากชุดข้อมูลที่ประกอบด้วยในจุดที่มีให้บริการแต่ละ PCA มีจุดมุ่งหมายที่การบีบอัดคุณสมบัติในขณะที่การจัดกลุ่มมีจุดมุ่งหมายในการบีบอัดข้อมูลจุดNTTN

ฉันกำลังมองหาคำอธิบายของคนธรรมดาของความสัมพันธ์ระหว่างสองเทคนิคนี้ + เอกสารทางเทคนิคเพิ่มเติมบางส่วนที่เกี่ยวข้องกับทั้งสองเทคนิค


2
การทำคลัสเตอร์ยังถือได้ว่าเป็นการลดคุณสมบัติ ที่คุณแสดงตัวอย่างแต่ละตัวอย่างโดยการกำหนดคลัสเตอร์หรือเข้ารหัสหร็อมแหร็มเข้ารหัส (ดังนั้นลดถึง ) วิธีการทั้งสองวิธีนี้ช่วยรักษาจำนวนจุดข้อมูลให้คงที่ในขณะที่ลดขนาด "คุณสมบัติ" kTk
jeff

คำตอบ:


72

มันเป็นความจริงที่ K-หมายถึงการจัดกลุ่มและ PCA ดูเหมือนจะมีเป้าหมายที่แตกต่างกันมากและตั้งแต่แรกเห็นดูเหมือนจะไม่เกี่ยวข้องกัน อย่างไรก็ตามดังที่อธิบายไว้ในกระดาษK & หมายถึงการจัดกลุ่มผ่านการวิเคราะห์ส่วนประกอบหลักของ Ding & He 2004 มีการเชื่อมต่ออย่างลึกซึ้งระหว่างสิ่งเหล่านี้

ปรีชาคือ PCA พยายามที่จะเป็นตัวแทนของเวกเตอร์ข้อมูลทั้งหมดเป็นการรวมกันเชิงเส้นของจำนวนน้อยของ eigenvector และทำเพื่อลดข้อผิดพลาดการฟื้นฟูหมายถึงกำลังสอง ในทางตรงกันข้าม K-วิธีการพยายามที่จะเป็นตัวแทนพาหะข้อมูลผ่านทางขนาดเล็กจำนวน centroids คลัสเตอร์คือเพื่อเป็นตัวแทนของพวกเขาเป็นผลรวมเชิงเส้นของจำนวนเล็ก ๆ ของคลัสเตอร์เวกเตอร์เซนทรอยด์ที่มีน้ำหนักรวมกันเชิงเส้นจะต้องเป็นศูนย์ทั้งหมดยกเว้นเพียงครั้งเดียว1นอกจากนี้ยังทำเพื่อลดข้อผิดพลาดในการสร้างค่าเฉลี่ยกำลังสองให้น้อยที่สุดn 1nn1

ดังนั้นค่าเฉลี่ย K จึงถูกมองว่าเป็น PCA ที่กระจัดกระจาย

กระดาษของ Ding & He ทำอะไรเพื่อให้การเชื่อมต่อนี้แม่นยำยิ่งขึ้น


น่าเสียดายที่กระดาษ Ding & He มีสูตรเลอะเทอะ (อย่างดีที่สุด) และสามารถเข้าใจผิดได้ง่าย เช่นอาจดูเหมือนว่า Ding & He อ้างว่าได้พิสูจน์แล้วว่า centroids คลัสเตอร์ของ K-หมายถึงวิธีการแก้ปัญหาการจัดกลุ่มอยู่ในพื้นที่ย่อย - มิติ PCA:(K1)

ทฤษฎีบท 3.3 พื้นที่สเปซ Centroid ของกลุ่มจะถูกขยายโดย ทิศทางหลัก [... ]K1

สำหรับนี่หมายความว่าการคาดการณ์บนแกน PC1 จะต้องเป็นค่าลบสำหรับหนึ่งคลัสเตอร์และบวกสำหรับอีกคลัสเตอร์หนึ่งนั่นคือแกน PC2 จะแยกกลุ่มอย่างสมบูรณ์K=2

นี่อาจเป็นความผิดพลาดหรือการเขียนเลอะเทอะ ไม่ว่าในกรณีใดก็ตามการอ้างสิทธิ์นี้เป็นเท็จ

ขอเริ่มต้นด้วยการมองหาที่บางตัวอย่างเล่น ๆ ใน 2D สำหรับ 2 ฉันสร้างตัวอย่างบางส่วนจากการแจกแจงปกติสองตัวที่มีเมทริกซ์ความแปรปรวนร่วมเดียวกัน แต่วิธีที่ต่างกัน ฉันวิ่งทั้ง K-Mean และ PCA รูปต่อไปนี้แสดงพล็อตกระจายของข้อมูลด้านบนและข้อมูลสีเดียวกันตามวิธีแก้ปัญหา K-mean ด้านล่าง ฉันยังแสดงทิศทางหลักแรกเป็นเส้นสีดำและเซนทรอยด์ระดับที่พบโดย K- หมายถึงด้วยกากบาทสีดำ แกน PC2 แสดงขึ้นพร้อมกับเส้นประสีดำ K-mean ซ้ำครั้งด้วยการสุ่มเมล็ดเพื่อให้แน่ใจว่าการบรรจบกับโลกที่เหมาะสมที่สุด100K=2100

PCA กับ K-mean

เราสามารถเห็นได้อย่างชัดเจนว่าถึงแม้ว่า centroids คลาสจะค่อนข้างใกล้เคียงกับทิศทางพีซีเครื่องแรก แต่ก็ไม่ได้ล้มลงอย่างแน่นอน ยิ่งไปกว่านั้นแม้ว่าแกน PC2 จะแยกกลุ่มอย่างสมบูรณ์ในแผนการย่อยที่ 1 และ 4 แต่ก็มีจุดสองสามจุดที่อยู่ผิดด้านของมันในแผนการย่อยที่ 2 และ 3

ดังนั้นข้อตกลงระหว่าง K-mean และ PCA ค่อนข้างดี แต่ไม่แน่นอน

ดังนั้น Ding & เขาพิสูจน์อะไร เพื่อความง่ายฉันจะพิจารณาเฉพาะกรณีให้จำนวนของจุดที่ได้รับมอบหมายให้แต่ละกลุ่มจะและ และจำนวนรวมของจุดnต่อไปนี้ Ding & He ให้นิยามตัวบ่งชี้กลุ่มเวกเตอร์ ดังนี้:ถ้า -th points เป็นของคลัสเตอร์ 1 และถ้าเป็นของคลัสเตอร์ 2 เวกเตอร์ตัวบ่งชี้คลัสเตอร์มีความยาวหน่วยและ "ศูนย์กลาง" คือองค์ประกอบของผลรวมเป็นศูนย์0n 1 n 2 n = n 1 + n 2 qR n q i = K=2n1n2n=n1+n2 qRn iqi=-qi=n2/nn1iqi=n1/nn2q=1qi=0

Ding & เขาแสดงให้เห็นว่า K- หมายถึงฟังก์ชั่นการสูญเสีย (K-หมายถึงอัลกอริธึมที่ย่อเล็กสุด) สามารถเขียนใหม่ได้เท่ากับที่เป็นแกรมเมทริกซ์ของผลิตภัณฑ์เกลาระหว่างจุดทั้งหมด:ที่เป็นเมทริกซ์ข้อมูลและเป็นเมทริกซ์ข้อมูลกึ่งกลางki(xiμk)2qGqGn×nG=XcXcXn×2Xc

(หมายเหตุ: ฉันกำลังใช้สัญลักษณ์และคำศัพท์ที่แตกต่างจากกระดาษของพวกเขาเล็กน้อย แต่ฉันพบว่าชัดเจนขึ้น)

ดังนั้น K-วิธีการแก้ปัญหาเป็นเวกเตอร์หน่วยศูนย์กลางการเพิ่มQ มันเป็นเรื่องง่ายที่จะแสดงให้เห็นว่าองค์ประกอบหลักตัวแรก (เมื่อปรับให้เป็นหน่วยรวมของกำลังสอง) เป็นผู้นำของไอแกรมเมทริกซ์แกรมเมทริกซ์นั่นคือมันยังเป็นเวกเตอร์ยูนิทกึ่งกลางเพิ่มสูงสุดพี ความแตกต่างเพียงอย่างเดียวคือถูก จำกัด นอกจากนี้เพื่อให้มีค่าที่แตกต่างกันสองค่าเท่านั้นในขณะที่ไม่มีข้อ จำกัด นี้qqGqppGpqp

กล่าวอีกนัยหนึ่ง K- หมายถึงและ PCA เพิ่มฟังก์ชั่นวัตถุประสงค์เดียวกันด้วยความแตกต่างเพียงอย่างเดียวที่ K-Mean มีข้อ จำกัด "เด็ดขาด" เพิ่มเติม

เหตุผลก็คือว่าส่วนใหญ่เวลาที่ K-mean (ถูก จำกัด ) และ PCA (ไม่ จำกัด ) จะค่อนข้างใกล้เคียงกันอย่างที่เราเห็นในการจำลอง แต่เราไม่ควรคาดหวังว่ามันจะเหมือนกัน การและการตั้งค่าองค์ประกอบเชิงลบทั้งหมดจะเท่ากับและทุกองค์ประกอบในเชิงบวกในการโดยทั่วไปจะไม่ให้ว่า คิวpn1/nn2n2/nn1q

Ding & เขาดูเหมือนจะเข้าใจดีเพราะพวกเขากำหนดทฤษฎีบทของพวกเขาดังนี้

ทฤษฎีบท 2.2 สำหรับ K-หมายถึงการทำคลัสเตอร์โดยที่ , วิธีแก้ปัญหาอย่างต่อเนื่องของเวกเตอร์ตัวบ่งชี้คลัสเตอร์คือ [ส่วนประกอบแรก]K=2

โปรดทราบว่าคำว่า "การแก้ปัญหาอย่างต่อเนื่อง" หลังจากพิสูจน์ทฤษฎีบทนี้พวกเขายังแสดงความคิดเห็นว่า PCA สามารถนำมาใช้ในการเริ่มต้น K-หมายถึงการทำซ้ำซึ่งจะทำให้ความรู้สึกที่ได้รับทั้งหมดที่เราคาดว่าจะใกล้เคียงกับพี แต่ก็ยังต้องทำการวนซ้ำเพราะมันไม่เหมือนกันqp

อย่างไรก็ตาม Ding & He ก็จะพัฒนาวิธีการรักษาแบบทั่วไปสำหรับและจบลงด้วยการกำหนดทฤษฎีบท 3.3 เป็นK>2

ทฤษฎีบท 3.3 พื้นที่สเปซ Centroid ของกลุ่มจะถูกขยายโดย ทิศทางหลัก [... ]K1

ฉันไม่ได้ผ่านคณิตศาสตร์ของส่วนที่ 3 แต่ฉันเชื่อว่าทฤษฎีบทนี้ในความเป็นจริงยังหมายถึง "การแก้ปัญหาอย่างต่อเนื่อง" ของ K- หมายถึงคือคำสั่งของมันควรจะอ่าน "พื้นที่ Centroid กลุ่มของการแก้ปัญหาอย่างต่อเนื่องของ K- หมายถึง ขยาย [... ] "

อย่างไรก็ตาม Ding & He ไม่ได้ทำการรับรองคุณสมบัติที่สำคัญนี้และยิ่งไปกว่านั้นเขียนในเชิงนามธรรมของพวกเขาว่า

ที่นี่เราพิสูจน์ได้ว่าส่วนประกอบหลักเป็นโซลูชั่นต่อเนื่องสำหรับตัวบ่งชี้การเป็นสมาชิกคลัสเตอร์แบบไม่ต่อเนื่องสำหรับการจัดกลุ่ม K-mean เท่าที่เราแสดงให้เห็นว่าสเปซทอด centroids คลัสเตอร์จะได้รับจากการขยายตัวของสเปกตรัมของเมทริกซ์ข้อมูลแปรปรวนตัดทอนที่เงื่อนไขK1

ประโยคแรกนั้นถูกต้องอย่างแน่นอน แต่ประโยคที่สองไม่ได้ มันไม่ชัดเจนสำหรับฉันหากนี่เป็นงานเขียนที่เลอะเทอะหรือผิดพลาดอย่างแท้จริง ฉันได้ส่งอีเมลถึงผู้เขียนทั้งสองอย่างสุภาพเพื่อขอคำชี้แจง (อัปเดตสองเดือนต่อมา: ฉันไม่เคยได้ยินจากพวกเขาเลย)


รหัสการจำลอง Matlab

figure('Position', [100 100 1200 600])

n = 50;
Sigma = [2 1.8; 1.8 2];

for i=1:4
    means = [0 0; i*2 0];

    rng(42)
    X = [bsxfun(@plus, means(1,:), randn(n,2) * chol(Sigma)); ...
         bsxfun(@plus, means(2,:), randn(n,2) * chol(Sigma))];
    X = bsxfun(@minus, X, mean(X));
    [U,S,V] = svd(X,0);
    [ind, centroids] = kmeans(X,2, 'Replicates', 100);

    subplot(2,4,i)
    scatter(X(:,1), X(:,2), [], [0 0 0])

    subplot(2,4,i+4)
    hold on
    scatter(X(ind==1,1), X(ind==1,2), [], [1 0 0])
    scatter(X(ind==2,1), X(ind==2,2), [], [0 0 1])
    plot([-1 1]*10*V(1,1), [-1 1]*10*V(2,1), 'k', 'LineWidth', 2)
    plot(centroids(1,1), centroids(1,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(1,1), centroids(1,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)
    plot(centroids(2,1), centroids(2,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(2,1), centroids(2,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)

    plot([-1 1]*5*V(1,2), [-1 1]*5*V(2,2), 'k--')
end

for i=1:8
    subplot(2,4,i)
    axis([-8 8 -8 8])
    axis square
    set(gca,'xtick',[],'ytick',[])
end    

2
ฉันแค่มองเข้าไปในกระดาษของ Ding & He ในทฤษฎีบท 2.2 พวกเขาระบุว่าถ้าคุณทำ k-mean (กับ k = 2) ของคลาวด์ข้อมูล p-มิติบางส่วนและยังดำเนินการ PCA (ขึ้นอยู่กับความแปรปรวนร่วม) ของข้อมูลจุดทั้งหมดที่อยู่ในคลัสเตอร์ A จะเป็นค่าลบและทั้งหมด คะแนนที่อยู่ในคลัสเตอร์ B จะเป็นค่าบวกกับคะแนน PC1 ข้อความที่น่าสนใจ - ควรทดสอบในแบบจำลอง อย่างไรก็ตามปัญหาก็คือว่าฉันคิดว่าวิธีแก้ปัญหา K-mean ที่ดีที่สุดในโลก แต่เราจะทราบได้อย่างไรว่าการจัดกลุ่มที่ประสบความสำเร็จนั้นดีที่สุด
ttnphns

1
@ttnphns ฉันได้อัปเดตการจำลองและตัวเลขเพื่อทดสอบการอ้างสิทธิ์นี้อย่างชัดเจนยิ่งขึ้น หากการประมาณการบน PC1 ควรเป็นค่าบวกและค่าลบสำหรับคลาส A และ B ก็หมายความว่าแกน PC2 ควรทำหน้าที่เป็นขอบเขตระหว่างทั้งสอง นี่เป็นเรื่องที่ใกล้เคียงกับกรณีของการจำลองของเล่นทั้งสี่ของฉัน แต่ในตัวอย่างที่ 2 และ 3 มีจุดสองจุดที่ผิดด้านของ PC2 เกี่ยวกับการลู่เข้าฉันวิ่งkmeansฟังก์ชั่นด้วย 100 ซ้ำ: มันเลือกการกำหนดค่าเริ่มต้นแบบสุ่มที่แตกต่างกันในแต่ละครั้งจากนั้นเลือกทางออกที่ดีที่สุดดังนั้นหวังว่าจะมั่นใจได้ว่าการบรรลุเป้าหมายสูงสุดของโลก
อะมีบากล่าวว่า Reinstate Monica

1
@ttnphns: ฉันคิดว่าฉันคิดว่าเกิดอะไรขึ้นโปรดดูการปรับปรุงของฉัน
อะมีบาพูดว่า Reinstate Monica

อะมีบาขอขอบพระคุณสำหรับบทความย่อยที่ถูกกล่าวถึงกับพวกเราทุกคนและสำหรับการส่งข้อสรุปของคุณ (+2); และเพื่อให้ฉันรู้เป็นการส่วนตัว! ฉันจะกลับมาหวังอีกสองสามวันในการอ่านและตรวจสอบคำตอบของคุณ แต่เห็นคุณค่าตอนนี้แล้ว
ttnphns

โพสต์ที่โดดเด่น มีเหตุผลที่คุณใช้ Matlab ไม่ใช่ R ใช่หรือไม่ แค่อยากรู้อยากเห็นเพราะฉันกำลังเรียนหลักสูตร ML Coursera และ Andrew Ng ก็ใช้ Matlab แทน R หรือ Python เป็นตัวเลือก ML ทั่วไปหรือไม่
Antoni Parellada

10

PCA และ K-หมายความว่าทำสิ่งที่แตกต่าง

PCA ใช้สำหรับการลดขนาด / การเลือกคุณสมบัติ / การเรียนรู้การเป็นตัวแทนเช่นเมื่อพื้นที่คุณลักษณะมีคุณลักษณะที่ไม่เกี่ยวข้องหรือซ้ำซ้อนมากเกินไป จุดมุ่งหมายคือการหามิติภายในของข้อมูล

นี่คือตัวอย่างสองมิติที่สามารถวางนัยกับพื้นที่มิติที่สูงขึ้น ชุดข้อมูลมีคุณสมบัติสองอย่างคือและทุก ๆ วงกลมเป็นจุดข้อมูลxy

ป้อนคำอธิบายรูปภาพที่นี่

ในภาพมีขนาดใหญ่กว่าv2เหล่านี้คือ Eigenvectors มิติของข้อมูลจะลดลงจากสองมิติเป็นหนึ่งมิติ (ไม่มีทางเลือกมากนักในกรณีนี้) และทำได้โดยการฉายทิศทางของเวกเตอร์ (หลังจากการหมุนที่กลายเป็นขนานหรือตั้งฉากกับแกนหนึ่ง) . นี่เป็นเพราะตั้งฉากกับทิศทางของความแปรปรวนที่ใหญ่ที่สุด วิธีคิดอย่างหนึ่งคือการสูญเสียข้อมูลเพียงเล็กน้อย (ยังคงมีการสูญเสียเนื่องจากแกนพิกัดหนึ่งแกนหายไป)v1v2v2v2v2

K-Mean เป็นอัลกอริทึมการจัดกลุ่มที่ส่งคืนการจัดกลุ่มจุดข้อมูลตามธรรมชาติตามความคล้ายคลึงกัน มันเป็นกรณีพิเศษของเกาส์รุ่นผสม

ในภาพด้านล่างชุดข้อมูลมีสามมิติ จะเห็นได้จากพล็อต 3 มิติทางด้านซ้ายที่มิติสามารถ 'ลด' ได้โดยไม่สูญเสียข้อมูลมากนัก PCA ใช้ในการฉายข้อมูลลงบนสองมิติ ในรูปทางด้านซ้ายระนาบการฉายจะแสดงด้วย จากนั้น K-Mean สามารถใช้กับข้อมูลที่คาดการณ์เพื่อติดป้ายกลุ่มต่าง ๆ ในรูปด้านขวาเขียนด้วยสีต่างกันX

ป้อนคำอธิบายรูปภาพที่นี่

PCA หรือเทคนิคการลดขนาดอื่น ๆ ถูกนำมาใช้ก่อนวิธีการทั้งสองที่ไม่ได้ดูแลหรือดูแลในการเรียนรู้ของเครื่อง นอกเหนือจากเหตุผลที่ระบุไว้โดยคุณและสิ่งที่ฉันกล่าวถึงข้างต้นมันยังใช้เพื่อจุดประสงค์ในการสร้างภาพ (การฉายเป็น 2D หรือ 3D จากมิติที่สูงขึ้น)

สำหรับบทความนี้ฉันไม่เชื่อว่ามีการเชื่อมต่อใด ๆ PCA ไม่มีข้อมูลเกี่ยวกับการจัดกลุ่มข้อมูลตามธรรมชาติและดำเนินการกับข้อมูลทั้งหมดไม่ใช่ชุดย่อย (กลุ่ม) หากบางกลุ่มอาจอธิบายได้โดย eigenvector หนึ่งคน (เพียงเพราะกลุ่มนั้นกระจายไปตามทิศทางนั้น) เป็นเพียงเรื่องบังเอิญและไม่ควรถือเป็นกฎทั่วไป

"PCA ตั้งเป้าหมายในการบีบอัดคุณสมบัติ T ในขณะที่การจัดกลุ่มมีจุดมุ่งหมายในการบีบอัดจุดข้อมูล N"

แท้จริงแล้วการบีบอัดเป็นวิธีที่ใช้งานง่ายที่จะคิดเกี่ยวกับ PCA อย่างไรก็ตามใน K-เพื่ออธิบายแต่ละจุดที่สัมพันธ์กับมันเป็นคลัสเตอร์คุณยังคงต้องการข้อมูลจำนวนเท่าเดิม (เช่นส่วนข้อมูล)โดยที่คือระยะทางและถูกเก็บไว้ แทนการx_iและคุณต้องเก็บเพื่อให้รู้ว่าเดลต้าสัมพันธ์กับอะไร คุณสามารถเก็บหลักสูตรและอย่างไรก็ตามคุณจะไม่สามารถดึงข้อมูลจริงในข้อมูลได้xi=d(μi,δi)dδixiμidi

การรวมกลุ่มจะเพิ่มข้อมูลจริงๆ ฉันคิดว่ามันเป็นการแบ่งข้อมูลออกเป็นกลุ่มตามธรรมชาติ (ซึ่งไม่จำเป็นต้องแยกจากกัน) โดยไม่ทราบว่าฉลากสำหรับแต่ละกลุ่มหมายถึงอะไร (ดีจนกระทั่งคุณดูข้อมูลภายในกลุ่ม)


3
วิธีที่พีซีของคุณติดป้ายไว้ในเนื้อเรื่องดูเหมือนจะไม่สอดคล้องกับการอภิปรายที่เกี่ยวข้องในข้อความ โปรดทราบว่าแม้ว่าโดยทั่วไปแล้ว PCA จะใช้กับคอลัมน์ & k- หมายถึงแถว แต่ก็สามารถใช้กับทั้งสองได้ ฉันไม่ได้อ่านกระดาษ แต่ฉันคิดว่านั่นคือสิ่งที่พวกเขากำลังพูดถึง
gung - Reinstate Monica

ขออภัยฉันหมายถึงตัวเลขยอดนิยม: viz., ป้ายกำกับ v1 & v2 สำหรับพีซี
gung - Reinstate Monica

จุดดีมันอาจมีประโยชน์ (ไม่สามารถหาว่ามีอะไร) ในการบีบอัดกลุ่มของจุดข้อมูล ค้นหากลุ่มโดยใช้ค่า k, บีบอัดเร็กคอร์ดให้น้อยลงโดยใช้ pca สำหรับการจัดกลุ่มสถานที่นั้นอาจมีประโยชน์จริง ๆ
shuriken x blue

2
ดังนั้นคุณจะบอกว่ากระดาษผิด? มันระบุอย่างชัดเจน (ดูประโยคที่ 3 และ 4 ในนามธรรม) และอ้างว่าได้พิสูจน์ทางคณิตศาสตร์ว่ามีการเชื่อมต่อที่เฉพาะเจาะจงในขณะที่คุณพูดว่าไม่มีการเชื่อมต่อ
อะมีบาพูดว่า Reinstate Monica

สิ่งที่ฉันได้รับจากมัน: PCA ปรับปรุง K- หมายถึงการแก้ปัญหาการจัดกลุ่ม การเชื่อมต่อคือโครงสร้างคลัสเตอร์จะถูกฝังในองค์ประกอบหลัก K - 1 แรก นี่คือผลงาน
ซูริเคน x น้ำเงิน

7

มันเป็นเรื่องธรรมดาที่จะทำให้ข้อมูลขาวขึ้นก่อนที่จะใช้วิธี k เหตุผลก็คือว่าค่าเฉลี่ย k นั้นอ่อนไหวอย่างยิ่งต่อขนาดและเมื่อคุณมีคุณลักษณะที่ผสมกันจะไม่มีมาตราส่วน "ของจริง" อีกต่อไป จากนั้นคุณต้องทำให้มาตรฐานเป็นมาตรฐานหรือทำให้ข้อมูลของคุณขาวขึ้น ไม่มีใครสมบูรณ์แบบ แต่การฟอกสีฟันจะขจัดความสัมพันธ์ระดับโลกซึ่งบางครั้งอาจให้ผลลัพธ์ที่ดีกว่า PCA / ไวท์เทนนิ่งคือเนื่องจากคุณทำงานกับเมทริกซ์ความแปรปรวนร่วมO(nd2+d3)

ความเข้าใจของความสัมพันธ์ของ K-PCA วิธีการคือไม่ได้อยู่ในข้อมูลเดิม มันคือการใช้ PCA ในระยะทางเมทริกซ์ (ซึ่งมีรายการและการทำ PCA เต็มรูปแบบจึงเป็น - เช่นราคาแพงโดยเฉพาะอย่างยิ่งเมื่อเทียบกับ k- หมายถึงซึ่งเป็นที่เป็นเพียงระยะขนาดใหญ่) และอาจจะเพียง แต่สำหรับ 2 K-mean เป็นปัญหาการเพิ่มประสิทธิภาพกำลังสองน้อยที่สุดดังนั้น PCA k-หมายถึงพยายามค้นหาพาร์ติชันที่น้อยที่สุดของข้อมูล PCA ค้นหาเวกเตอร์สมาชิกคลัสเตอร์ที่มีกำลังสองน้อยที่สุดn2O(n2d+n3)O(knid)nk=2

Eigenvector แรกมีความแปรปรวนมากที่สุดดังนั้นการแยกเวกเตอร์นี้ (ซึ่งคล้ายกับการเป็นสมาชิกของคลัสเตอร์ไม่ใช่พิกัดข้อมูลอินพุต!) หมายถึงการเพิ่มความแปรปรวนระหว่างคลัสเตอร์ให้ได้มากที่สุด โดยการเพิ่มระหว่างความแปรปรวนของคลัสเตอร์คุณจะลดความแปรปรวนภายในคลัสเตอร์ด้วยเช่นกัน

แต่สำหรับปัญหาจริงมันไม่มีประโยชน์ เป็นเพียงความสนใจทางทฤษฎีเท่านั้น


2
มันจะเป็นการดีหากได้เห็นคำอธิบาย / ภาพรวมที่เฉพาะเจาะจงของกระดาษ Ding & He (OP ที่เชื่อมโยงกับ) ฉันยังไม่คุ้นเคยกับตัวเอง (แต่) แต่เคยเห็นมันพูดถึงเวลาพอที่จะอยากรู้อยากเห็น
อะมีบาพูดว่า Reinstate Monica

3
คุณหมายถึงนี้ ? ใช่ฉันได้เจอแล้วเช่นกัน ฉันคิดว่ามันเพิ่มความสับสนของฉันเท่านั้น ฉันหวังว่านี่จะเป็นกระทู้ที่สามารถอธิบายได้สำหรับฉัน ... ตอนนี้ฉันคิดเกี่ยวกับมันบางทีฉันควรจะวางรางวัลไว้ ฉันไม่คิดว่าฉันจะมีเวลาในวันถัดไปเพื่อศึกษาหัวข้อนี้ด้วยตัวเอง
อะมีบาพูดว่า Reinstate Monica

3
ย่อหน้าวิกินี้แปลกมาก มันบอกว่า Ding & He (2001/2004) นั้นผิดและไม่ใช่ผลใหม่! เพื่อแสดงให้เห็นว่ามันไม่ใช่เรื่องใหม่มันอ้างอิงบทความ 2004 (?!) เพื่อแสดงให้เห็นว่ามันผิดก็อ้างอิงบทความใหม่ปี 2014 ที่ไม่ได้กล่าวถึง Ding & He คาว.
อะมีบาพูดว่า Reinstate Monica

3
อาจอ้างถึงจดหมายขยะอีกครั้ง Wikipedia เต็มไปด้วยการส่งเสริมตนเอง
Anony-Mousse

1
ฉันคิดว่าฉันคิดออกว่ามีอะไรอยู่ใน Ding & He โปรดดูคำตอบของฉัน นอกจากนั้นข้อโต้แย้งของคุณเกี่ยวกับความซับซ้อนของอัลกอริทึมนั้นไม่ถูกต้องทั้งหมดเนื่องจากคุณเปรียบเทียบการสลายตัวของไอเก็นนิคเตอร์เต็มรูปแบบของเมทริกซ์ด้วยการแยกหมายถึง "ส่วนประกอบ" เท่านั้น นั่นไม่ใช่การเปรียบเทียบที่ยุติธรรม หากคุณใช้อัลกอริทึมซ้ำบางอย่างสำหรับ PCA และแยกเฉพาะคอมโพเนนต์ดังนั้นฉันคาดว่ามันจะทำงานได้เร็วเท่ากับ K-mean ดังนั้นฉันไม่แน่ใจว่ามันถูกต้องหรือไม่ที่จะบอกว่ามันไร้ประโยชน์สำหรับปัญหาที่แท้จริง n×nkk
อะมีบาพูดว่า Reinstate Monica

4

การแก้ k- หมายถึง O (k / epsilon) การประมาณระดับต่ำ (เช่นการฉายภาพบนเวกเตอร์เอกพจน์ที่ใหญ่ที่สุดเป็นครั้งแรกครั้งแรกในขณะที่ PCA) จะให้การประมาณ (1 + epsilon) ในแง่ของข้อผิดพลาดทวีคูณ

โดยเฉพาะการฉายบนเวกเตอร์ที่ใหญ่ที่สุด k จะให้ผลประมาณ 2 แบบ

ในความเป็นจริงผลรวมของระยะทางยกกำลังสองสำหรับชุดศูนย์ k ใด ๆ สามารถประมาณได้ด้วยการฉายภาพนี้ จากนั้นเราสามารถคำนวณคอร์เซ็ตบนข้อมูลที่ลดลงเพื่อลดอินพุตไปยังจุดโพลี (k / eps) ที่ใกล้เคียงกับผลรวมนี้

ดู: Dan Feldman, Melanie Schmidt, Christian Sohler: เปลี่ยนข้อมูลขนาดใหญ่ให้เป็นข้อมูลขนาดเล็ก: แกนขนาดคงที่สำหรับ k-mean, PCA และการจัดกลุ่มโปรเจค SODA 2013: 1434-1453


3

ความสัมพันธ์ที่ใช้งานง่ายของ PCA และ KMeans

  1. การวิเคราะห์เชิงมิติตามทฤษฎี PCA (มิติแรกของ K ที่รักษาความแปรปรวน 90% ... ไม่จำเป็นต้องมีความสัมพันธ์โดยตรงกับกลุ่ม K หมายถึง) อย่างไรก็ตามค่าของการใช้ PCA มาจาก a) การพิจารณาในทางปฏิบัติเนื่องจากลักษณะของวัตถุที่ เราวิเคราะห์มีแนวโน้มที่จะจัดกลุ่มตามธรรมชาติรอบ ๆ / วิวัฒนาการจาก (บางส่วนของ) องค์ประกอบหลักของพวกเขา (อายุเพศ .. ) b) PCA กำจัดมิติความแปรปรวนต่ำเหล่านั้น (เสียง) ดังนั้นตัวเองเพิ่มมูลค่า (และรูปแบบความรู้สึกคล้ายกับการจัดกลุ่ม ) โดยมุ่งเน้นไปที่มิติสำคัญเหล่านั้นในแง่ง่ายมันก็เหมือนกับแกน XY คือสิ่งที่ช่วยให้เราเข้าใจแนวคิดทางคณิตศาสตร์ที่เป็นนามธรรม แต่ในลักษณะที่ก้าวหน้ากว่า

  2. K หมายถึงพยายามลดระยะทางโดยรวมภายในคลัสเตอร์สำหรับ K ที่กำหนด

  3. สำหรับชุดของวัตถุที่มีพารามิเตอร์ N มิติโดยวัตถุที่คล้ายกันเริ่มต้นจะมีพารามิเตอร์ MOST“ คล้ายกัน” ยกเว้นความแตกต่างที่สำคัญสองสามอย่าง (เช่นกลุ่มนักศึกษาไอทีอายุน้อยนักเต้นหนุ่มมนุษย์…จะมีคุณสมบัติคล้ายกันมาก (ความแปรปรวนต่ำ) แต่คุณสมบัติที่สำคัญสองสามประการยังคงค่อนข้างหลากหลายและจับภาพ "องค์ประกอบหลักองค์ประกอบหลัก" เหล่านั้นจับความแปรปรวนส่วนใหญ่เช่นสีพื้นที่ที่อยู่อาศัย .... ดังนั้นการบิดเบือนต่ำถ้าเราละเลยคุณสมบัติเหล่านั้นของความแตกต่างเล็กน้อยหรือการแปลงเป็น พีซีที่ต่ำกว่าจะไม่สูญเสียข้อมูลมากนัก
  4. ดังนั้นจึงเป็นไปได้ว่า“ เป็นไปได้มาก” และ“ เป็นธรรมชาติมาก” ที่จัดกลุ่มพวกเขาเข้าด้วยกันเพื่อดูความแตกต่าง (รูปแบบ) ที่เหมาะสมสำหรับการประเมินข้อมูล (เช่นถ้าคุณทำแบบสำรวจ 1,000 ครั้งในหนึ่งสัปดาห์ในถนนสายหลัก อายุหรือภูมิหลังทางการศึกษาในฐานะที่เป็นพีซีสมเหตุสมผล) ภายใต้พันธกิจของ K Means เราพยายามกำหนดจำนวน K ที่เหมาะสมเพื่อให้องค์ประกอบกลุ่ม (ในคลัสเตอร์) มีระยะทางที่เล็กที่สุดโดยรวม (ย่อเล็กสุด) ระหว่าง Centroid และในขณะที่ต้นทุน ในการสร้างและใช้งานคลัสเตอร์ K นั้นเหมาะสมที่สุด (สมาชิกแต่ละคนในฐานะคลัสเตอร์ไม่สมเหตุสมผลเนื่องจากมีค่าใช้จ่ายสูงในการบำรุงรักษาและไม่มีค่า)
  5. การจัดกลุ่ม K หมายถึงสามารถ "ตรวจสอบด้วยสายตา" ได้อย่างง่ายดายเพื่อให้เหมาะสมถ้า K นั้นอยู่ในองค์ประกอบหลัก (เช่นหากคนในอายุต่างกันกลุ่มชาติพันธุ์ / กลุ่มที่มีแนวโน้มจะแสดงความคิดเห็นที่คล้ายกันดังนั้นหากคุณจัดกลุ่มการสำรวจตาม พีซีเหล่านั้นจึงบรรลุเป้าหมายการลดขนาด (อ้างอิงที่ 1) และพีซีเหล่านั้น (ชาติพันธุ์อายุศาสนา .. ) ค่อนข้างบ่อยเป็นแบบมุมฉากดังนั้นจึงเห็นได้ชัดเจนโดยการดู PCA
  6. อย่างไรก็ตามการหักอย่างง่ายนี้นำไปสู่เงื่อนไขที่เพียงพอ แต่ไม่จำเป็น (การอ้างอิง 2: อย่างไรก็ตาม PCA นั้นมีประโยชน์ในการผ่อนคลายของการจัดกลุ่ม k- หมายถึงไม่ใช่ผลลัพธ์ใหม่ (ดูตัวอย่างเช่น [35]) และมันตรงไปตรงมาที่จะเปิดเผยเคาน์เตอร์คู่ค้ากับคำสั่งว่า โดยทิศทางที่สำคัญ [36])

การเลือกกลุ่มตาม / ตาม CP อาจนำไปสู่กลไกการจัดสรรที่สะดวกสบาย

นี่อาจเป็นตัวอย่างถ้า x เป็นพีซีเครื่องแรกที่มีแกน X: (........... CC1 ............... CC2 ..... ....... CC3 X axis) ที่แกน X บอกว่าจับความแปรปรวนมากกว่า 9X% และพูดว่าเป็นพีซีเพียงเครื่องเดียว

6. ในที่สุด PCA ยังใช้เพื่อให้เห็นภาพหลังจาก K Means เสร็จสิ้นแล้ว (Ref 4)

หาก PCA แสดง * ผลลัพธ์การจัดกลุ่ม K ของเราเป็นแบบมุมฉากหรือใกล้เคียงก็เป็นสัญญาณว่าการจัดกลุ่มของเราเป็นเสียงซึ่งแต่ละอย่างนั้นมีลักษณะเฉพาะ

(* เนื่องจากตามคำจำกัดความของ PCA ค้นหา / แสดงมิติที่สำคัญเหล่านั้น (1D ถึง 3D) เช่นที่บอกว่า K (PCA) จะจับภาพได้มากกว่าความแปรปรวนส่วนใหญ่

ดังนั้น PCA จึงมีประโยชน์ทั้งในการมองเห็นและยืนยันการจัดกลุ่มที่ดีเช่นเดียวกับองค์ประกอบที่มีประโยชน์ในการพิจารณาการจัดกลุ่ม K หมายถึง - ที่จะใช้ก่อนหลัง K หมายถึง

อ้างอิง:

  1. https://msdn.microsoft.com/en-us/library/azure/dn905944.aspx
  2. https://en.wikipedia.org/wiki/Principal_component_analysis
  3. คลัสเตอร์โดยใช้การวิเคราะห์ส่วนประกอบหลัก: การใช้งานของผู้สูงอายุอัตโนมัติ - พิการ (Combes & Azema)
  4. http://cs229.stanford.edu/notes/cs229-notes10.pdf Andrew Ng
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.