เหตุใด PCA จึงเพิ่มความแปรปรวนโดยรวมของการฉายภาพให้สูงสุด


11

Christopher Bishop เขียนในการจดจำรูปแบบในหนังสือของเขาและการเรียนรู้ของเครื่องเพื่อพิสูจน์ว่าแต่ละองค์ประกอบหลักติดต่อกันช่วยเพิ่มความแปรปรวนของการฉายภาพให้เป็นมิติหนึ่งหลังจากข้อมูลถูกฉายไปยังพื้นที่มุมฉากกับองค์ประกอบที่เลือกไว้ก่อนหน้านี้ คนอื่น ๆ แสดงหลักฐานที่คล้ายกัน

อย่างไรก็ตามสิ่งนี้พิสูจน์ให้เห็นว่าแต่ละองค์ประกอบที่ต่อเนื่องกันเป็นโครงที่ดีที่สุดสำหรับหนึ่งมิติในแง่ของการเพิ่มความแปรปรวนให้สูงสุด เหตุใดสิ่งนี้จึงบอกเป็นนัยถึงความแปรปรวนของการฉายภาพที่จะบอกว่า 5 มิตินั้นถูกเลือกให้มากที่สุดสำหรับส่วนประกอบแรก


คุณช่วยบอกเราได้ไหมว่า "ความแปรปรวน" ของชุดข้อมูลห้ามิตินั้นมีความหมายอย่างไรซึ่งเป็นผลมาจากการคาดการณ์ชุดข้อมูลเป็นห้ามิติ (เพื่อให้ปริมาณดังกล่าวอยู่ภายใต้การขยายให้ใหญ่สุดจะต้องเป็นตัวเลขเดียว )
whuber

3
จุดที่ดีมาก Chris Bishop ในหนังสือของเขาหมายถึงการลดความแปรปรวนของการฉายภาพให้น้อยที่สุดและยังไม่ชัดเจนว่ามันจะมีความหมายมากกว่า 1 มิติอย่างไร ฉันอยากจะเรียนรู้ว่าอะไรคือความแปรปรวนที่น้อยที่สุดและเหตุใดขั้นตอนดังกล่าวจึงทำให้มันน้อยที่สุดร่วมกัน
Michal

1
@ user123675: ในความคิดเห็นสุดท้ายของคุณคุณอาจหมายถึง "การขยายใหญ่สุด" ไม่ใช่ "ลดขนาด"
อะมีบา

ใช่คุณถูก. ขออภัย!
Michal

คำตอบ:


11

สิ่งที่เข้าใจได้จากความแปรปรวนในหลายมิติ ("ความแปรปรวนรวม") เป็นเพียงผลรวมของความแปรปรวนในแต่ละมิติ ในทางคณิตศาสตร์มันเป็นร่องรอยของเมทริกซ์ความแปรปรวนร่วม: การติดตามเป็นเพียงผลรวมขององค์ประกอบในแนวทแยงทั้งหมด คำจำกัดความนี้มีคุณสมบัติที่ดีมากมายเช่นการติดตามไม่แปรเปลี่ยนภายใต้การแปลงเชิงเส้นแบบฉากฉากซึ่งหมายความว่าหากคุณหมุนแกนพิกัดของคุณความแปรปรวนทั้งหมดจะยังคงเหมือนเดิม

สิ่งที่ได้รับการพิสูจน์ในหนังสือของบิชอป (มาตรา 12.1.1) คือว่าไอเกนวีคเตอร์ชั้นนำของเมทริกซ์ความแปรปรวนร่วมทำให้ทิศทางของความแปรปรวนสูงสุด eigenvector ที่สองให้ทิศทางของความแปรปรวนสูงสุดภายใต้ข้อ จำกัด เพิ่มเติมว่ามันควรเป็นมุมฉากกับ eigenvector ตัวแรกและอื่น ๆ (ฉันเชื่อว่านี่เป็นแบบฝึกหัด 12.1) หากเป้าหมายคือการเพิ่มความแปรปรวนโดยรวมให้มากที่สุดในพื้นที่ย่อย 2D กระบวนการนี้เป็นการเพิ่มความโลภสูงสุด: ก่อนอื่นให้เลือกหนึ่งแกนที่เพิ่มความแปรปรวนสูงสุดและอีกอันหนึ่ง

คำถามของคุณคือ: ทำไมขั้นตอนโลภถึงได้มากที่สุดในโลก?

นี่เป็นอาร์กิวเมนต์ที่ดีที่ @whuber แนะนำในความคิดเห็น ให้เราจัดระบบพิกัดกับแกน PCA ก่อน เมทริกซ์ความแปรปรวนกลายเป็นเส้นทแยงมุม:lambda_i) เพื่อความง่ายเราจะพิจารณากรณี 2D เดียวกันนั่นคือระนาบที่มีความแปรปรวนรวมสูงสุดคืออะไร? เราต้องการพิสูจน์ว่ามันคือระนาบที่กำหนดโดยเวกเตอร์พื้นฐานสองตัวแรก (พร้อมความแปรปรวนทั้งหมด )Σ=diag(λi)λ1+λ2

พิจารณาเครื่องบินทอดสองมุมฉากเวกเตอร์และ{V} ความแปรปรวนทั้งหมดในระนาบนี้คือดังนั้นมันคือการรวมกันเชิงเส้นของค่าลักษณะเฉพาะมีค่าสัมประสิทธิ์ที่เป็นบวกทั้งหมดไม่เกิน (ดูด้านล่าง) และผลรวมไป2ถ้าเป็นเช่นนั้นก็เป็นที่ชัดเจนว่าเกือบสูงสุดถึงที่\uv

uΣu+vΣv=λiui2+λivi2=λi(ui2+vi2).
λi12λ1+λ2

มันเป็นเหลือเพียงแสดงให้เห็นว่าค่าสัมประสิทธิ์ไม่เกิน1ขอให้สังเกตว่าโดยที่เป็นเวกเตอร์พื้นฐาน th ปริมาณนี้เป็นความยาวยกกำลังสองของการประมาณการของบนเครื่องบินทอดและวี ดังนั้นมันจะต้องเล็กกว่าความยาวกำลังสองของซึ่งเท่ากับ , QED1uk2+vk2=(uk)2+(vk)2kkkuvk|k|2=1

ดูคำตอบของ @ cardinal ต่อฟังก์ชัน PCA เป้าหมายคืออะไร (เป็นไปตามตรรกะเดียวกัน)


1
(+1) แต่มันไม่ได้สังหรณ์ใจที่เห็นได้ชัดว่าได้รับคอลเลกชันของกระเป๋าสตางค์ของปริมาณต่างๆของเงินสด (การสร้างแบบจำลองลักษณะเฉพาะที่ไม่ใช่เชิงลบ) และจำนวนคงที่ที่คุณสามารถเลือกที่เลือกกระเป๋าที่ร่ำรวยที่สุดจะเพิ่มโดยรวมของคุณ เงินสด? หลักฐานที่แสดงว่าสัญชาตญาณนี้ถูกต้องเกือบจะเป็นเรื่องเล็กน้อย: ถ้าคุณยังไม่ได้ใช้ใหญ่ที่สุดคุณสามารถปรับปรุงผลรวมของคุณได้โดยการแลกเปลี่ยนสิ่งที่เล็กที่สุดที่คุณถ่ายในจำนวนที่มากขึ้น kkk
whuber

@amoeba: หากเป้าหมายคือการเพิ่มผลรวมของความแปรปรวนและไม่แปรปรวนของผลรวมสูงสุดไม่มีเหตุผลที่การประมาณการที่สองจะเป็นมุมฉากเป็นอันดับแรก
Innuo

1
ฉันขอโทษ - ฉันคิดว่าคุณได้พัฒนาการวิเคราะห์จนถึงจุดที่ยอมรับว่าการแปรปรวนทั้งหมดในสเปซ -dimensional เป็นการรวมเชิงเส้นที่ไม่เป็นลบของค่าลักษณะเฉพาะซึ่งไม่มีสัมประสิทธิ์ใดเกินและ รวมของค่าสัมประสิทธิ์เท่ากับk(นั่นเป็นเรื่องของการคูณเมทริกซ์อย่างง่าย - ไม่ต้องใช้ตัวคูณลากรองจ์) จากนั้นนำเราไปสู่การเปรียบเทียบกระเป๋า ฉันเห็นด้วยว่าต้องทำการวิเคราะห์บางอย่าง k1k
whuber

1
@ amoeba: ฉันหมายถึงเรากำลังพิจารณาปัญหาในฐานซึ่งประกอบด้วย eigenvectors (นี่คือฐานของ u และ v หากเราคำนวณความแปรปรวนของมันโดยการคูณด้วยเมทริกซ์ความแปรปรวนแบบทแยงมุม) คุณและ v จะออกมาในท้ายที่สุดจะเป็นพวกเขา แต่ในขั้นตอนของการพิสูจน์นี้เราไม่ควรถือว่าฉันคิดว่า ไม่ควรโต้แย้งว่าถ้า ณ จุดใดผลรวมมากกว่า 1 เวกเตอร์ 2 เวกเตอร์จะไม่เป็นมุมฉากอีกต่อไปเนื่องจากฐานเป็นมุมฉากและแต่ละเวกเตอร์นำมากที่สุด 1? แต่แล้วอีกครั้งทำไมเราถึง จำกัด ตัวเราเป็นเวกเตอร์มุมฉาก u และ v?
Michal

1
@ Heisenberg: อ่าเข้าใจแล้ว! ไม่แน่นอนฉันไม่ได้หมายความอย่างนั้น! แต่ฉันเห็นตอนนี้ว่าทำไมมันถึงทำให้สับสน ฉันเขียนหลักฐานนี้อีกครั้งเพื่อกำจัดขั้นตอน "การเลือกพื้นฐาน" นี้ โปรดดูการแก้ไขของฉัน ขอบคุณ.
อะมีบา

2

ถ้าคุณมีตัวแปรสุ่ม uncorrelated เรียงเรียงลำดับจากความแปรปรวนของพวกเขาและได้ขอให้เลือกของพวกเขาเช่นว่าความแปรปรวนของผลรวมของพวกเขาเป็น maximized คุณจะเห็นว่าวิธีโลภของการเลือกครั้งแรกจะประสบความสำเร็จหรือไม่?Nkk

ข้อมูลที่ฉายลงบน eigenvectors ของเมทริกซ์ความแปรปรวนของตนเป็นหลักคอลัมน์ uncorrelated ของข้อมูลและมีความแปรปรวนเท่ากับค่าลักษณะเฉพาะที่เกี่ยวข้องN

เพื่อให้สัญชาตญาณชัดเจนยิ่งขึ้นเราจำเป็นต้องสร้างความแปรปรวนสูงสุดด้วยการคำนวณค่าไอโคนิคเตอร์ของเมทริกซ์ความแปรปรวนร่วมกับค่าลักษณะเฉพาะที่ใหญ่ที่สุดและเชื่อมโยงมุมฉากแบบมุมฉากกับการลบความสัมพันธ์

ความสัมพันธ์ที่สองนั้นชัดเจนสำหรับฉันเพราะสัมประสิทธิ์สหสัมพันธ์ระหว่างเวกเตอร์สองตัว (ศูนย์หมายความว่า) เป็นสัดส่วนกับผลคูณภายในของพวกมัน

ความสัมพันธ์ระหว่างความแปรปรวนสูงสุดและการแยกสลายไอเก็นของเมทริกซ์ความแปรปรวนร่วมมีดังนี้

สมมติว่าเป็นเมทริกซ์ข้อมูลหลังจากอยู่ตรงกลางคอลัมน์ เราจำเป็นต้องค้นหาทิศทางของความแปรปรวนสูงสุด สำหรับเวกเตอร์หน่วยใด ๆความแปรปรวนหลังจากฉายตามคือDvv

E[(Dv)tDv]=vtE[DtD]v=vtCov(D)v

ซึ่งจะขยายให้มากที่สุดถ้าคือค่าเฉพาะของสอดคล้องกับค่าลักษณะเฉพาะที่ใหญ่ที่สุดvCov(D)


คำถามเดิมค่อนข้าง: เลือกชุดค่าผสมเชิงเส้น orthogonal ของพวกเขา (ตรงข้ามกับของพวกเขา) เพื่อให้ผลรวมของความแปรปรวนสูงสุด ก็ยังคงเป็นที่เห็นได้ชัดว่าวิธีโลภของการเลือกครั้งแรกสำเร็จที่? kkk
อะมีบา

การค้นหาชุดค่าผสมเชิงเส้นแบบแนวตั้งฉากจากนั้นเลือกชุดตัวแปรแรกสุดของพวกมันคือสิ่งที่กระบวนการอธิบาย (คับ) คำตอบของฉันเพียงอ้างว่า orthogonality เป็นสิ่งที่เพียงพอสำหรับกระบวนการโลภเพื่อให้บรรลุเป้าหมายของการเพิ่มความแปรปรวนทั้งหมด Nk
Innuo

ฉันไม่แน่ใจว่าฉันทำตามข้อโต้แย้ง orthogonality มีความสำคัญอย่างไร? หากคุณมีตัวแปรและต้องเลือกมีความแปรปรวนรวมสูงสุดคุณควรเลือกมีความแปรปรวนสูงสุด (โดยไม่คำนึงว่าพวกมันมีความสัมพันธ์กันหรือไม่) Nkk
อะมีบา

อ่าฉันเข้าใจความสับสน มีคำพิมพ์ผิดในคำตอบของฉัน แก้ไขแล้ว
Innuo

ฉันคิดว่าคุณอาจจะไปที่บางสิ่งบางอย่างที่นี่ แต่ลักษณะที่น่าอัศจรรย์ของผลรวมต้องอธิบาย สิ่งที่เกี่ยวข้องกับ PCA หรือแม้กระทั่งการสลายตัวของสเปกตรัม?
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.