ทำความเข้าใจกับแผนการขายไอศกรีมของ PCA นี้เทียบกับอุณหภูมิ


9

ฉันกำลังใช้ข้อมูลหุ่นจำลองของอุณหภูมิเทียบกับการขายไอศกรีมและจัดหมวดหมู่โดยใช้ K หมายถึง (n กลุ่ม = 2) เพื่อแยกแยะความแตกต่าง 2 ประเภท (หุ่นจำลองทั้งหมด)

ตอนนี้ฉันกำลังทำการวิเคราะห์ส่วนประกอบหลักในข้อมูลนี้และเป้าหมายของฉันคือเข้าใจสิ่งที่ฉันเห็น ฉันรู้ว่าวัตถุประสงค์ PCA คือการลดมิติ (ไม่ชัดเจนในกรณีนี้) และแสดงความแปรปรวนขององค์ประกอบ แต่คุณจะอ่านพล็อต PCA ด้านล่างได้อย่างไรนั่นคือเรื่องราวที่คุณสามารถบอกเกี่ยวกับอุณหภูมิเทียบกับไอศกรีมในพล็อต PCA ได้อย่างไร พีซีรุ่น 1 (X) และ 2nd (Y) หมายถึงอะไร?

ป้อนคำอธิบายรูปภาพที่นี่


1
นี่ควรเป็นความเห็น แต่ฉันมีตัวแทนไม่เพียงพอ ลิงค์ด้านล่างนี้เป็นแบบฝึกหัดที่ยอดเยี่ยมสำหรับ PCA โดยเฉพาะอย่างยิ่งตัวอย่างของเล่นทำให้เกิดความสมดุลที่ดีระหว่าง "ง่ายพอที่จะเข้าใจด้วยภาพเดียว" และ "ซับซ้อนพอที่จะใช้เป็นอุปมาอุปมัยในปัญหาในอนาคต" ฉันคิดว่าการอ่านมันอาจช่วยให้ชัดเจนว่า PCA สามารถทำอะไรและไม่สามารถทำเพื่อคุณได้ cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

คำตอบ:


18

ฉันรู้ว่าวัตถุประสงค์ของ PCA คือการลดมิติข้อมูล

นี่มักเป็นสิ่งที่ผู้คนคิด แต่ที่จริงแล้ว PCA เป็นเพียงการนำเสนอข้อมูลของคุณบนพื้นฐานมุมฉาก พื้นฐานนี้ยังคงมีมิติข้อมูลเหมือนกับข้อมูลต้นฉบับของคุณ ยังไม่มีอะไรหายไป ... ส่วนการลดขนาดนั้นขึ้นอยู่กับคุณอย่างสมบูรณ์ สิ่งที่ PCA มั่นใจได้คือขนาดสูงสุดของโปรเจ็กต์ใหม่ของคุณคือขนาดดีที่สุดที่อาจเป็นข้อมูลของคุณ สิ่งที่ดีที่สุดหมายถึงอะไร นั่นคือสิ่งที่อธิบายความแปรปรวนเข้ามาk k

เห็นได้ชัดว่าไม่ใช่ในกรณีนี้

ฉันจะไม่แน่ใจเกี่ยวกับสิ่งนั้น! จากพล็อตที่สองของคุณดูเหมือนว่าข้อมูลจำนวนมากจากข้อมูลของคุณจะถูกฉายลงบนเส้นแนวนอน นั่นคือ 1 มิติแทนที่จะเป็นพล็อตดั้งเดิมซึ่งมี 2 มิติ! เห็นได้ชัดว่าคุณสูญเสียข้อมูลบางส่วนเพราะคุณลบแกน Y แต่การสูญเสียข้อมูลนี้เป็นที่ยอมรับของคุณหรือไม่เป็นสายของคุณ

ตันมีคำถามที่เกี่ยวข้องกับสิ่งที่ PCA อยู่ในสถานที่ดังนั้นผมจึงขอแนะนำให้คุณตรวจสอบพวกเขาออกที่นี่ , ที่นี่ , ที่นี่หรือที่นี่ หากคุณมีคำถามอื่นหลังจากนั้นโปรดโพสต์พวกเขาและฉันยินดีที่จะช่วย

ตามคำถามจริงของคุณ:

เรื่องราวที่คุณสามารถบอกเกี่ยวกับอุณหภูมิกับไอศกรีมในพล็อต PCA คืออะไร

เนื่องจากแกนพิกัดใหม่นั้นเป็นการรวมกันเชิงเส้นของพิกัดดั้งเดิมดังนั้น ... โดยพื้นฐานแล้วไม่มีอะไรเลย! PCA จะให้คำตอบเช่น (ตัวเลขประกอบ):

PC1=2.5×ice cream3.6×temperaturePC2=1.5×ice cream+0.6×temperature

มีประโยชน์กับคุณไหม? อาจจะ. แต่ฉันเดาไม่ได้ :)

แก้ไข

ฉันจะเพิ่มทรัพยากรนี้ซึ่งฉันคิดว่ามีประโยชน์เพราะแผนภูมิแบบโต้ตอบนั้นยอดเยี่ยม

แก้ไขอีกครั้ง

ในการอธิบายความหมายของดีที่สุด :k

PCA พยายามหามิติที่ให้ผลต่างความแปรปรวนสูงสุดเมื่อข้อมูลถูกนำไปฉาย สมมติว่าข้อมูลของคุณมีขนาดพีซีแรกจะอธิบายความแปรปรวนในข้อมูลของคุณได้มากกว่ามิติข้อมูลอื่น ๆ นั่นคือสิ่งที่ผมหมายถึงดีที่สุด kไม่ว่าจะมีประโยชน์กับคุณหรือไม่ก็เป็นอีกเรื่องหนึ่งn>kkk k


6
นอกจากนี้อย่าลืมปรับขนาดตัวแปร มิฉะนั้นยอดขาย (ตัวเลขที่สูงกว่า) จะอธิบายความแปรปรวนส่วนใหญ่ อาจเป็นสาเหตุที่หน่วยในพีซีของคุณแตกต่างกันมาก
Filipe

คำตอบที่ดี แต่คำแถลงของคุณ "... ขนาด kk ที่ดีที่สุดซึ่งอาจเป็นข้อมูลของคุณในฐานะ ... " นั้นอาจเป็นคำที่กว้างเกินไป ทิศทางของความแปรปรวนสูงสุดไม่จำเป็นว่าจะเป็นประโยชน์สำหรับการแยกสองคลาส อย่างใดก็มักจะทำงานได้ดี แต่ไม่ได้เพราะ PCA ทำอะไรเพื่อเลือกที่ดีที่สุดสำหรับวัตถุประสงค์เฉพาะ
Wayne

"อันที่จริงแล้ว PCA เป็นเพียงการนำเสนอข้อมูลของคุณบนพื้นฐานมุมฉาก" ฉันประหลาดใจอย่างต่อเนื่องโดยความจริงที่ว่าหลายคนไม่เข้าใจจุดนี้ ...
3 / 3GG2

5

สำหรับคำตอบที่ดีของคน Ilan ฉันจะเสริมว่ามีการตีความองค์ประกอบหลักของคุณอย่างตรงไปตรงมาถึงแม้ว่าในกรณี 2D แบบง่าย ๆ นี้มันไม่ได้เพิ่มอะไรมากไปกว่าสิ่งที่เราสามารถตีความได้เพียงแค่มองไปที่แผนการกระจาย

พีซีเครื่องแรกคือผลรวมถ่วงน้ำหนัก (นั่นคือการรวมกันเชิงเส้นตรงที่ coeficients ทั้งสองเป็นบวก) ของการบริโภคอุณหภูมิและไอศครีม ทางด้านขวาคุณมีวันที่อากาศร้อนขายไอศกรีมจำนวนมากและทางด้านซ้ายคุณมีวันที่หนาวเย็นกว่าที่ขายไอศกรีมน้อยลง พีซีเครื่องนั้นอธิบายความแปรปรวนส่วนใหญ่ของคุณและกลุ่มที่คุณจับคู่ได้ทั้งสองด้าน

พีซีเครื่องที่สองทำการวัดอุณหภูมิและการบริโภคไอศครีมจากความสัมพันธ์เชิงเส้นใกล้ที่ขีดเส้นใต้โดยพีซีเครื่องแรก ในส่วนบนของกราฟเรามีวันที่มีไอศกรีมขายมากกว่าเมื่อเปรียบเทียบกับวันอื่นที่มีอุณหภูมิเท่ากันและในวันส่วนล่างที่มีไอศกรีมขายน้อยกว่าที่คาดไว้ตามอุณหภูมิ พีซีเครื่องนั้นอธิบายความแตกต่างเพียงเล็กน้อย

นั่นคือเราสามารถบอกเล่าเรื่องราวจากองค์ประกอบหลักแม้ว่าจะมีเพียงสองตัวแปรเท่านั้นมันเป็นเรื่องเดียวกันที่เราสามารถสังเกตเห็นได้โดยไม่ต้อง PCA ด้วยตัวแปรที่มากกว่า PCA จะมีประโยชน์มากกว่าเพราะมันบอกเล่าเรื่องราวที่ยากที่จะสังเกตเห็นเป็นอย่างอื่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.