ตัวอย่างของ PCA ที่พีซีที่มีความแปรปรวนต่ำ“ มีประโยชน์”


24

โดยปกติในการวิเคราะห์องค์ประกอบหลัก (PCA) มีการใช้พีซีสองสามเครื่องแรกและพีซีแบบแปรปรวนต่ำจะหล่นเนื่องจากไม่ได้อธิบายความแปรปรวนของข้อมูลมากนัก

อย่างไรก็ตามมีตัวอย่างที่พีซีที่มีรูปแบบต่ำมีประโยชน์ (เช่นมีการใช้งานในบริบทของข้อมูลมีคำอธิบายที่เข้าใจง่ายเป็นต้น) และไม่ควรถูกทิ้ง?


5
ค่อนข้างน้อย ดูPCA แบบแผนของส่วนประกอบ? สิ่งนี้อาจซ้ำกันได้ แต่ชื่อของคุณจะชัดเจนกว่ามาก (ซึ่งอาจค้นหาได้ง่ายกว่าด้วยการค้นหา) ดังนั้นโปรดอย่าลบมันแม้ว่าชื่อจะถูกปิดเช่นนี้
Nick Stauner

คำตอบ:


18

นี่เป็นข้อความที่ตัดตอนมาเย็นจากโจลิฟฟ์(1982)ที่ฉันไม่ได้รวมอยู่ในคำตอบก่อนหน้าของฉันไปที่คำถามที่คล้ายกันมาก " องค์ประกอบความแปรปรวนต่ำ PCA ที่พวกเขาจริงๆเพียงแค่เสียงหรือไม่มีทางใดทางหนึ่งในการทดสอบสำหรับมันได้หรือไม่ " ผมพบว่า มันใช้งานง่ายสวย

สมมติว่าจำเป็นต้องคาดการณ์ความสูงของฐานเมฆซึ่งเป็นปัญหาสำคัญที่สนามบิน ตัวแปรภูมิอากาศต่าง ๆ รวมทั้งวัดอุณหภูมิพื้นผิวและ dewpoint ผิวT_dที่นี่คืออุณหภูมิที่อากาศบนพื้นผิวจะอิ่มตัวด้วยไอน้ำและความแตกต่างคือการวัดความชื้นของพื้นผิว ตอนนี้โดยทั่วไปมีความสัมพันธ์เชิงบวกดังนั้นการวิเคราะห์องค์ประกอบหลักของตัวแปรภูมิอากาศจะมีองค์ประกอบความแปรปรวนสูงซึ่งมีความสัมพันธ์สูงกับและองค์ประกอบความแปรปรวนต่ำซึ่งมีความสัมพันธ์ในทำนองเดียวกันกับHTsTdTdTsTdTs,TdTs+TdTsTd. แต่เกี่ยวข้องกับความชื้นและด้วยเหตุนี้เพื่อคือจะต่ำแปรปรวนมากกว่าองค์ประกอบความแปรปรวนสูงดังนั้นกลยุทธ์ซึ่งปฏิเสธส่วนประกอบต่ำแปรปรวนจะให้การคาดการณ์ที่ดีสำหรับHการอภิปรายของตัวอย่างนี้จำเป็นต้องคลุมเครือเนื่องจากไม่ทราบผลกระทบของตัวแปรภูมิอากาศอื่น ๆ ที่วัดและรวมไว้ในการวิเคราะห์ด้วย อย่างไรก็ตามมันแสดงให้เห็นถึงกรณีที่เป็นไปได้ทางร่างกายที่ตัวแปรตามจะเกี่ยวข้องกับองค์ประกอบความแปรปรวนต่ำยืนยันตัวอย่างเชิงประจักษ์สามตัวอย่างจากวรรณกรรม HTsTdH

นอกจากนี้ตัวอย่างฐานเมฆได้รับการทดสอบข้อมูลจากสนามบินคาร์ดิฟฟ์ (เวลส์) ในช่วงปีพ. ศ. 2509-2516 พร้อมตัวแปรสภาพภูมิอากาศพิเศษอุณหภูมิพื้นผิวทะเลรวมอยู่ด้วย ผลลัพธ์เป็นหลักตามที่คาดการณ์ไว้ข้างต้น องค์ประกอบหลักสุดท้ายคือประมาณ และคิดเป็นสัดส่วนเพียง 0 · 4 เปอร์เซ็นต์ของการเปลี่ยนแปลงทั้งหมด อย่างไรก็ตามในการถดถอยองค์ประกอบหลักมันเป็นได้อย่างง่ายดายทำนายที่สำคัญที่สุดสำหรับ H [เน้นเพิ่ม]HTs-TdH

สามตัวอย่างจากวรรณกรรมที่อ้างถึงในประโยคสุดท้ายของย่อหน้าที่สองเป็นสามผมกล่าวถึงในคำตอบของฉันคำถามที่เชื่อมโยง


อ้างอิง
Jolliffe, IT (1982) หมายเหตุเกี่ยวกับการใช้องค์ประกอบหลักในการถดถอย สถิติประยุกต์, 31 (3), 300–303 แปลจากhttp://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf


นี่มันเจ๋งจริงๆ ฉันแค่เพิ่มข้อความที่มากกว่าV ( A - B ) = V ( A ) + V ( B ) - 2 C o v ( A , B )V(A+B)=V(A)+V(B)+2Cโอโวลต์(A,B)V(A-B)=V(A)+V(B)-2Cโอโวลต์(A,B). นั่นทำให้ฉันสะดุดเป็นครั้งที่สองในการทำความเข้าใจว่าทำไมจำเป็นต้องเป็นองค์ประกอบ "ความแปรปรวนต่ำ"Ts-Td
shadowtalker

+1 นี่เป็นตัวอย่างที่ดี ที่น่าสนใจก็เป็นตัวอย่างของการปราบปราม
gung - Reinstate Monica

17

หากคุณมี R มีตัวอย่างที่ดีในcrabsข้อมูลในแพ็คเกจ MASS

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

กว่า 98% ของความแปรปรวนเป็น "อธิบาย" โดยพีซีสองเครื่องแรก แต่ในความเป็นจริงถ้าคุณได้ทำการรวบรวมการวัดเหล่านี้และกำลังศึกษาพวกเขาพีซีเครื่องที่สามนั้นน่าสนใจมากเพราะมันเกี่ยวข้องกับสายพันธุ์ของปูอย่างใกล้ชิด แต่มันล้นมือโดย PC1 (ซึ่งดูเหมือนจะสอดคล้องกับขนาดของปู) และ PC2 (ซึ่งดูเหมือนจะสอดคล้องกับเพศของปู)

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่


2
+1 นี่เป็นการสาธิตที่ยอดเยี่ยมจริงๆ ฉันสร้างเมทริกซ์ scatterplot 2 ตัวที่สามารถเพิ่มได้ถ้าคุณชอบ
gung - Reinstate Monica

1
@gung: ขอบคุณสำหรับการเพิ่ม scatterplots! ฉันตอบโต้คำตอบนี้ก่อนหน้านี้ แต่ไม่ได้ชื่นชมอย่างเต็มที่โดยไม่ได้เห็นแผนการ Scatterplot PC2 กับ PC3 นั้นดีมาก: การแยกเพศและสปีชีส์เกือบสมบูรณ์แบบ ฉันชอบตัวอย่างนี้เพราะมันแสดงให้เห็นว่าเกิดอะไรขึ้นเมื่อตัวแปรทั้งหมดมีความสัมพันธ์เชิงบวกอย่างมาก (เช่น PC1 อธิบายความแปรปรวนจำนวนมากและโดยเฉลี่ยแล้ว)
อะมีบากล่าวว่า Reinstate Monica

1
ขอบคุณ @amoeba ฉันชอบวิธีที่พวกเขาเปิดออก ฉันใช้เวลาส่วนใหญ่ไปกับพวกมัน (สี, pch, lables, legend) ฉันคิดว่าพวกเขาน่ารักจริงๆ คุณสร้างประเด็นที่ดีเกี่ยวกับ PC1 นอกจากนี้เรายังสามารถเห็นได้ว่ามี (อาจ) ค่าสัมประสิทธิ์คงที่ของการเปลี่ยนแปลงและการมีปฏิสัมพันธ์โดยเพศ & / หรือสปีชีส์ในความสัมพันธ์หลายอย่าง: ปู (ทารก?) มีแนวโน้มที่จะมีค่าเดียวกันโดยไม่คำนึงถึงเพศหรือสปีชีส์ พวกเขาเติบโต (อายุ?) พวกเขาชัดเจนมากขึ้น เป็นต้นมีสิ่งที่น่าสนใจมากมายให้ดูคุณสามารถมองไปที่มันต่อไป
gung - Reinstate Monica

8

นี่เป็นสองตัวอย่างจากประสบการณ์ของฉัน (เคมี, ออปติคัล / การสั่นสะเทือน / สเปคโทรรามัน):

  • เมื่อเร็ว ๆ นี้ฉันมีข้อมูลออปติคัลสเปกโทรสโกปี> ที่ 99% ของความแปรปรวนทั้งหมดของข้อมูลดิบเกิดจากการเปลี่ยนแปลงของแสงพื้นหลัง (สปอตไลท์รุนแรงมากขึ้นหรือน้อยลงในจุดที่วัดได้หลอดนีออนเปิด / ปิดเมฆน้อยมาก ดวงอาทิตย์). หลังจากการแก้ไขพื้นหลังด้วยสเปกตรัมแสงของปัจจัยที่มีอิทธิพลต่อการรู้ (สกัดโดย PCA กับข้อมูลดิบการวัดพิเศษเพื่อครอบคลุมรูปแบบเหล่านั้น) ผลกระทบที่เราสนใจปรากฏในพีซี 4 และ 5
    พีซี 1 และ 3 ที่ เนื่องจากผลกระทบอื่น ๆ ในตัวอย่างที่วัดได้และ PC 2 มีความสัมพันธ์กับปลายเครื่องมือทำให้ร้อนขึ้นในระหว่างการวัด

  • ในการวัดอื่นจะใช้เลนส์ที่ไม่มีการแก้ไขสีสำหรับช่วงสเปกตรัมที่วัดได้ ความผิดปกติของสีนำไปสู่การบิดเบือนในสเปกตรัมที่คิดเป็นประมาณ 90% ของความแปรปรวนรวมของข้อมูลที่ประมวลผลล่วงหน้า (บันทึกส่วนใหญ่ใน PC 1)
    สำหรับข้อมูลนี้เราใช้เวลาสักพักกว่าจะรู้ว่าเกิดอะไรขึ้น แต่การเปลี่ยนไปใช้วัตถุประสงค์ที่ดีกว่าแก้ปัญหาสำหรับการทดลองในภายหลัง

(ฉันไม่สามารถแสดงรายละเอียดได้เนื่องจากการศึกษาเหล่านี้ยังไม่ได้เผยแพร่)


3

ฉันสังเกตเห็นว่าพีซีที่มีความแปรปรวนต่ำจะมีประโยชน์มากที่สุดเมื่อดำเนินการ PCA บนเมทริกซ์ความแปรปรวนร่วมที่ข้อมูลพื้นฐานถูกจัดกลุ่มหรือจัดกลุ่มด้วยวิธีใดวิธีหนึ่ง หากกลุ่มใดกลุ่มหนึ่งมีความแปรปรวนเฉลี่ยต่ำกว่ากลุ่มอื่นอย่างมีนัยสำคัญกลุ่มพีซีที่เล็กที่สุดจะถูกครอบงำโดยกลุ่มนั้น อย่างไรก็ตามคุณอาจมีเหตุผลบางอย่างที่ไม่ต้องการทิ้งผลลัพธ์จากกลุ่มนั้น

ในด้านการเงินผลตอบแทนหุ้นมีส่วนเบี่ยงเบนมาตรฐานประมาณ 15-25% ต่อปี การเปลี่ยนแปลงของอัตราผลตอบแทนพันธบัตรนั้นมีค่าเบี่ยงเบนมาตรฐานที่ต่ำกว่ามากในอดีต หากคุณดำเนินการ PCA ตามเมทริกซ์ความแปรปรวนร่วมของผลตอบแทนหุ้นและการเปลี่ยนแปลงในอัตราผลตอบแทนพันธบัตร PC อันดับต้น ๆ จะสะท้อนให้เห็นถึงความแปรปรวนของหุ้นและส่วนที่เล็กที่สุดจะสะท้อนถึงผลต่างของพันธบัตร หากคุณทิ้งพีซีที่อธิบายถึงความผูกพันคุณอาจประสบปัญหาบางอย่าง ตัวอย่างเช่นพันธบัตรอาจมีลักษณะการกระจายที่แตกต่างกันมากกว่าหุ้น (ทินเนอร์, คุณสมบัติความแปรปรวนแปรผันตามเวลาที่แตกต่างกัน, การพลิกกลับเฉลี่ยที่แตกต่างกัน, การแยกตัวออก, ฯลฯ ) สิ่งเหล่านี้อาจมีความสำคัญต่อแบบจำลองขึ้นอยู่กับสถานการณ์

หากคุณดำเนินการ PCA บนเมทริกซ์สหสัมพันธ์คุณอาจเห็นพีซีจำนวนมากที่อธิบายถึงความสัมพันธ์ใกล้ด้านบน


คำตอบนี้ยากที่จะเข้าใจหากไม่มีใครรู้ว่าหุ้นพันธบัตรผลตอบแทนและผลตอบแทนคืออะไร ฉันทำไม่ได้ดังนั้นฉันจึงไม่สามารถเห็นว่าประโยคแรกของคุณเกี่ยวข้องกับประโยคที่สองของคุณอย่างไร ...
อะมีบาพูดว่า Reinstate Monica

1
ฉันได้ทำการแก้ไข
จอห์น

1

ในการพูดคุยนี้ ( สไลด์ ) ผู้นำเสนอหารือการใช้ PCA เพื่อแยกแยะระหว่างความแปรปรวนสูงและคุณลักษณะความแปรปรวนต่ำ

พวกเขาต้องการคุณลักษณะความแปรปรวนต่ำสำหรับการตรวจจับความผิดปกติเนื่องจากการเปลี่ยนแปลงที่สำคัญในมิติความแปรปรวนต่ำเป็นตัวบ่งชี้ที่แข็งแกร่งของพฤติกรรมที่ผิดปกติ ตัวอย่างแรงจูงใจที่พวกเขาให้มีดังนี้:

สมมติว่าผู้ใช้ลงชื่อเข้าใช้จาก Mac เสมอ มิติ "ระบบปฏิบัติการ" ของกิจกรรมจะมีความแปรปรวนต่ำมาก แต่ถ้าเราเห็นเหตุการณ์การเข้าสู่ระบบจากผู้ใช้รายเดียวกันซึ่ง "ระบบปฏิบัติการ" เป็น Windows นั่นน่าสนใจมากและมีบางอย่างที่เราอยากจับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.