เหตุใดจึงต้องแปลงข้อมูลก่อนที่จะทำการวิเคราะห์ส่วนประกอบหลัก


16

ฉันกำลังติดตามการสอนที่นี่: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/เพื่อให้เข้าใจ PCA ได้ดียิ่งขึ้น

บทช่วยสอนใช้ชุดข้อมูล Iris และใช้การแปลงบันทึกก่อน PCA:

โปรดสังเกตว่าในรหัสต่อไปนี้เราใช้การแปลงบันทึกกับตัวแปรต่อเนื่องตามที่แนะนำโดย [1] และตั้งค่าcenterและscaleเท่ากับTRUEในการเรียกเพื่อprcompสร้างมาตรฐานของตัวแปรก่อนการประยุกต์ใช้ PCA

มีใครบางคนสามารถอธิบายให้ฉันเป็นภาษาอังกฤษแบบธรรมดาทำไมคุณถึงใช้ฟังก์ชั่นบันทึกในสี่คอลัมน์แรกของชุดข้อมูล Iris ฉันเข้าใจว่ามันมีส่วนเกี่ยวข้องกับการทำข้อมูลให้สัมพันธ์ แต่ฉันสับสนว่าอะไรคือหน้าที่ของ log, center และ scale

การอ้างอิง [1] ด้านบนคือVenables and Ripley, สถิติประยุกต์สมัยใหม่กับ S-PLUS , หัวข้อ 11.1 ที่กล่าวสั้น ๆ ว่า:

ข้อมูลคือการวัดทางกายภาพดังนั้นกลยุทธ์การเริ่มต้นที่ดีคือการทำงานกับขนาดของบันทึก สิ่งนี้ได้ทำมาตลอด


ที่เกี่ยวข้อง: stats.stackexchange.com/questions/319794
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


19

ชุดข้อมูลม่านตาเป็นตัวอย่างที่ดีในการเรียนรู้ PCA ดังที่กล่าวไว้คอลัมน์สี่คอลัมน์แรกที่อธิบายความยาวและความกว้างของกลีบเลี้ยงและกลีบไม่ใช่ตัวอย่างของข้อมูลที่เบ้อย่างยิ่ง ดังนั้นการแปลงข้อมูลจะไม่เปลี่ยนแปลงผลลัพธ์มากนักเนื่องจากการหมุนวนของส่วนประกอบหลักค่อนข้างไม่เปลี่ยนแปลงจากการเปลี่ยนแปลงการบันทึก

ในสถานการณ์อื่นการเปลี่ยนแปลงการบันทึกเป็นตัวเลือกที่ดี

เราดำเนินการ PCA เพื่อรับข้อมูลเชิงลึกเกี่ยวกับโครงสร้างทั่วไปของชุดข้อมูล เราปรับขนาดและบางครั้งบันทึกการแปลงเพื่อกรองผลกระทบเล็กน้อยซึ่งอาจครอบงำ PCA ของเรา อัลกอริทึมของ PCA นั้นจะค้นหาการหมุนของพีซีแต่ละเครื่องเพื่อลดปริมาณกำลังสองที่เหลือนั่นคือผลรวมของระยะห่างฉากตั้งฉากจากตัวอย่างใด ๆ ไปยังพีซี ค่ามากมักจะมีการใช้ประโยชน์สูง

ลองนึกภาพการฉีดสองตัวอย่างใหม่ลงในข้อมูลม่านตา ดอกไม้ที่มีความยาวกลีบ 430 ซม. และดอกไม้ที่มีความยาวกลีบดอก 0.0043 ซม. ดอกไม้ทั้งสองมีความผิดปกติมากซึ่งมีขนาดใหญ่กว่า 100 เท่าและเล็กกว่า 1,000 เท่าตามลำดับ การใช้ประโยชน์จากดอกไม้แรกนั้นมีขนาดใหญ่มากเช่นพีซีรุ่นแรกส่วนใหญ่จะอธิบายความแตกต่างระหว่างดอกไม้ขนาดใหญ่และดอกไม้อื่น ๆ การรวมกลุ่มของสปีชีส์เป็นไปไม่ได้เนื่องจากมีค่าผิดปกติ หากข้อมูลถูกบันทึกการแปลงค่าสัมบูรณ์จะอธิบายการเปลี่ยนแปลงสัมพัทธ์ ตอนนี้ดอกไม้ดอกเล็ก ๆ ก็ผิดปกติมากที่สุด อย่างไรก็ตามมันเป็นไปได้ที่จะมีตัวอย่างทั้งหมดในภาพเดียวและให้การจัดกลุ่มที่ยุติธรรมของสปีชีส์ ลองดูตัวอย่างนี้:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

ป้อนคำอธิบายรูปภาพที่นี่

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

ป้อนคำอธิบายรูปภาพที่นี่


2
การสาธิตและแผนการที่ดี
shadowtalker

3

คำตอบอื่นให้ตัวอย่างเมื่อใช้การแปลงบันทึกเพื่อลดอิทธิพลของค่าหรือค่าผิดปกติ
อีกข้อโต้แย้งทั่วไปเกิดขึ้นเมื่อคุณพยายามวิเคราะห์ข้อมูลที่ประกอบกันแบบทวีคูณแทนที่จะเป็นแบบบวก - แบบจำลอง PCA และ FA โดยคณิตศาสตร์ของพวกเขาเช่นองค์ประกอบเพิ่มเติม คูณการเรียบเรียงเกิดขึ้นในกรณีที่ง่ายที่สุดในข้อมูลทางกายภาพเช่นพื้นผิวและปริมาตรของร่างกาย (ตามหน้าที่) ขึ้นอยู่กับ (เช่น) พารามิเตอร์ทั้งสามความยาวความกว้างความลึก หนึ่งสามารถทำซ้ำองค์ประกอบของตัวอย่างประวัติศาสตร์ของ PCA ต้นฉันคิดว่ามันเรียกว่า "Thurstone ของ Ball- (หรือ 'Cubes'- ปัญหา)" หรือไม่ชอบ เมื่อฉันเล่นกับข้อมูลของตัวอย่างนั้นและพบว่าข้อมูลที่บันทึกการเปลี่ยนแปลงได้ให้รูปแบบที่ดีกว่าและชัดเจนกว่าสำหรับองค์ประกอบของปริมาตรที่วัดได้และข้อมูลพื้นผิวด้วยการวัดสามมิติแบบสามมิติ

นอกเหนือจากตัวอย่างง่าย ๆ เช่นนี้หากเราพิจารณาในการปฏิสัมพันธ์ข้อมูลการวิจัยทางสังคมเราก็คิดว่าพวกมันใช้การวัดแบบพื้นฐานหลายอย่างประกอบกัน ดังนั้นถ้าเราดูที่การโต้ตอบโดยเฉพาะการแปลงบันทึกอาจเป็นเครื่องมือพิเศษที่มีประโยชน์ในการรับแบบจำลองทางคณิตศาสตร์สำหรับการจัดองค์ประกอบ


คุณช่วยแสดงรายการข้อมูลอ้างอิงบางอย่างที่อาจอธิบายองค์ประกอบ "ทวีคูณ" ได้ดีขึ้นหรือไม่ ขอบคุณมาก!
Amatya

1
@Amatya - ฉันไม่พบ "thurstone-box-problem" แต่การอภิปรายไซต์ pca บนลูกบาศก์มีความกว้างความยาวความสูงเป็นรายการพื้นฐานและพื้นผิวและปริมาณเป็นรายการเพิ่มเติมรวมหลายรายการ บางทีสูตรที่รวมไว้สำหรับคำจำกัดความอาจจะเพียงพอ ดูsgipt.org/wisms/fa/Quader/q00.htm
Gottfried Helms

1
อาและฉันลืม - การสนทนาเก่าของฉันเกี่ยวกับgo.helms-net.de/stat/fa/SGIPT_Quader.htm
Gottfried Helms

@GottfriedHelms ฉันยังไม่เข้าใจจริงๆว่าทำไมถ้าเราสร้างมาตรฐานให้กับตัวแปรเราต้องเปลี่ยน log ให้เป็นมาตรฐานเช่นกัน ฉันเข้าใจหลักการทั่วไปของการลดอิทธิพลที่ไม่พึงประสงค์ของค่าผิดปกติที่รุนแรง แต่ถ้าเรากำหนดมาตรฐาน (จัดกึ่งกลางปรับขนาด) พวกเขาดูเหมือนว่าการเปลี่ยนแปลงการบันทึกนอกจากนี้จริง ๆ แล้วบิดเบือนข้อมูล
Yu Chen

@YuChen - การแปลงบันทึกใด ๆ จะแปลงองค์ประกอบหลายองค์ประกอบเป็นองค์ประกอบเสริมและองค์ประกอบเพิ่มเติมเป็นสมมติฐานขั้นพื้นฐาน (นอกเหนือจาก linearity ฯลฯ ) ขององค์ประกอบทุกประเภทและการวิเคราะห์ปัจจัย ดังนั้นหากข้อมูลของคุณมีองค์ประกอบหลายตัวในนั้นการแปลงบันทึกควรเป็นตัวเลือกที่ควรพิจารณา
หมวกของกอทฟริดใน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.