ชุดข้อมูลม่านตาเป็นตัวอย่างที่ดีในการเรียนรู้ PCA ดังที่กล่าวไว้คอลัมน์สี่คอลัมน์แรกที่อธิบายความยาวและความกว้างของกลีบเลี้ยงและกลีบไม่ใช่ตัวอย่างของข้อมูลที่เบ้อย่างยิ่ง ดังนั้นการแปลงข้อมูลจะไม่เปลี่ยนแปลงผลลัพธ์มากนักเนื่องจากการหมุนวนของส่วนประกอบหลักค่อนข้างไม่เปลี่ยนแปลงจากการเปลี่ยนแปลงการบันทึก
ในสถานการณ์อื่นการเปลี่ยนแปลงการบันทึกเป็นตัวเลือกที่ดี
เราดำเนินการ PCA เพื่อรับข้อมูลเชิงลึกเกี่ยวกับโครงสร้างทั่วไปของชุดข้อมูล เราปรับขนาดและบางครั้งบันทึกการแปลงเพื่อกรองผลกระทบเล็กน้อยซึ่งอาจครอบงำ PCA ของเรา อัลกอริทึมของ PCA นั้นจะค้นหาการหมุนของพีซีแต่ละเครื่องเพื่อลดปริมาณกำลังสองที่เหลือนั่นคือผลรวมของระยะห่างฉากตั้งฉากจากตัวอย่างใด ๆ ไปยังพีซี ค่ามากมักจะมีการใช้ประโยชน์สูง
ลองนึกภาพการฉีดสองตัวอย่างใหม่ลงในข้อมูลม่านตา ดอกไม้ที่มีความยาวกลีบ 430 ซม. และดอกไม้ที่มีความยาวกลีบดอก 0.0043 ซม. ดอกไม้ทั้งสองมีความผิดปกติมากซึ่งมีขนาดใหญ่กว่า 100 เท่าและเล็กกว่า 1,000 เท่าตามลำดับ การใช้ประโยชน์จากดอกไม้แรกนั้นมีขนาดใหญ่มากเช่นพีซีรุ่นแรกส่วนใหญ่จะอธิบายความแตกต่างระหว่างดอกไม้ขนาดใหญ่และดอกไม้อื่น ๆ การรวมกลุ่มของสปีชีส์เป็นไปไม่ได้เนื่องจากมีค่าผิดปกติ หากข้อมูลถูกบันทึกการแปลงค่าสัมบูรณ์จะอธิบายการเปลี่ยนแปลงสัมพัทธ์ ตอนนี้ดอกไม้ดอกเล็ก ๆ ก็ผิดปกติมากที่สุด อย่างไรก็ตามมันเป็นไปได้ที่จะมีตัวอย่างทั้งหมดในภาพเดียวและให้การจัดกลุ่มที่ยุติธรรมของสปีชีส์ ลองดูตัวอย่างนี้:
data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3, 430 ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5 ,"virginica_brevis") # a small flower
#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)
#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)