การวิเคราะห์ปัจจัยอธิบายความแปรปรวนร่วมในขณะที่ PCA อธิบายความแปรปรวนอย่างไร


37

นี่คือข้อความจากหนังสือ "การจดจำรูปแบบและการเรียนรู้ของเครื่อง" ของบิชอปส่วนที่ 12.2.4 "การวิเคราะห์ปัจจัย":

ป้อนคำอธิบายรูปภาพที่นี่

ตามที่เป็นส่วนหนึ่งที่เน้นการวิเคราะห์ปัจจัยที่จับความแปรปรวนระหว่างตัวแปรในเมทริกซ์W Wฉันสงสัยวิธี ?

นี่คือวิธีที่ฉันเข้าใจ สมมติว่าเป็นตัวแปรมิติที่สังเกตได้คือเมทริกซ์การโหลดปัจจัยและคือเวกเตอร์คะแนนปัจจัย จากนั้นเรามีนั่นคือ และแต่ละคอลัมน์ในเป็นตัวประกอบการโหลดเวกเตอร์ ที่นี่ฉันเขียนมีxpWz

x=μ+Wz+ϵ,
(x1xp)=(μ1μp)+(||w1wm||)(z1zm)+ϵ,
W
wi=(wi1wip).
Wเมตรmคอลัมน์หมายถึงมีปัจจัยอยู่ภายใต้การพิจารณาm

ทีนี้นี่คือประเด็นตามส่วนที่ไฮไลต์ฉันคิดว่าการโหลดในแต่ละคอลัมน์อธิบายความแปรปรวนร่วมในข้อมูลที่สังเกตได้ใช่ไหมwi

ตัวอย่างเช่นลองดูเวกเตอร์ที่โหลดครั้งแรกสำหรับ , ถ้า ,และ , จากนั้น ฉันว่าและมีความสัมพันธ์สูงในขณะที่ดูเหมือนไม่เกี่ยวข้องกับพวกเขาใช่ไหม 1 i , j , k p w 1 i = 10 w 1 j = 11 w 1 k = 0.1 x i x j x kw11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

และถ้านี่คือการวิเคราะห์ปัจจัยจะอธิบายความแปรปรวนร่วมระหว่างคุณลักษณะที่สังเกตได้ฉันจะบอกว่า PCA ยังอธิบายความแปรปรวนร่วมได้ไหม


1
ตามที่พล็อตของ @ ttnphns อ้างถึงการแทนพื้นที่ว่างนี่คือการสอนหนึ่งเกี่ยวกับพื้นที่ว่างตัวแปรและหัวเรื่อง: BTW ฉันไม่เคยรู้จักพล็อตเรื่องพื้นที่มาก่อนตอนนี้ฉันเข้าใจแล้วและนี่คือแบบฝึกหัดเกี่ยวกับเรื่องนี้: amstat.org/ สิ่งพิมพ์ ;-)
อะโวคาโด

1
ฉันพูดเช่นกันว่าพล็อตการโหลดที่แสดงการโหลดเป็นพื้นที่หัวเรื่องจริง การแสดงทั้งช่องว่างของตัวแปรและหัวเรื่องในที่เดียวคือ biplot ภาพบางส่วนที่แสดงให้เห็นว่ามันstats.stackexchange.com/a/50610/3277
ttnphns

นี่คือคำถามเกี่ยวกับสิ่งที่เป็น "ความแปรปรวนร่วมกัน" และ "ความแปรปรวนร่วมกัน" terminologically A: stats.stackexchange.com/q/208175/3277
ttnphns

คำตอบ:


45

ความแตกต่างระหว่างการวิเคราะห์องค์ประกอบหลักและการวิเคราะห์ปัจจัยมีการกล่าวถึงในหนังสือเรียนจำนวนมากและบทความเกี่ยวกับเทคนิคหลายตัวแปร คุณอาจพบว่าด้ายเต็มและหนึ่งใหม่และคำตอบแปลก ๆ บนเว็บไซต์นี้มากเกินไป

ฉันจะไม่ให้รายละเอียด ฉันได้รับคำตอบที่กระชับและอีกคำตอบหนึ่งแล้วและต้องการที่จะชี้แจงให้ชัดเจนด้วยภาพคู่หนึ่ง

การแสดงกราฟิก

ภาพด้านล่างอธิบายPCA (นี่ยืมมาจากที่นี่โดยเปรียบเทียบ PCA กับ Linear regression และ Canonical correlations รูปภาพเป็นตัวแทนเวกเตอร์ของตัวแปรในพื้นที่หัวเรื่องเพื่อให้เข้าใจว่าคุณอาจต้องการอ่านย่อหน้าที่ 2)

ป้อนคำอธิบายรูปภาพที่นี่

การกำหนดค่า PCA ในภาพนี้ได้รับการอธิบายมี ฉันจะทำซ้ำสิ่งที่สำคัญที่สุด ส่วนประกอบหลักและอยู่ในพื้นที่เดียวกันที่ถูกขยายโดยตัวแปรและ , "plane X" ความยาวกำลังสองของเวกเตอร์สี่ตัวนั้นคือความแปรปรวน ความแปรปรวนร่วมระหว่างถึงคือโดยที่เท่ากับโคไซน์ของมุมระหว่างเวกเตอร์P1P2 X 1 X 2 X 1 X 2 c o v 12 = | X 1 | | X 2 | r r X1X2X1X2cov12=|X1||X2|rr

ประมาณการ (พิกัด) ของตัวแปรในส่วนประกอบที่'s เป็นภาระขององค์ประกอบที่เกี่ยวกับตัวแปรนี้: แรงมีค่าสัมประสิทธิ์การถดถอยในการรวมกันของการสร้างแบบจำลองเชิงเส้นตัวแปรโดยส่วนประกอบมาตรฐาน "มาตรฐาน" - เนื่องจากข้อมูลเกี่ยวกับความแปรปรวนของส่วนประกอบถูกดูดซับแล้วในการโหลด (โปรดจำไว้ว่าการโหลดจะถูกทำให้เป็นค่ามาตรฐานตามค่าลักษณะเฉพาะ) และเนื่องจากความจริงที่ว่าส่วนประกอบไม่ได้มีความสัมพันธ์กันการรับน้ำหนักจึงเป็นความแปรปรวนร่วมระหว่างตัวแปรและส่วนประกอบa

การใช้ PCA สำหรับการกำหนดขนาด / ลดข้อมูลบังคับให้เรารักษาเท่านั้นและถือว่าเป็นส่วนที่เหลือหรือข้อผิดพลาด จะแปรปรวนจับ (อธิบาย) โดยP_1P1P2a112+a212=|P1|2P1


ภาพด้านล่างแสดงการวิเคราะห์ปัจจัยที่ดำเนินการกับตัวแปรและเดียวกันกับที่เราทำ PCA ด้านบน (ฉันจะพูดถึงตัวแบบแฟคเตอร์ทั่วไป , เพราะมีอื่น ๆ : ตัวแบบอัลฟาแฟคเตอร์, โมเดลตัวประกอบภาพ) ดวงอาทิตย์ยิ้มช่วยด้วยแสงX1X2

ปัจจัยที่พบบ่อยคือFนี่คือสิ่งที่คล้ายกับส่วนประกอบหลักด้านบน คุณเห็นความแตกต่างระหว่างสองสิ่งนี้ไหม ใช่ชัดเจน: ปัจจัยไม่ได้อยู่ในพื้นที่ "plane X" ของตัวแปรFP1

วิธีการที่จะได้รับปัจจัยด้วยนิ้วเดียวคือการวิเคราะห์ปัจจัย? มาลองกัน. จากรูปภาพก่อนหน้าให้วางปลายลูกศรไว้ที่ปลายเล็บแล้วดึงออกจาก "plane X" ในขณะที่เห็นภาพว่ามีเครื่องบินใหม่สองลำปรากฏขึ้นอย่างไร "plane U1" และ "plane U2"; สิ่งเหล่านี้เชื่อมต่อเวกเตอร์ที่เกี่ยวและตัวแปรสองตัว เครื่องบินสองลำก่อตัวเป็นฮูด, X1 - F - X2, เหนือ "ระนาบ X"P1

ป้อนคำอธิบายรูปภาพที่นี่

ดำเนินการต่อเพื่อดึงในขณะที่พิจารณากระโปรงหน้ารถและหยุดเมื่อ "เครื่องบิน U1" และ "เครื่องบิน U2" อยู่ระหว่าง90 องศา พร้อมทำการวิเคราะห์ปัจจัย ใช่แล้ว แต่ยังไม่ดีที่สุด หากต้องการทำสิ่งที่ถูกต้องอย่างแพคเกจให้ทำซ้ำการออกกำลังกายทั้งหมดของการดึงลูกศรตอนนี้เพิ่มการแกว่งนิ้วซ้ายขวาเล็ก ๆ ของคุณในขณะที่คุณดึง หาตำแหน่งของลูกศรเมื่อผลรวมของการคาดการณ์กำลังสองของตัวแปรทั้งสองลงบนนั้นถูกขยายให้ใหญ่สุดขณะที่คุณบรรลุมุม 90 องศานั้น หยุด. ที่คุณได้วิเคราะห์ปัจจัยพบตำแหน่งของปัจจัยร่วมกันFF

ข้อสังเกตอีกครั้งซึ่งแตกต่างจากองค์ประกอบหลักปัจจัยไม่ได้อยู่ในพื้นที่ "plane X" ของตัวแปร ดังนั้นจึงไม่ใช่ฟังก์ชั่นของตัวแปร (องค์ประกอบหลักคือและคุณสามารถตรวจสอบให้แน่ใจจากภาพด้านบนสองภาพที่นี่ว่า PCA เป็นแบบสองทิศทางพื้นฐาน: ทำนายตัวแปรตามส่วนประกอบและในทางกลับกัน) การวิเคราะห์ปัจจัยจึงไม่ใช่วิธีการอธิบาย / การทำให้เข้าใจง่ายเช่น PCA มันเป็นวิธีการสร้างแบบจำลองโดยปัจจัยแฝงนำพาตัวแปรที่สังเกตได้แบบทิศทางเดียวP1F

loadings 'ของปัจจัยเกี่ยวกับตัวแปรเป็นเหมือนแรงใน PCA; พวกมันคือโควาเรียสและพวกมันคือสัมประสิทธิ์ของตัวแปรแบบจำลองโดยปัจจัย (มาตรฐาน) คือความแปรปรวนจับ (อธิบาย) โดยเรนไฮน์ปัจจัยที่พบคือการเพิ่มปริมาณนี้ - ราวกับว่าองค์ประกอบหลัก อย่างไรก็ตามความแปรปรวนที่อธิบายนั้นไม่ใช่ความแปรปรวนขั้นต้นของตัวแปรอีกต่อไปแต่เป็นความแปรปรวนโดยที่พวกมันจะแปรผันตามกัน (สหสัมพันธ์) ทำไมเป็นเช่นนั้นaa12+a22=|F|2F

กลับไปที่รูป เราแยกภายใต้ข้อกำหนดสองประการ หนึ่งคือผลรวมการโหลดกำลังสองที่กล่าวถึงสูงสุด อีกคนหนึ่งคือการสร้างของสองระนาบตั้งฉาก "U1 เครื่องบิน" ที่มีและและ "เครื่องบิน U2" มีและX_2วิธีนี้ตัวแปร X แต่ละตัวจะแสดงแบบแยกส่วน ถูกแบ่งออกเป็นตัวแปรและซึ่งกันและกันตั้งฉากกัน ก็ถูกจำแนกออกเป็นตัวแปรและเช่นกัน และเป็นฉากกับU_2เรารู้ว่าคืออะไรFFX1FX2X1FU1X2FU2U1U2F- The ปัจจัยร่วมกัน 's จะเรียกว่าปัจจัยที่ไม่ซ้ำกัน ตัวแปรแต่ละตัวมีปัจจัยเฉพาะ ความหมายมีดังนี้ อยู่เบื้องหลังและอยู่เบื้องหลังคือแรงที่ขัดขวางและให้สัมพันธ์กัน แต่ - ปัจจัยทั่วไป - คือแรงที่อยู่เบื้องหลังทั้งและที่ทำให้พวกมันสัมพันธ์กัน และความแปรปรวนที่ถูกอธิบายอยู่ตามปัจจัยทั่วไปนั้น ดังนั้นจึงเป็นความแปรปรวนของความเป็นคู่ที่บริสุทธิ์ เป็นความแปรปรวนที่ทำให้ ; ค่าจริงของUU1X1U2X2X1X2FX1X2cov12>0cov12ถูกกำหนดโดยความโน้มเอียงของตัวแปรที่มีต่อปัจจัยที่โดย'sa

ความแปรปรวนของตัวแปร (ความยาวของเวกเตอร์สแควร์) จึงประกอบด้วยสองส่วนเคล็ดสารเติมแต่ง: เอกลักษณ์ และcommunality 2 ด้วยตัวแปรสองตัวเช่นเดียวกับตัวอย่างของเราเราสามารถแยกปัจจัยทั่วไปได้มากที่สุดหนึ่งอย่างดังนั้น Communities = single load squared ด้วยตัวแปรจำนวนมากเราอาจแยกปัจจัยทั่วไปหลายประการและคอมมิวนิตี้ของตัวแปรจะเป็นผลรวมของการโหลดแบบยกกำลังสอง ในภาพของเราพื้นที่ปัจจัยทั่วไปคือมิติเดียว (แค่เอง); เมื่อmมีปัจจัยทั่วไปอยู่พื้นที่นั้นก็คือmu2 a2Fมิติที่มีชุมชนเป็น 'การคาดการณ์ของตัวแปรในพื้นที่และการโหลดเป็นตัวแปร' เช่นเดียวกับการคาดการณ์ของโปรเจ็กเตอร์เหล่านั้นในปัจจัยที่ครอบคลุมพื้นที่ ความแปรปรวนที่อธิบายในการวิเคราะห์ปัจจัยคือความแปรปรวนภายในพื้นที่ของปัจจัยทั่วไปนั้นแตกต่างจากพื้นที่ของตัวแปรที่องค์ประกอบอธิบายความแปรปรวน ช่องว่างของตัวแปรอยู่ในพื้นที่รวม: mทั่วไป + pปัจจัยเฉพาะ

ป้อนคำอธิบายรูปภาพที่นี่

เพียงแค่มองไปที่รูปปัจจุบันกรุณา มีตัวแปรหลายตัว (เช่น, , , ) ซึ่งการวิเคราะห์ปัจจัยได้ดำเนินการแล้วโดยทำการแยกปัจจัยทั่วไปสองอย่าง ปัจจัยและครอบคลุมพื้นที่ปัจจัยทั่วไป "ระนาบปัจจัย" จากกลุ่มของตัวแปรที่วิเคราะห์แล้วมีเพียงหนึ่ง ( ) เท่านั้นที่แสดงในรูป การวิเคราะห์ย่อยสลายได้ในสองส่วนมุมฉาก communalityและปัจจัยที่ไม่ซ้ำกันU_1ชุมชนอยู่ใน "ระนาบปัจจัย" และพิกัดบนปัจจัยคือการโหลดที่ปัจจัยทั่วไปโหลด (= พิกัดของX1X2X3F1F2X1C1U1X1X1ตัวเองในปัจจัย) บนรูปภาพชุมชนของตัวแปรสองตัวอื่น ๆ - การฉายภาพของและ - จะปรากฏขึ้นเช่นกัน มันจะน่าสนใจที่จะสังเกตว่าทั้งสองปัจจัยร่วมกันในความรู้สึกจะถูกมองว่าเป็นองค์ประกอบหลักของ"ตัวแปร" ทั้งหมดของชุมชน ในขณะที่องค์ประกอบหลักปกติสรุปโดยความอาวุโสความแปรปรวนรวมหลายตัวแปรรวมของตัวแปรปัจจัยสรุปเช่นเดียวกันความแปรปรวนร่วมหลายตัวแปรของพวกเขาเช่นกัน X2X31

เหตุใดจึงต้องใช้คำฟุ่มเฟือยทั้งหมด? ฉันแค่อยากจะให้หลักฐานการอ้างว่าเมื่อคุณแยกตัวแปรที่สัมพันธ์กันออกเป็นสองส่วนแฝง orthogonal หนึ่ง (A) แทน uncorrelatedness (orthogonality) ระหว่างตัวแปรและส่วนอื่น ๆ (B) แสดงถึงความสัมพันธ์ของพวกเขา (collinearity) และคุณดึงปัจจัยจาก B รวมกันเท่านั้นคุณจะพบว่าคุณอธิบายความแปรปรวนร่วมแบบคู่ตามการโหลดของปัจจัยเหล่านั้น ในโมเดลแฟคเตอร์ของเรา - การกู้คืนปัจจัยcov12a1a2ความแปรปรวนร่วมส่วนบุคคลโดยวิธีการโหลด ในรูปแบบ PCA มันไม่เป็นเช่นนั้นเนื่องจาก PCA จะอธิบายความแปรปรวนของชนพื้นเมืองแบบผสม + แบบผสมไม่ได้ ทั้งองค์ประกอบที่แข็งแกร่งที่คุณเก็บไว้และชิ้นส่วนที่ตามมาที่คุณปล่อยคือการหลอมรวมของ (A) และ (B) ชิ้นส่วน ด้วยเหตุนี้ PCA จึงสามารถแตะได้ด้วยการโหลดจึงมีเพียงความแปรปรวนร่วมและสุ่มสี่สุ่มห้าเท่านั้น


รายการความคมชัด PCA กับ FA

  • PCA: ทำงานในพื้นที่ของตัวแปร FA: ยกเลิกช่องว่างของตัวแปร
  • PCA: ใช้ความแปรปรวนตามที่เป็นอยู่ FA: แบ่งส่วนความแปรปรวนออกเป็นส่วนทั่วไปและส่วนที่ไม่ซ้ำกัน
  • PCA: อธิบายความแปรปรวนแบบไม่จัดแบ่งเช่นร่องรอยของเมทริกซ์ความแปรปรวนร่วม FA: อธิบายความแปรปรวนทั่วไปเท่านั้นดังนั้นจะอธิบาย (คืนค่าโดยการโหลด) สหสัมพันธ์ / โควาเรียร์องค์ประกอบนอกแนวทแยงมุมของเมทริกซ์ (PCA อธิบายองค์ประกอบนอกแนวทแยงเช่นกันแต่ในลักษณะที่ผ่านไปในทางตรงข้าม - เพียงเพราะความแปรปรวนร่วมกันในรูปแบบของความแปรปรวนร่วม)
  • PCA: องค์ประกอบเป็นฟังก์ชันเชิงเส้นในเชิงทฤษฎีของตัวแปรตัวแปรเป็นฟังก์ชันเชิงเส้นในเชิงทฤษฎีของส่วนประกอบ FA: ตัวแปรเป็นฟังก์ชันเชิงเส้นตรงเชิงทฤษฎีของปัจจัยเท่านั้น
  • PCA: วิธีการสรุปเชิงประจักษ์ มันยังคงรักษา องค์ประกอบm FA: วิธีการสร้างแบบจำลองทางทฤษฎี; มันเหมาะกับปัจจัยจำนวนmคงที่กับข้อมูล; สามารถทดสอบ FA (Confirmatory FA) ได้
  • PCA: เป็นระบบเมตริก MDS ที่ง่ายที่สุดมีจุดมุ่งหมายเพื่อลดขนาดในขณะเดียวกันก็รักษาระยะทางระหว่างจุดข้อมูลให้มากที่สุด FA: ปัจจัยต่างๆเป็นลักษณะแฝงที่สำคัญเบื้องหลังตัวแปรซึ่งทำให้พวกมันมีความสัมพันธ์; การวิเคราะห์มีวัตถุประสงค์เพื่อลดข้อมูลลงในสาระสำคัญเหล่านั้นเท่านั้น
  • PCA: การหมุน / การตีความขององค์ประกอบ - บางครั้ง (PCA นั้นไม่สมจริงพอที่จะเป็นแบบจำลองคุณลักษณะแฝง) FA: การหมุน / การตีความปัจจัย - เป็นประจำ
  • PCA: วิธีการลดข้อมูลเท่านั้น FA: นอกจากนี้วิธีการในการค้นหากลุ่มของตัวแปรที่เชื่อมโยงกัน (เป็นเพราะตัวแปรไม่สามารถสัมพันธ์กันเกินกว่าปัจจัย)
  • PCA: การโหลดและคะแนนไม่ขึ้นอยู่กับจำนวนmของส่วนประกอบ "แยก" FA: การโหลดและคะแนนขึ้นอยู่กับจำนวนmของปัจจัย "แยก"
  • PCA: คะแนนองค์ประกอบคือค่าส่วนประกอบที่แน่นอน เอฟเอ: คะแนนปัจจัยที่มีราคาใกล้เคียงกับค่าปัจจัยที่เป็นจริงและอีกหลายวิธีการคำนวณที่มีอยู่ คะแนนปัจจัยอยู่ในพื้นที่ของตัวแปร (เช่นเดียวกับองค์ประกอบ) ในขณะที่ปัจจัยที่แท้จริง (เป็นตัวเป็นตนโดยปัจจัยการโหลด) ไม่ได้
  • PCA: มักจะไม่มีข้อสมมติฐาน FA: สมมติฐานของความสัมพันธ์บางส่วนที่อ่อนแอ; บางครั้งสมมุติฐานภาวะหลายตัวแปร; ชุดข้อมูลบางชุดอาจ "ไม่ดี" สำหรับการวิเคราะห์เว้นแต่จะถูกแปลง
  • PCA: อัลกอริทึมที่ไม่ใช่เชิงซ้อน; ประสบความสำเร็จเสมอ FA: อัลกอริทึมซ้ำ (โดยทั่วไป); บางครั้งปัญหาการไม่ประสานกัน ภาวะเอกฐานอาจเป็นปัญหา

1 สำหรับพิถีพิถัน บางคนอาจถามว่าตัวแปรและอยู่ที่ใดในรูปทำไมพวกเขาถึงไม่วาด คำตอบคือเราไม่สามารถวาดมันได้แม้แต่ในทางทฤษฎี พื้นที่ในภาพคือ 3 มิติ (กำหนดโดย "factor factor" และเวกเตอร์ที่ไม่ซ้ำกัน ;นอนอยู่บนส่วนประกอบที่ร่วมกันระนาบสีเทาสีเทา และทรัพยากรกราฟิกของเราหมดแล้ว พื้นที่สามมิติที่ครอบคลุมโดยตัวแปรสามตัวคือ , ,พร้อมกันนั้นเป็นอีกพื้นที่หนึ่ง "ระนาบแฟคเตอร์" หรือX2X3U1X1X1X2X3U1เป็นพื้นที่ย่อยของมัน มันเป็นสิ่งที่แตกต่างจาก PCA: ปัจจัยไม่ได้อยู่ในพื้นที่ของตัวแปร ตัวแปรแต่ละตัวแยกกันอยู่ในระนาบสีเทาที่แยกจากกันเป็น "ระนาบแฟคเตอร์" - เช่นเดียวกับแสดงในรูปของเราและนั่นคือทั้งหมด: ถ้าเราเพิ่มพูดลงในพล็อต (เพียงการเรียกคืนว่าทุก s จะต้องมีฉากร่วมกันดังนั้นเพื่อเพิ่มอีกคุณต้องขยายมิติไกล.)X1X2UU

ในทำนองเดียวกันในการถดถอยสัมประสิทธิ์เป็นพิกัดบนตัวทำนายทั้งตัวแปรตามและการทำนาย ( ดูรูปภายใต้ "การถดถอยหลายครั้ง" และที่นี่ด้วย) ในFAการโหลดเป็นพิกัดบนปัจจัยทั้งตัวแปรที่สังเกตได้และส่วนที่แฝงอยู่ - ชุมชน และในการถดถอยนั้นความจริงไม่ได้ทำให้ผู้ติดตามและผู้ทำนายเป็น subspaces ซึ่งกันและกัน - ใน FA ความจริงที่คล้ายกันไม่ได้ทำให้ตัวแปรที่สังเกตได้และปัจจัยแฝงเป็น subspaces ของกันและกัน ปัจจัยคือ "เอเลี่ยน" ต่อตัวแปรในแง่ที่ค่อนข้างคล้ายกันเนื่องจากตัวทำนายคือ "เอเลี่ยน" ต่อการตอบสนองที่ขึ้นอยู่กับ แต่ใน PCA มันเป็นวิธีอื่น: ส่วนประกอบหลักได้มาจากตัวแปรที่สังเกตได้และถูก จำกัด พื้นที่ของพวกเขา

ดังนั้นอีกครั้งที่จะทำซ้ำ: mปัจจัยทั่วไปของ FA ไม่ใช่พื้นที่ย่อยของตัวแปรอินพุตp ในทางตรงกันข้าม: ตัวแปรในรูปแบบสเปซย่อยในm + p ( mปัจจัยทั่วไป + ปัจจัยที่ไม่ซ้ำp ) สหภาพ hyperspace เมื่อมองจากมุมมองนี้ (คือมีปัจจัยที่ไม่ซ้ำกันดึงดูดเกินไป) มันจะกลายเป็นที่ชัดเจนว่าคลาสสิกเอฟเอไม่ได้เป็นมิติการหดตัวเทคนิคเช่น PCA คลาสสิก แต่เป็นมิติการขยายตัวของเทคนิค แต่เราให้ความสนใจของเราเท่านั้นที่จะมีขนาดเล็ก ( ม.เป็นส่วนหนึ่งของการขยายตัวที่มิติธรรมดา) เนื่องจากส่วนนี้ แต่เพียงผู้เดียวอธิบายความสัมพันธ์


ขอบคุณและพล็อตที่ดี คำตอบของคุณ ( stats.stackexchange.com/a/94104/30540 ) ช่วยได้มาก
อะโวคาโด

2
(+11) คำตอบที่ยอดเยี่ยมและภาพประกอบที่ดี! (ฉันต้องรออีกสองวันก่อนที่จะเสนอเงินรางวัล.)
CHL

@chl ฉันรู้สึกดี
ttnphns

@ttnphns: "subject space" (ระนาบ X ของคุณ) เป็นช่องว่างที่มีพิกัดมากเท่าที่มีจุดข้อมูลในชุดข้อมูลใช่ไหม ดังนั้นถ้าชุดข้อมูล (ที่มีตัวแปรสองตัว X1 และ X2) มี 100 จุดข้อมูลระนาบ X ของคุณคือ 100 มิติ? แต่ปัจจัย F สามารถอยู่ข้างนอกได้อย่างไร จุดข้อมูลทั้งหมด 100 จุดควรมีค่าตามปัจจัยหรือไม่ และเนื่องจากไม่มีจุดข้อมูลอื่น ๆ ดูเหมือนว่าปัจจัย F ต้องอยู่ใน "พื้นที่หัวเรื่อง" 100 มิติเดียวกันนั่นคือในระนาบ X ฉันพลาดอะไรไป
อะมีบาพูดว่า Reinstate Monica

1
@ amoeba คำถามของคุณถูกต้องและใช่คุณพลาดอะไรไป ดูวรรคที่ 1: stats.stackexchange.com/a/51471/3277 มิติที่ซ้ำซ้อนลดลง พื้นที่หัวเรื่องมีมิติจริงและไม่ซ้ำซ้อนมากเท่ากับพื้นที่ตัวแปรที่สอดคล้องกันมี ดังนั้น "space X" ก็คือระนาบ หากเราเพิ่มมิติ +1 (เพื่อครอบคลุม F) การกำหนดค่าทั้งหมดจะเป็นเอกพจน์ไม่สามารถแก้ไขได้ F ขยายออกจากพื้นที่ตัวแปรเสมอ
ttnphns

10

"การอธิบายความแปรปรวนร่วม" กับการอธิบายความแปรปรวน

อธิการจริง ๆ แล้วหมายถึงสิ่งที่ง่ายมาก ภายใต้แบบจำลองการวิเคราะห์ปัจจัย (eq. 12.64)เมทริกซ์ความแปรปรวนร่วมของจะเป็น (eq. 12.65)นี่คือสิ่งที่การวิเคราะห์ปัจจัยทำ : พบเมทริกซ์ของการบรรทุกและเมทริกซ์แนวทแยงของความเป็นเอกลักษณ์ที่สังเกตเห็นความแปรปรวนร่วมเมทริกซ์ที่สุดเท่าที่จะทำได้โดย :ขอให้สังเกตว่าองค์ประกอบเส้นทแยงมุมของ

p(x|z)=N(x|Wz+μ,Ψ)
x
C=WW+Ψ.
ΣC
ΣWW+Ψ.
Cจะเท่ากับองค์ประกอบเส้นทแยงมุมของเพราะเราสามารถเลือกเมทริกซ์แนวทแยงว่าการสร้างข้อผิดพลาดในแนวทแยงนั้นเป็นศูนย์ ความท้าทายที่แท้จริงแล้วจะหาแรงที่ดีจะใกล้เคียงกับส่วนนอกเส้นทแยงมุมของ\ΣΨWΣ

ส่วนแนวขวางของประกอบด้วยความแปรปรวนร่วมระหว่างตัวแปร; ดังนั้นการที่บิชอปอ้างว่าปัจจัยการบรรจุกำลังจับความแปรปรวนร่วม บิตที่สำคัญที่นี่คือภาระปัจจัยที่ไม่สนใจที่ทุกคนเกี่ยวกับความแปรปรวนของแต่ละบุคคล (เส้นทแยงมุมของ )ΣΣ

ในทางตรงกันข้ามการโหลด PCAเป็นลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมปรับขนาดรากที่สองของค่าลักษณะเฉพาะ ถ้าเลือกเฉพาะองค์ประกอบหลักดังนั้นหมายความว่าการโหลด PCA พยายามทำซ้ำเมทริกซ์ความแปรปรวนร่วมทั้งหมด (และไม่เพียง แต่ มันเป็นเส้นทแยงมุมเป็น FA) นี่คือความแตกต่างหลักระหว่าง PCA และ FAW~Σm<k

ΣW~W~,

ความคิดเห็นเพิ่มเติม

ฉันชอบภาพวาดใน @ttnphns'es คำตอบ (+1)แต่ฉันต้องการเน้นว่าพวกเขาจัดการกับสถานการณ์พิเศษของตัวแปรสองตัว หากมีเพียงสองตัวแปรที่อยู่ระหว่างการพิจารณาเมทริกซ์ความแปรปรวนร่วมคือมีองค์ประกอบนอกแนวทแยงเดียวเท่านั้นดังนั้นปัจจัยหนึ่งก็เพียงพอที่จะทำซ้ำได้ 100% (ในขณะที่ PCA จะต้องใช้สององค์ประกอบ) อย่างไรก็ตามโดยทั่วไปหากมีหลายตัวแปร (พูดหนึ่งโหลหรือมากกว่า) ดังนั้นทั้ง PCA และ FA ที่มีส่วนประกอบจำนวนน้อยจะไม่สามารถทำซ้ำเมทริกซ์ความแปรปรวนร่วมได้อย่างสมบูรณ์ นอกจากนี้พวกเขามักจะ (แม้ว่าไม่จำเป็น!) ให้ผลลัพธ์ที่คล้ายกัน ดูคำตอบที่นี่สำหรับการจำลองสถานการณ์ที่สนับสนุนการอ้างสิทธิ์นี้และคำอธิบายเพิ่มเติม:2×2

ดังนั้นแม้ว่าภาพวาดของ @ ttnphns สามารถสร้างความประทับใจได้ว่า PCA และ FA นั้นแตกต่างกันมากความคิดเห็นของฉันก็คือไม่ใช่ในกรณียกเว้นตัวแปรน้อยมากหรือในสถานการณ์พิเศษอื่น ๆ

ดูสิ่งนี้ด้วย:

สุดท้าย:

ตัวอย่างเช่นลองดูเวกเตอร์ที่โหลดครั้งแรกสำหรับ , ถ้า ,และ , จากนั้น ฉันจะบอกว่าและมีความสัมพันธ์สูงในขณะที่ดูเหมือนจะไม่เกี่ยวข้องกับพวกเขาใช่ไหม? 1 i , j , k p w 1 i = 10 w 1 j = 11 w 1 k = 0.1 x i x j x kw11i,j,kpw1i=10w1j=11w1k=0.1xixjxk

สิ่งนี้ไม่ถูกต้อง ใช่ในตัวอย่างนี้และมีความสัมพันธ์กัน แต่คุณลืมปัจจัยอื่น ๆ บางทีเวกเตอร์ที่โหลดของปัจจัยที่สองมีค่าขนาดใหญ่สำหรับและ ; นี่ก็หมายความว่าพวกมันมีความสัมพันธ์ที่ดีเช่นกัน คุณต้องคำนึงถึงปัจจัยทั้งหมดเพื่อให้ข้อสรุปดังกล่าวx j w 2 x ฉันx kxixjw2xixk


ยอมรับความเชี่ยวชาญด้านพีชคณิตของคุณและทักทายคำตอบของคุณอย่างแน่นอนฉันยังคงไม่แหลมคมที่จะติดป้ายคำตอบทางเรขาคณิตก่อนหน้าของใครบางคน (ของฉันในตัวอย่างนี้) เป็น "อาจทำให้เข้าใจผิด" คำพูดของso hugely differentคุณไม่ใช่ของฉัน ประการที่สองit is in fact not the case, except with very few variablesคือการเปิดเผยซึ่งจะต้องมีการทดสอบที่ลึกกว่าที่คุณเคยทำ
ttnphns

สวัสดี @ttnphns ขอบคุณสำหรับความคิดเห็น ฉันไม่มีอะไรเลยเทียบกับคำตอบทางเรขาคณิตและที่จริงแล้วฉันชอบมันมากที่สุด ฉันชอบคำตอบของคุณอย่างมากและมี +1 ของฉัน แต่ผมคิดว่าเมื่อพิจารณาเฉพาะกรณีที่มีสองตัวแปรทำให้ PCA-VS-FA แตกต่างปรากฏแข็งแกร่งกว่าที่พวกเขาเป็นอย่างอื่นและที่ว่านี้สามารถเป็นที่อาจเกิดขึ้น (!) ทำให้เข้าใจผิด อย่างไรก็ตามคุณมีสิทธิ์ที่ฉันไม่ควรใช้คำเหล่านี้ในคำตอบของฉัน ฉันขอโทษและฉันได้แก้ไขมันในขณะนี้ เพียงเพื่อให้ชัดเจนโดยสมบูรณ์: ความเป็นปรปักษ์ใด ๆ (ถ้าคุณรู้สึกว่า!) นั้นไม่ได้ตั้งใจอย่างหมดจด
อะมีบาพูดว่า Reinstate Monica

@ amoeba ทำไมบางคนพูดว่า FA รักษาความแปรปรวนร่วมและ PCA รักษาความแปรปรวน จากการโพสต์ของคุณผมเข้าใจว่าจริง ๆ แล้วเอฟเอคัรักษาความแปรปรวน แต่ PA พยายามที่จะรักษาความแปรปรวนและความแปรปรวน การบอกว่า PCA รักษาความแปรปรวนมาจากหน้าที่วัตถุประสงค์และไม่ได้มาจากคำอธิบายในโพสต์ของคุณ?
user_anon
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.