สามารถใช้การถดถอยหลายครั้งเพื่อคาดการณ์ส่วนประกอบหลัก (PC) จากพีซีอื่น ๆ ได้หรือไม่?


15

ไม่นานมานี้ผู้ใช้ในรายชื่อผู้รับจดหมาย R-help ถามเกี่ยวกับความสมบูรณ์ของการใช้คะแนน PCA ในการถดถอย ผู้ใช้พยายามใช้คะแนน PC เพื่ออธิบายการเปลี่ยนแปลงในพีซีเครื่องอื่น (ดูการสนทนาแบบเต็มได้ที่นี่ ) คำตอบคือไม่ไม่เสียงเพราะพีซีตั้งฉากกัน

บางคนสามารถอธิบายรายละเอียดเพิ่มเติมได้เล็กน้อยว่าทำไมถึงเป็นเช่นนั้น?


1
ทำไมคุณใส่rแท็กและคุณหมายถึงอะไรโดย "ทำไมจึงเป็นเช่นนี้"? พีซีนั้นไม่มีความสัมพันธ์กันนั่นคือพวกมันเป็นมุมฉาก, สารเติมแต่งคุณไม่สามารถคาดการณ์พีซีเครื่องหนึ่งกับอีกเครื่องหนึ่งได้ คุณกำลังมองหาสูตรหรือไม่?
aL3xa

ฉันสงสัยเกี่ยวกับหลักการที่อยู่เบื้องหลังตรรกะ (ในการสืบเสาะเพื่อทำความเข้าใจ PCA) ฉันใช้แท็ก R เพราะคน R อาจอ่านข้อความนี้และอาจแสดงตัวอย่าง R :)
Roman Luštrik

ทำไมคุณไม่พูดอย่างงั้นเหรอ? คุณเคยเห็นstatmethods.net/advstats/factor.html
aL3xa

นี่เป็นหัวข้อนอกเรื่องเล็กน้อย แต่นี่เป็นสิ่งที่ดีเกี่ยวกับ PCA (ส่วนใหญ่ใน R): <b> HTML </b> statsoft.com/textbook/principal-components-factor-analysis/ … <br /> การบวช okstate.edu/PCA.htm <br /> astrostatistics.psu.edu/datasets/R/MV.html <br /> statmethods.net/advstats/factor.html <br /> <ชม /> <b> PDF < / b> cran.r-project.org/web/packages/HSAUR/vignettes/… /> uga.edu/strata/software/pdf/pcaTutorial.pdf <br /> cs.otago.ac.nz/cosc453/student_tutorials / … /> www
aL3xa

คำตอบ:


11

องค์ประกอบหลักคือการรวมกันเชิงเส้นถ่วงน้ำหนักของปัจจัยทั้งหมดของคุณ (X's)

ตัวอย่าง: PC1 = 0.1X1 + 0.3X2

จะมีองค์ประกอบหนึ่งสำหรับแต่ละปัจจัย (แม้ว่าโดยทั่วไปจะมีการเลือกจำนวนน้อย)

ส่วนประกอบถูกสร้างขึ้นเช่นที่พวกเขามีความสัมพันธ์เป็นศูนย์ (เป็น orthogonal) โดยการออกแบบ

ดังนั้นส่วนประกอบ PC1 ไม่ควรอธิบายการเปลี่ยนแปลงใด ๆ ในส่วนประกอบ PC2

คุณอาจต้องการถดถอยกับตัวแปร Y ของคุณและการแทน PCA ของ X ของคุณเนื่องจากพวกเขาจะไม่มีความหลากหลายหลายระดับ อย่างไรก็ตามอาจตีความได้ยาก

หากคุณมี X มากกว่าการสังเกตซึ่งแบ่ง OLS คุณสามารถถอยหลังส่วนประกอบของคุณและเลือกส่วนประกอบความผันแปรที่สูงที่สุดในจำนวนที่น้อยลง

การวิเคราะห์องค์ประกอบหลักโดย Jollife เป็นหนังสือที่มีเนื้อหาเชิงลึกและอ้างถึงเป็นอย่างมาก

สิ่งนี้ก็เป็นสิ่งที่ดีเช่นกัน: http://www.statsoft.com/textbook/principal-components-factor-analysis/


11

ส่วนประกอบหลักนั้นมีมุมฉากตามคำนิยามดังนั้นพีซีคู่ใดก็ได้จะไม่มีความสัมพันธ์กัน

อย่างไรก็ตาม PCA สามารถใช้ในการถดถอยได้หากมีตัวแปรอธิบายจำนวนมาก สิ่งเหล่านี้สามารถลดลงเป็นองค์ประกอบหลักจำนวนน้อยและใช้เป็นตัวทำนายในการถดถอย


นั่นจะไม่เป็น FA หรือไม่?
Roman Luštrik

3
ไม่ใช่ FA ไม่ใช่การถดถอย ฉันหมายถึงตัวแปรการตอบสนองที่ถดถอยกับองค์ประกอบหลักที่คำนวณจากตัวแปรอธิบายจำนวนมาก องค์ประกอบหลักเองนั้นเกี่ยวข้องกับปัจจัยต่างๆของ FA อย่างใกล้ชิด
Rob Hyndman

ฉันขอโทษฉันควรจะแม่นยำมากขึ้นในความคิดเห็นของฉัน งานเขียนของคุณที่ตัวแปรอธิบายสามารถลดลงไปที่พีซีจำนวนเล็กน้อยส่งเสียงสัญญาณ
Roman Luštrik

ในชุดที่มีตัวแปร n ตัวสามารถแยกพีซีออกได้ แต่คุณสามารถตัดสินใจได้ว่าต้องการเก็บไว้เท่าไหร่เช่นเกณฑ์ของ Guttman-Keizer กล่าวว่าเก็บพีซีทุกเครื่องที่มีค่าลักษณะเฉพาะมากกว่า 1 ดังนั้นจึงมี .. .
aL3xa

7

ระวัง ... เพียงเพราะพีซีนั้นสร้างจากมุมฉากซึ่งกันและกันไม่ได้หมายความว่าไม่มีรูปแบบหรือพีซีเครื่องหนึ่งไม่สามารถ "อธิบาย" บางอย่างเกี่ยวกับพีซีเครื่องอื่นได้

พิจารณาข้อมูล 3 มิติ (X, Y, Z) ที่อธิบายถึงจำนวนมากของคะแนนที่กระจายอย่างสม่ำเสมอบนพื้นผิวของอเมริกันฟุตบอล (มันเป็นทรงรี - ไม่ใช่ทรงกลม - สำหรับผู้ที่ไม่เคยดูอเมริกันฟุตบอล) ลองนึกภาพว่าฟุตบอลอยู่ในรูปแบบตามอำเภอใจดังนั้น X และ Y หรือ Z จะไม่เป็นไปตามแกนยาวของฟุตบอล

ส่วนประกอบหลักจะวาง PC1 ตามแนวยาวของฟุตบอลซึ่งเป็นแกนที่อธิบายความแปรปรวนของข้อมูลได้มากที่สุด

สำหรับจุดใด ๆ ในมิติ PC1 ตามแนวแกนยาวของฟุตบอลชิ้นส่วนระนาบที่แสดงโดย PC2 และ PC3 ควรอธิบายถึงวงกลมและรัศมีของชิ้นวงกลมนี้ขึ้นอยู่กับมิติ PC1 มันเป็นความจริงที่การถดถอยของ PC2 หรือ PC3 บน PC1 ควรให้สัมประสิทธิ์เป็นศูนย์ทั่วโลก แต่ไม่เกินส่วนที่เล็กกว่าของฟุตบอล .... และเป็นที่ชัดเจนว่ากราฟ 2 มิติของ PC1 และ PC2 จะแสดงขอบเขต จำกัด "น่าสนใจ" นั่นคือสองค่าไม่เชิงเส้นและสมมาตร


3

หากข้อมูลของคุณมีมิติและเสียงดังและคุณไม่มีตัวอย่างจำนวนมากแสดงว่าคุณตกอยู่ในอันตรายจากการมีข้อมูลมากเกินไป ในกรณีเช่นนี้การใช้ PCA (ซึ่งสามารถจับส่วนที่โดดเด่นของความแปรปรวนของข้อมูลนั้นเป็นแบบ orthogonality ไม่ใช่ปัญหา) หรือการวิเคราะห์ปัจจัย (ซึ่งสามารถค้นหาตัวแปรอธิบายที่แท้จริงที่อยู่ภายใต้ข้อมูล) เพื่อลดมิติข้อมูลแล้ว ฝึกรูปแบบการถดถอยกับพวกเขา

สำหรับวิธีการวิเคราะห์ตามปัจจัยให้ดูที่บทความนี้แบบจำลองการถดถอยปัจจัยแบบเบส์และแบบไม่อิงพารามิเตอร์แบบเบย์แบบนี้ไม่คิดว่าคุณเป็นคนสำคัญที่ รู้จำนวนปัจจัยที่เกี่ยวข้อง (หรือส่วนประกอบหลักในกรณีของ PCA)

ฉันเพิ่มว่าในหลาย ๆ กรณีการลดขนาดการกำกับดูแล (เช่นการวิเคราะห์การเลือกปฏิบัติฟิชเชอร์ ) สามารถให้การปรับปรุงผ่านวิธีการที่ใช้ PCA หรือ FA อย่างง่ายเพราะคุณสามารถใช้ประโยชน์จากข้อมูลฉลากขณะทำการลดขนาด


0

คุณอาจจะดึงมันออกมาถ้าคะแนนพีซีที่คาดคะเนถูกดึงมาจากตัวแปรที่แตกต่างกันหรือหลาย ๆ กรณีมากกว่าคะแนนพีซีที่ทำนายไว้ หากเป็นกรณีที่ถูกทำนายและผู้ทำนายจะไม่เป็นมุมฉากหรืออย่างน้อยก็ไม่จำเป็นต้องมีความสัมพันธ์คือแน่นอนไม่รับประกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.