คำถามติดแท็ก pca

การวิเคราะห์องค์ประกอบหลัก (PCA) เป็นเทคนิคการลดขนาดเชิงเส้น จะช่วยลดชุดข้อมูลหลายตัวแปรให้เป็นชุดเล็ก ๆ ของตัวแปรที่สร้างขึ้นรักษาข้อมูลให้มากที่สุดเท่าที่จะเป็นไปได้ ตัวแปรเหล่านี้เรียกว่าองค์ประกอบหลักคือการรวมกันเชิงเส้นของตัวแปรอินพุต

1
PCA, LDA, CCA และ PLS
PCA, LDA, CCA และ PLS เกี่ยวข้องกันอย่างไร พวกเขาดูเหมือน "เชิงสเปกตรัม" และเชิงพีชคณิตเชิงเส้นและเข้าใจเป็นอย่างดี (พูดมากกว่า 50 ปีของทฤษฎีที่สร้างขึ้นรอบ ๆ พวกเขา) พวกเขาจะใช้สำหรับสิ่งที่แตกต่างกันมาก (PCA สำหรับการลดขนาด, LDA สำหรับการจัดหมวดหมู่, PLS สำหรับการถดถอย) แต่พวกเขาก็ยังรู้สึกเกี่ยวข้องอย่างใกล้ชิด

3
การตีความการทำให้เป็นสันเป็นแนวในการถดถอย
ฉันมีคำถามหลายข้อเกี่ยวกับบทลงโทษริดจ์ในบริบทกำลังสองน้อยที่สุด: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) การแสดงออกแสดงให้เห็นว่าเมทริกซ์ความแปรปรวนร่วมของ X หดตัวลงในเมทริกซ์แนวทแยงซึ่งหมายความว่า (สมมติว่าตัวแปรเป็นมาตรฐานก่อนขั้นตอน) ความสัมพันธ์ระหว่างตัวแปรอินพุตจะลดลง การตีความนี้ถูกต้องหรือไม่ 2) ถ้ามันเป็นแอพพลิเคชั่นการหดตัวทำไมมันไม่ได้ถูกกำหนดในบรรทัดของสมมติว่าเราสามารถ จำกัด แลมบ์ดาให้อยู่ในช่วง [0,1] ด้วยการทำให้เป็นมาตรฐาน .(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3) อะไรที่เป็นมาตรฐานสำหรับเพื่อให้สามารถ จำกัด ช่วงมาตรฐานเช่น [0,1]λλ\lambda 4) การเพิ่มค่าคงที่ในแนวทแยงจะมีผลต่อค่าลักษณะเฉพาะทั้งหมด มันจะดีกว่าไหมถ้าจะโจมตีเฉพาะค่าเอกฐานหรือค่าเอกฐาน นี่เทียบเท่ากับการใช้ PCA กับ X และการรักษาส่วนประกอบหลักบน N ก่อนการถดถอยหรือมีชื่อแตกต่างกัน (เนื่องจากไม่ได้แก้ไขการคำนวณความแปรปรวนร่วมแบบครอส) 5) เราสามารถทำให้ค่าความแปรปรวนร่วมเป็นประจำหรือใช้อย่างใดอย่างหนึ่งหรือมีความหมายβridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) ที่ขนาดเล็กจะลดความแปรปรวนร่วม เห็นได้ชัดว่าสิ่งนี้ช่วยลด …

5
องค์ประกอบหลักด้านบนจะรักษาพลังการคาดการณ์ของตัวแปรตาม (หรือนำไปสู่การทำนายที่ดีกว่า) ได้อย่างไร?
สมมติว่าผมทำงานถดถอย X ทำไมโดยการเลือกด้านบนkส่วนประกอบหลักการของXไม่รูปแบบการรักษาอำนาจของตนในการทำนายY ?Y∼XY∼XY \sim XkkkXXXYYY ผมเข้าใจว่าจากมิติการลดจุด / คุณลักษณะการเลือกมุมมองถ้าเป็น eigenvectors ของเมทริกซ์ความแปรปรวนของXกับด้านบนkค่าลักษณะเฉพาะแล้วX วี1 , X โวลต์ 2 . . X v kเป็นองค์ประกอบหลักkอันดับแรกที่มีความแปรปรวนสูงสุด เราสามารถลดจำนวนฟีเจอร์เป็นkและรักษาพลังการทำนายส่วนใหญ่ไว้ได้ตามที่ฉันเข้าใจv1,v2,...vkv1,v2,...vkv_1, v_2, ... v_kXXXkkkXv1,Xv2...XvkXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kkkkkkk แต่ทำไมทำบนส่วนประกอบรักษาอำนาจการพยากรณ์ในY ?kkkYYY ถ้าเราพูดถึงทั่วไป OLS มีเหตุผลที่จะชี้ให้เห็นว่าถ้าไม่มีคุณลักษณะZ ฉันมีความแปรปรวนสูงสุดแล้วZ ฉันมีอำนาจมากที่สุดในการทำนายYY∼ZY∼ZY \sim ZZiZiZ_iZiZiZ_iYYY อัปเดตหลังจากเห็นความคิดเห็น:ฉันเดาว่าฉันเคยเห็นตัวอย่างของการใช้ PCA จำนวนมากเพื่อการลดขนาด ฉันได้รับการสันนิษฐานว่าหมายถึงมิติที่เราเหลืออยู่มีอำนาจการทำนายมากที่สุด มิฉะนั้นแล้วประเด็นของมิติลดลงคืออะไร?

2
มันเหมาะสมหรือไม่ที่จะรวม PCA และ LDA
สมมติว่าฉันมีชุดข้อมูลสำหรับงานการจัดหมวดหมู่ทางสถิติภายใต้การดูแลเช่นผ่านตัวจําแนกของ Bayes ชุดข้อมูลนี้ประกอบด้วย 20 ฟีเจอร์และฉันต้องการต้มให้เหลือ 2 ฟีเจอร์โดยใช้เทคนิคการลดขนาดเช่นการวิเคราะห์ส่วนประกอบหลัก (PCA) และ / หรือการวิเคราะห์เชิงเส้น (LDA) เทคนิคทั้งสองกำลังฉายข้อมูลลงในพื้นที่ย่อยขนาดเล็ก: ด้วย PCA ฉันจะหาทิศทาง (ส่วนประกอบ) ที่เพิ่มความแปรปรวนในชุดข้อมูล (โดยไม่คำนึงถึงคลาสฉลาก) และด้วย LDA ฉันจะมีส่วนประกอบที่ขยายระหว่าง - คลาสแยก ตอนนี้ฉันกำลังสงสัยว่าอย่างไรและทำไมเทคนิคเหล่านี้สามารถรวมกันและถ้ามันทำให้รู้สึก ตัวอย่างเช่น: แปลงชุดข้อมูลผ่าน PCA และฉายลงบนพื้นที่ว่างสองมิติใหม่ Transform (ชุด PCA-transformed) ชุดข้อมูลที่ผ่าน LDA เป็นค่าสูงสุด การแยกชั้นเรียน หรือ ข้ามขั้นตอน PCA และใช้ส่วนประกอบ 2 อันดับแรกจาก LDA หรือชุดค่าผสมอื่น ๆ ที่เหมาะสม

2
วิธีการใช้ R prcomp ผลลัพธ์สำหรับการทำนาย?
ฉันมี data.frame พร้อม 800 obs ของตัวแปร 40 ตัวและต้องการใช้การวิเคราะห์องค์ประกอบหลักเพื่อปรับปรุงผลลัพธ์ของการทำนายของฉัน (ซึ่งจนถึงขณะนี้ทำงานได้ดีที่สุดกับ Support Vector Machine กับตัวแปรที่เลือกด้วยมือ 15 อัน) ฉันเข้าใจว่า prcomp สามารถช่วยปรับปรุงการทำนายของฉันได้ แต่ฉันไม่รู้วิธีใช้ผลลัพธ์ของฟังก์ชัน prcomp ฉันได้รับผล: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 …
25 r  pca 

3
LSA กับ PCA (การจัดกลุ่มเอกสาร)
ฉันกำลังตรวจสอบเทคนิคต่าง ๆ ที่ใช้ในการจัดกลุ่มเอกสารและฉันต้องการที่จะขจัดข้อสงสัยเกี่ยวกับ PCA (การวิเคราะห์องค์ประกอบหลัก) และ LSA (การวิเคราะห์ความหมายแฝง) สิ่งแรก - อะไรคือความแตกต่างระหว่างพวกเขา? ฉันรู้ว่าใน PCA การสลายตัว SVD ถูกนำไปใช้กับเมทริกซ์ความแปรปรวนร่วมในขณะที่ LSA เป็นเมทริกซ์เอกสารระยะ มีอะไรอีกไหม? สอง - บทบาทของพวกเขาในขั้นตอนการจัดกลุ่มเอกสารคืออะไร จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้ฉันอนุมานได้ว่าจุดประสงค์ของพวกเขาคือการลดมิติการลดเสียงรบกวนและการรวมความสัมพันธ์ระหว่างคำต่างๆเข้าด้วยกัน หลังจากดำเนินการ PCA หรือ LSA อัลกอริธึมแบบดั้งเดิมเช่นวิธี k- หมายถึงหรือ agglomerative ถูกนำมาใช้ในพื้นที่ระยะลดลงและการวัดความคล้ายคลึงกันทั่วไปเช่นระยะทางโคไซน์ถูกนำมาใช้ โปรดแก้ไขฉันหากฉันผิด ประการที่สาม - เป็นเรื่องสำคัญหรือไม่หากเวกเตอร์คำศัพท์ TF / IDF ถูกทำให้เป็นมาตรฐานก่อนใช้ PCA / LSA หรือไม่ และพวกเขาควรจะกลับสู่ภาวะปกติอีกครั้งหลังจากนั้น? ข้อที่สี่ - สมมติว่าฉันได้ทำการจัดกลุ่มบางส่วนเกี่ยวกับพื้นที่คำที่ลดลงโดย LSA / …

2
PCA ไม่เสถียรภายใต้ความหลากสีหรือไม่
ฉันรู้ว่าในสถานการณ์การถดถอยหากคุณมีชุดของตัวแปรที่มีความสัมพันธ์สูงซึ่งมักจะเป็น "ไม่ดี" เนื่องจากความไม่แน่นอนของค่าสัมประสิทธิ์โดยประมาณ คำถามของฉันคือว่า "ความเลวร้าย" นี้ยังคงอยู่ในสถานการณ์ PCA หรือไม่ ค่าสัมประสิทธิ์ / การโหลด / น้ำหนัก / eigenvectors สำหรับพีซีใด ๆ โดยเฉพาะกลายเป็นไม่เสถียร / โดยพลการ / ไม่ซ้ำกันเป็นเมทริกซ์ความแปรปรวนร่วมกลายเป็นเอกพจน์? ฉันสนใจเป็นพิเศษในกรณีที่มีเพียงส่วนประกอบหลักแรกเท่านั้นที่ถูกเก็บไว้และอื่น ๆ ทั้งหมดจะถูกไล่ออกเป็น "เสียงรบกวน" หรือ "อย่างอื่น" หรือ "ไม่สำคัญ" ฉันไม่คิดว่ามันจะเป็นเช่นนั้นเพราะคุณจะเหลือองค์ประกอบหลักเพียงไม่กี่ตัวที่มีค่าศูนย์หรือใกล้เคียงกับค่าความแปรปรวนเป็นศูนย์ ดูง่ายกรณีนี้ไม่ได้เป็นในกรณีที่ง่ายมากที่มี 2 ตัวแปร - สมมติว่าพวกเขามีความสัมพันธ์อย่างสมบูรณ์ จากนั้นพีซีเครื่องแรกจะมีความสัมพันธ์เชิงเส้นตรงและพีซีเครื่องที่สองจะตั้งฉากกับพีซีเครื่องแรกโดยมีค่าพีซีทั้งหมดเท่ากับศูนย์สำหรับการสังเกตทั้งหมด (เช่นศูนย์แปรปรวน) สงสัยว่าถ้ามันทั่วไปมากขึ้น

5
ตัวอย่างของ PCA ที่พีซีที่มีความแปรปรวนต่ำ“ มีประโยชน์”
โดยปกติในการวิเคราะห์องค์ประกอบหลัก (PCA) มีการใช้พีซีสองสามเครื่องแรกและพีซีแบบแปรปรวนต่ำจะหล่นเนื่องจากไม่ได้อธิบายความแปรปรวนของข้อมูลมากนัก อย่างไรก็ตามมีตัวอย่างที่พีซีที่มีรูปแบบต่ำมีประโยชน์ (เช่นมีการใช้งานในบริบทของข้อมูลมีคำอธิบายที่เข้าใจง่ายเป็นต้น) และไม่ควรถูกทิ้ง?
24 pca 

2
จะเข้าใจ“ ไม่เชิงเส้น” เช่นเดียวกับ“ การลดขนาดแบบไม่เชิงเส้น” ได้อย่างไร?
ฉันพยายามเข้าใจความแตกต่างระหว่างวิธีการลดขนาดเชิงเส้น (เช่น PCA) และวิธีไม่เชิงเส้น (เช่น Isomap) ฉันไม่สามารถเข้าใจสิ่งที่เป็นเส้นตรง (ไม่ใช่) ความหมายในบริบทนี้ ฉันอ่านจากWikipediaว่า จากการเปรียบเทียบหาก PCA (อัลกอริทึมการลดขนาดเชิงเส้น) ใช้เพื่อลดชุดข้อมูลเดียวกันนี้เป็นสองมิติค่าผลลัพธ์จะไม่ได้รับการจัดระเบียบอย่างดี นี่แสดงให้เห็นว่าเวกเตอร์มิติสูง (แต่ละอันแสดงถึงตัวอักษร 'A') ที่ตัวอย่างหลากหลายนี้มีความหลากหลายในลักษณะที่ไม่เป็นเชิงเส้น อะไรนะ เวกเตอร์มิติสูง (แต่ละอันแทนตัวอักษร 'A') ที่ตัวอย่างนี้มีความหลากหลายในลักษณะที่ไม่เป็นเชิงเส้น หมายความว่าอย่างไร หรือกว้างกว่าฉันจะเข้าใจความเป็นเส้นตรง (ไม่) ในบริบทนี้ได้อย่างไร

3
PCA แบบเบาบางดีกว่า PCA อย่างไร
ฉันเรียนรู้เกี่ยวกับ PCA ไม่กี่ครั้งที่ผ่านมาในชั้นเรียนและด้วยการขุดเพิ่มเติมเกี่ยวกับแนวคิดที่น่าสนใจนี้ฉันได้รู้เกี่ยวกับ PCA กระจัดกระจาย ผมอยากจะถามว่าถ้าฉันไม่ได้ผิดนี่คือสิ่งที่เบาบาง PCA คือใน PCA ถ้าคุณมีจุดข้อมูลกับตัวแปรคุณสามารถเป็นตัวแทนของแต่ละจุดข้อมูลในมิติก่อนที่จะใช้ PCA หลังจากใช้ PCA คุณจะสามารถนำเสนอในพื้นที่มิติเดียวกันอีกครั้ง แต่คราวนี้องค์ประกอบหลักแรกจะมีความแปรปรวนมากที่สุดส่วนที่สองจะมีทิศทางความแปรปรวนมากที่สุดที่สองและอื่น ๆ ดังนั้นคุณสามารถกำจัดองค์ประกอบหลักบางส่วนที่ผ่านมาเนื่องจากจะไม่ทำให้เกิดการสูญเสียข้อมูลจำนวนมากและคุณสามารถบีบอัดข้อมูล ขวา?nnnพีppพีพีp Sparse PCA กำลังเลือกส่วนประกอบหลักซึ่งส่วนประกอบเหล่านี้มีค่าที่ไม่เป็นศูนย์น้อยในค่าสัมประสิทธิ์เวคเตอร์ สิ่งนี้จะช่วยให้คุณตีความข้อมูลได้ดีขึ้นอย่างไร ใครสามารถยกตัวอย่างได้บ้าง

1
คุณสมบัติของ PCA สำหรับการสังเกต
เรามักจะใช้ PCA เป็นเทคนิคการลดขนาดสำหรับข้อมูลที่กรณีจะถือว่าเป็น iid คำถาม:อะไรคือความแตกต่างทั่วไปในการใช้ PCA สำหรับข้อมูลที่ขึ้นกับข้อมูลที่ไม่ใช่ของ iid คุณสมบัติที่ดี / มีประโยชน์ของ PCA ที่เก็บไว้สำหรับข้อมูล iid นั้นถูกบุกรุก (หรือสูญหายทั้งหมด)? ตัวอย่างเช่นข้อมูลอาจเป็นอนุกรมเวลาหลายตัวแปรในกรณีที่ autocorrelation หรือ autorgressive heteroskedasticity ตามเงื่อนไข (ARCH) สามารถคาดหวังได้ มีคำถามที่เกี่ยวข้องหลายประการเกี่ยวกับการใช้ PCA กับข้อมูลอนุกรมเวลาซึ่งเคยมีการถามมาก่อนเช่น1 , 2 , 3 , 4แต่ฉันกำลังมองหาคำตอบทั่วไปและครอบคลุมมากขึ้น แก้ไข:ตามที่บันทึกไว้โดย @ttnphns ตัว PCA เองไม่ใช่การวิเคราะห์เชิงอนุมาน อย่างไรก็ตามหนึ่งอาจสนใจในการวางนัยทั่วไปของ PCA คือการเน้นไปที่ประชากรของ PCA ตัวอย่าง เช่นเขียนในNadler (2008) : สมมติว่าข้อมูลที่ได้รับเป็นตัวอย่าง จำกัด และสุ่มจากการแจกแจง (โดยทั่วไปไม่ทราบ) …

2
PCA และ asymptotic PCA ต่างกันอย่างไร
ในบทความสองฉบับในปี 1986และ1988คอนเนอร์และ Korajczyk เสนอวิธีการสร้างแบบจำลองผลตอบแทนของสินทรัพย์ เนื่องจากอนุกรมเวลาเหล่านี้มักจะมีสินทรัพย์มากกว่าการสังเกตระยะเวลาพวกเขาเสนอให้ดำเนินการ PCA เกี่ยวกับความแปรปรวนร่วมแบบตัดขวางของผลตอบแทนสินทรัพย์ พวกเขาเรียกวิธีนี้ว่า Asymptotic Principal Component Analysis (APCA ซึ่งค่อนข้างสับสนเนื่องจากผู้ชมคิดทันทีถึงคุณสมบัติของ asymptotic ของ PCA) ฉันได้ผลสมการมาแล้วและวิธีการทั้งสองนั้นดูเหมือนจะเป็นตัวเลข asymptotics ของหลักสูตรที่แตกต่างกันตั้งแต่บรรจบพิสูจน์สำหรับมากกว่าT →การ ∞ คำถามของฉันคือ: มีใครใช้ APCA และเปรียบเทียบกับ PCA หรือไม่ มีความแตกต่างที่เป็นรูปธรรมหรือไม่ ถ้าเป็นเช่นนั้นN→∞N→∞N \rightarrow \inftyT→∞T→∞T \rightarrow \infty
23 pca  econometrics 

4
การกำหนดค่าที่ขาดหายไปสำหรับ PCA
ฉันใช้prcomp()ฟังก์ชั่นเพื่อทำการ PCA (การวิเคราะห์องค์ประกอบหลัก) ใน R อย่างไรก็ตามมีข้อผิดพลาดในฟังก์ชั่นดังกล่าวว่าna.actionพารามิเตอร์ไม่ทำงาน ผมขอความช่วยเหลือใน StackOverflow ; สองผู้ใช้มีการเสนอสองวิธีที่แตกต่างกันในการจัดการกับNAค่า อย่างไรก็ตามปัญหาของทั้งสองวิธีคือเมื่อมีNAค่าแถวนั้นจะถูกดร็อปและไม่ถูกพิจารณาในการวิเคราะห์ PCA ชุดข้อมูลจริงของฉันคือเมทริกซ์ 100 x 100 และฉันไม่ต้องการเสียทั้งแถวเพียงเพราะมันมีNAค่าเดียว ตัวอย่างต่อไปนี้แสดงให้เห็นว่าprcomp()ฟังก์ชั่นไม่ได้คืนองค์ประกอบหลักใด ๆ สำหรับแถว 5 เนื่องจากมันมีNAค่า d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # …

1
ทำไมจึงมีเพียงองค์ประกอบหลักสำหรับข้อมูลหากจำนวนมิติคือ ?
ใน PCA เมื่อจำนวนมิติมากกว่า (หรือเท่ากับ) จำนวนตัวอย่างทำไมคุณถึงมีeigenvector ที่ไม่ใช่ศูนย์มากที่สุดในคำอื่น ๆ ยศแปรปรวนเมทริกซ์ในหมู่ที่มิติคือN-1N N - 1 d ≥ N N - 1dddยังไม่มีข้อความNNยังไม่มีข้อความ- 1N−1N-1d≥ Nd≥Nd\ge Nยังไม่มีข้อความ- 1N−1N-1 ตัวอย่าง: ตัวอย่างของคุณเป็นภาพเวกเตอร์ซึ่งมีขนาดแต่คุณมีเพียงภาพN = 10d= 640 × 480 = 307200d=640×480=307200d = 640\times480 = 307\,200ยังไม่มีข้อความ= 10N=10N=10

2
ทำไม PCA ของข้อมูลโดยใช้วิธี SVD ของข้อมูล
คำถามนี้เกี่ยวกับวิธีที่มีประสิทธิภาพในการคำนวณส่วนประกอบหลัก ตำราจำนวนมากในการสนับสนุน PCA เชิงเส้นโดยใช้การสลายตัวเอกพจน์มูลค่าของข้อมูล Casewise นั่นคือถ้าเรามี dataและต้องการแทนที่ตัวแปร ( คอลัมน์ของมัน) ด้วยองค์ประกอบหลักเราจะทำ SVD: , ค่าเอกพจน์ (sq. รากของค่าลักษณะเฉพาะ) ครอบครองเส้นทแยงมุมหลักของ , ขวา eigenvectorเป็นเมทริกซ์การหมุนแบบมุมฉากของแกน - ตัวแปรเป็นแกน - องค์ประกอบ, ซ้าย eigenvectorเป็นเช่น , เฉพาะสำหรับกรณี จากนั้นเราสามารถคำนวณค่าองค์ประกอบเป็นCXX\bf X S V U V C = X V = U SX=USV′X=ยูSV'\bf X=USV'SS\bf SVV\bf VUยู\bf UVV\bf VC=XV=USC=XV=ยูS \bf C=XV=US อีกวิธีหนึ่งในการทำ PCA ของตัวแปรก็คือการสลายตัวของ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.