PCA เมื่อขนาดข้อมูลมากกว่าจำนวนตัวอย่าง


21

ฉันเจอสถานการณ์ที่ฉันมี 10 สัญญาณ / คนสำหรับ 10 คน (ตัวอย่าง 100 ตัวอย่าง) ที่มีจุดข้อมูล 14,000 (มิติ) ที่ฉันต้องผ่านไปยังตัวจําแนก ฉันต้องการลดขนาดของข้อมูลนี้และ PCA น่าจะเป็นวิธีที่ทำได้ อย่างไรก็ตามฉันสามารถค้นหาตัวอย่างของ PCA ที่มีจำนวนตัวอย่างมากกว่าจำนวนมิติเท่านั้น ฉันใช้แอปพลิเคชัน PCA ที่ค้นหาพีซีที่ใช้ SVD เมื่อฉันผ่านชุดข้อมูล 100x14000 ชุดของฉันมี 101 ชิ้นที่ส่งคืนดังนั้นขนาดส่วนใหญ่จะถูกมองข้ามอย่างชัดเจน โปรแกรมระบุว่าพีซี 6 เครื่องแรกมีความแปรปรวน 90%

เป็นสมมติฐานที่สมเหตุสมผลหรือไม่ว่าพีซี 101 เครื่องเหล่านี้มีความแปรปรวนทั้งหมดและขนาดที่เหลืออยู่นั้นไม่สามารถละเลยได้?

หนึ่งในเอกสารที่ฉันได้อ่านอ้างว่าด้วยชุดข้อมูลที่คล้ายกัน (แต่คุณภาพต่ำกว่าเล็กน้อย) กว่าของฉันพวกเขาสามารถลดขนาด 4500 มิติลงเหลือ 80 เก็บข้อมูล 96% ของข้อมูลต้นฉบับ คลื่นกระดาษผ่านรายละเอียดของเทคนิค PCA ที่ใช้มีเพียง 3100 ตัวอย่างเท่านั้นและฉันมีเหตุผลที่จะเชื่อว่าตัวอย่างน้อยกว่าที่ใช้ในการปฏิบัติ PCA จริง ๆ (เพื่อลบอคติจากขั้นตอนการจำแนก)

ฉันขาดอะไรไปหรือนี่เป็นวิธีที่ PCA ใช้กับชุดข้อมูลขนาดตัวอย่างที่มีขนาดต่ำมากหรือไม่? ข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก


2
หากคุณไม่มีข้อมูลมากกว่ามิติข้อมูลเป็นเรื่องยากที่จะหาทิศทางที่กำจัดความแปรปรวนส่วนใหญ่ซึ่งเป็นสิ่งที่องค์ประกอบหลักตัวแรกควรจะทำ โดยทั่วไปมีการสาปแช่งของมิติ ข้อมูลมีแนวโน้มที่จะย้ายออกจากศูนย์กลางในมิติที่สูง Bellman เขียนเกี่ยวกับเรื่องนี้ในปี 1960
Michael R. Chernick

เป็นอย่างมากที่เกี่ยวข้อง: stats.stackexchange.com/questions/123318
อะมีบากล่าวว่า Reinstate Monica

คำตอบ:


9

ฉันจะดูปัญหาจากมุมที่แตกต่างกันเล็กน้อย: โมเดลที่คุณสามารถซื้อได้มีเพียง 10 ตัวอย่าง / 100 ตัวอย่างเท่านั้น

และคำถามนั้นฉันมักจะตอบด้วย: น้อยกว่า 100 เครื่อง โปรดทราบว่าฉันทำงานกับข้อมูลประเภทอื่น (สเปกตรัมเชิงการสั่นสะเทือน) ดังนั้นสิ่งต่าง ๆ อาจแตกต่างกันเล็กน้อย ในสาขาของฉันการตั้งค่าทั่วไปจะใช้ 10 หรือ 25 หรือ 50 ชิ้นคำนวณจาก O (1,000) สเปกตรัมของวัตถุ O (10)

นี่คือสิ่งที่ฉันจะทำ:

  • ดูความแปรปรวนที่ครอบคลุมโดยพีซี 100 เครื่องเหล่านั้น ฉันมักจะพบว่ามีเพียงไม่กี่องค์ประกอบเท่านั้นที่นำไปสู่ความแปรปรวนในข้อมูลของเรา

  • ฉันชอบ PLS เป็นอย่างมากในการรักษาความสงบเรียบร้อยบน PCA เนื่องจากมันทำงานได้ดีกว่ามากในการแยกแยะทิศทางที่มีการแปรผันสูงซึ่งไม่ได้ช่วยการจัดหมวดหมู่ (ในกรณีของฉัน .. ) จากประสบการณ์ของฉันฉันมักจะได้ตัวแยกประเภทที่คล้ายกันซึ่งมีตัวแปรแฝง 10 PLS หรือ 25 ถึง 50 ชิ้น

  • ตัวอย่างการตรวจสอบต้องถูกประมวลผลด้วยการหมุน PCA ที่คำนวณจากชุดการฝึกอบรมเท่านั้นมิฉะนั้นการตรวจสอบความถูกต้องสามารถ (และในกรณีที่รุนแรงเช่นที่คุณน่าจะเป็นไปได้มากที่สุด) จะมีอคติมาก
    กล่าวอีกนัยหนึ่งถ้าคุณออกจาก bootstrap หรือ cross validation การประมวลผลล่วงหน้า PCA หรือ PLS จะต้องคำนวณสำหรับการรวมกันของชุดรถไฟ / ชุดทดสอบแต่ละชุดแยกกัน


ขอบคุณสำหรับการโพสต์ข้อมูลมาก ฉันกำลังทำงานกับข้อมูลสัญญาณไบโอเมตริกซ์ ในการจัดประเภทด้วยประสิทธิภาพที่เหมาะสมฉันต้องการพีซีน้อยกว่า 100 เครื่องในช่วง 25-50 นั้นน่าจะดี ฉันได้พิจารณาลดอัตราการสุ่มตัวอย่างของฉันเพื่อลดจำนวนตัวอย่างที่ฉันต้องตรวจสอบ แต่คุณคาดหวังว่าการแก้ไขปัญหาจะคุ้มค่าหรือไม่หรือจะมีผลกระทบใด ๆ เลยเนื่องจากขนาดการฝึกอบรมยังคงเท่าเดิม ? แม้ว่าฉันต้องการ PCA เพื่อให้สอดคล้องกับการศึกษาอื่น ๆ ในสาขานี้ฉันจะมองว่า PLS เป็นแนวทางที่สองแน่นอน
James

1
@James: ฉันกลัวว่าคำถามอัตราการสุ่มตัวอย่างจะไม่สามารถตอบได้หากไม่ทราบข้อมูลของคุณ โดยพื้นฐานแล้วมันเป็นคำถามของขนาดตัวอย่างที่มีประสิทธิภาพ เราสามารถพูดได้แค่ว่าอยู่ระหว่าง n (คน) และ n (ตัวอย่าง) หากตัวอย่าง 10 ตัวอย่างจาก 1 คนมีความคล้ายคลึงกันมากกว่าตัวอย่างของบุคคลอื่นตัวอย่างอื่น ๆ จะไม่เพิ่มข้อมูลจำนวนมากไปยังชุดข้อมูล คุณสามารถตรวจสอบได้โดยสร้างหนึ่งรุ่นพร้อมตัวอย่างทั้งหมดและรุ่นที่สองมีเพียงตัวอย่างเดียวต่อคนและเปรียบเทียบประสิทธิภาพของพวกเขา
cbeleites รองรับโมนิก้า

@James: (ตอน 2) ถ้าคุณคิดว่ากลุ่มตัวอย่างของคนคนหนึ่งที่มีค่อนข้างคล้าย ๆ กันแล้วคุณควรดูแลว่าการตรวจสอบและการฝึกอบรมชุดไม่ personse หุ้น (เช่นทุกตัวอย่างของคนคนหนึ่งมีทั้งในการฝึกอบรมหรือ ชุดทดสอบ)
cbeleites รองรับโมนิก้า

ขอบคุณที่กลับมาหาฉัน ข้อมูลของฉันมีความแปรปรวนค่อนข้างสูงโดยมีการทับซ้อนอย่างมีนัยสำคัญในพื้นที่ตัวอย่างระหว่างคลาสผู้ใช้ แต่ขออภัยแทนที่จะลดตัวอย่างฉันหมายถึงลดความละเอียดของจุดข้อมูล 14,000 จุดดังนั้นบอกว่าจะใช้เฉพาะจุดที่ 2, 3 หรือ 4 ทุกแห่งใน PCA แต่มีจำนวนผู้ใช้จริงเท่าเดิม ฉันอยากรู้ว่าการลดลงของความละเอียดดังกล่าวคาดว่าจะมีผลกระทบเชิงบวกเป็นลบหรือไม่ส่งผลกระทบใด ๆ ต่อ PCA เนื่องจากขนาดของฉันใหญ่กว่าตัวอย่างของฉัน
James

1
เสื้อชั่วโมง

9

nพีnพีnn-1


2

2
@ ttnphns: รู้การอ้างอิงที่ระบุสิ่งที่คุณพูดที่นี่หรือไม่?
Patrick


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.