ฉันจะบอกได้อย่างไรว่าไม่มีรูปแบบในผลลัพธ์ PCA


9

ฉันมีชุดข้อมูลตัวอย่างมากกว่า 1,000 ชุดจาก 19 ตัวแปร วัตถุประสงค์ของฉันคือการทำนายตัวแปรไบนารีตามตัวแปร 18 ตัวอื่น ๆ (ไบนารีและต่อเนื่อง) ฉันค่อนข้างมั่นใจว่า 6 ของตัวแปรการทำนายเกี่ยวข้องกับการตอบสนองแบบไบนารีอย่างไรก็ตามฉันต้องการวิเคราะห์ชุดข้อมูลเพิ่มเติมและค้นหาการเชื่อมโยงหรือโครงสร้างอื่น ๆ ที่ฉันอาจหายไป ในการทำเช่นนี้ฉันตัดสินใจใช้ PCA และการทำคลัสเตอร์

เมื่อเรียกใช้ PCA กับข้อมูลที่ได้รับการทำให้เป็นมาตรฐานจะต้องเก็บส่วนประกอบ 11 อย่างไว้เพื่อรักษาความแปรปรวน 85% ป้อนคำอธิบายรูปภาพที่นี่ ด้วยการวางแผนจับคู่ฉันได้รับสิ่งนี้: ป้อนคำอธิบายรูปภาพที่นี่

ฉันไม่แน่ใจว่ามีอะไรต่อไป ... ฉันไม่เห็นรูปแบบที่สำคัญใน pca และฉันสงสัยว่ามันหมายถึงอะไรและถ้ามันอาจเกิดจากข้อเท็จจริงที่ว่าตัวแปรบางตัวเป็นไบนารี โดยการใช้อัลกอริทึมการจัดกลุ่มด้วย 6 กลุ่มฉันได้รับผลลัพธ์ต่อไปนี้ซึ่งไม่ได้เป็นการปรับปรุงแม้ว่า Blobs บางอันจะดูโดดเด่น (สีเหลือง) ป้อนคำอธิบายรูปภาพที่นี่

อย่างที่คุณสามารถบอกได้ว่าฉันไม่ใช่ผู้เชี่ยวชาญเกี่ยวกับ PCA แต่เห็นบทเรียนบางอย่างและวิธีที่จะมีประสิทธิภาพในการมองเห็นโครงสร้างในพื้นที่มิติสูง ด้วยชุดข้อมูลตัวเลข MNIST (หรือ IRIS) ที่มีชื่อเสียงมันใช้งานได้ดี คำถามของฉันคือตอนนี้ฉันควรทำอย่างไรเพื่อให้เข้าใจถึง PCA ได้ดียิ่งขึ้น ดูเหมือนว่าการจัดกลุ่มไม่ได้มีประโยชน์อะไรฉันจะบอกได้อย่างไรว่าไม่มีรูปแบบใน PCA หรือฉันควรลองอะไรต่อไปเพื่อหารูปแบบในข้อมูล PCA


ทำไมคุณถึงทำ PCA เพื่อค้นหาผู้ทำนาย? ทำไมไม่ใช้วิธีอื่นบ้าง เช่นคุณสามารถรวมพวกเขาทั้งหมดไว้ในระบบโลจิสติกคุณสามารถใช้ LASSO คุณสามารถสร้างแบบจำลองต้นไม้มีถุงบรรจุเพิ่มและอื่น ๆ
Peter Flom

คุณหมายถึงอะไรโดยเฉพาะ "รูปแบบ" ที่ PCA เปิดเผยได้ดี?
ttnphns

@ttnphns สิ่งที่ฉันพยายามที่จะทำคือการหากลุ่มย่อยของข้อสังเกตว่าอาจจะมีบางสิ่งบางอย่างในการร่วมกันในการอธิบายที่ดีกว่าผลของการตอบสนองไบนารีฉันพยายามที่จะคาดการณ์บาง (นี้ได้รับแรงบันดาลใจบางส่วนโดยeverydayanalytics.ca/2014/ 06 / … ) การใช้ pca และการรวมกลุ่มกับชุดข้อมูลไอริสนั้นมีประโยชน์ในการแยกสายพันธุ์ ( scikit-learn.org/stable/auto_examples/decomposition/ ...... ) ถึงแม้ว่ามันจะง่ายมากเพราะเรารู้จำนวนกลุ่มแล้ว
mickkk

@PeterFlom ฉันใช้การถดถอยแบบโลจิสติกส์และโมเดลฟอเรสต์แบบสุ่มอยู่แล้วและพวกเขากำลังทำงานอย่างเหมาะสม แต่ฉันต้องการตรวจสอบข้อมูลเพิ่มเติม
mickkk

คำตอบ:


7

คุณอธิบายพล็อตผลต่างบอกฉันว่า PCA ไม่มีจุดหมายที่นี่ 11/18 คือ 61% ดังนั้นคุณต้องมี 61% ของตัวแปรของคุณเพื่ออธิบายความแปรปรวน 85% นั่นไม่ใช่กรณีของ PCA ในความคิดของฉัน ฉันใช้ PCA เมื่อ 3-5 ปัจจัยจาก 18 อธิบายถึง 95% ของความแปรปรวน

UPDATE: ดูที่พล็อตของค่าความแปรปรวนสะสมที่อธิบายโดยจำนวนของพีซี นี่คือจากการสร้างแบบจำลองโครงสร้างคำศัพท์อัตราดอกเบี้ย คุณจะเห็นว่า 3 องค์ประกอบอธิบายความแปรปรวนได้มากกว่า 99% นี่อาจดูเหมือนตัวอย่างสำหรับโฆษณา PCA :) อย่างไรก็ตามนี่เป็นเรื่องจริง อายุของอัตราดอกเบี้ยนั้นมีความสัมพันธ์กันมากนั่นเป็นสาเหตุที่ PCA นั้นเป็นธรรมชาติในแอปพลิเคชันนี้ แทนที่จะจัดการกับอายุไม่กี่สิบคู่คุณต้องจัดการกับ 3 องค์ประกอบเท่านั้น

ป้อนคำอธิบายรูปภาพที่นี่


นั่นคือสิ่งที่ฉันสงสัยในตอนแรก ฉันไม่ได้ชี้ให้เห็นโดยตรงเพราะไม่รู้ว่า PCA จะสร้างความกล้าหาญ จะปลอดภัยไหมที่จะบอกว่าเมื่อต้องการส่วนประกอบมากกว่า x% แล้ว PCA นั้นไม่ได้ช่วยอะไรมาก? ฉันหมายถึงในตัวอย่างของแอปพลิเคชันที่ฉันเห็นมักจะมีส่วนประกอบน้อยอธิบายความแปรปรวนมากที่สุด
mickkk

@mickkk ไม่มีกฎที่แน่นอน สำหรับฉันข้อบ่งชี้คือความแปรปรวนที่อธิบายกราฟ หากคุณวาดเป็นเปอร์เซ็นต์สะสมของความแปรปรวนทั้งหมดที่อธิบายด้วยจำนวนของพีซีคุณจะต้องเห็นกราฟเว้ามาก คุณน่าจะใกล้เคียงกับเส้นตรง: แต่ละองค์ประกอบดูเหมือนจะมีข้อมูลเดียวกันเกี่ยวกับข้อมูลในกรณีนี้เหตุใดจึงใช้ PCA เลยแทนที่จะเป็นข้อมูลต้นฉบับ
Aksakal

การแก้ไขด้วยตัวอย่างใหม่มีประโยชน์มาก
mickkk

5

ถ้าคุณมี N>1000 ตัวอย่างและเท่านั้น p=19ตัวทำนายมันค่อนข้างสมเหตุสมผลที่จะใช้ตัวทำนายทั้งหมดในแบบจำลอง ในกรณีนั้นขั้นตอน PCA อาจไม่จำเป็น

หากคุณมั่นใจว่ามีเพียงชุดย่อยของตัวแปรที่อธิบายได้จริงๆการใช้โมเดลการถดถอยแบบเบาบางเช่น Elastic Net สามารถช่วยคุณสร้างสิ่งนี้ได้

นอกจากนี้การตีความผลลัพธ์ PCA โดยใช้อินพุตประเภทผสม (ไบนารีเทียบกับจริงสเกลอื่น ฯลฯดูคำถาม CV ที่นี่ ) นั้นไม่ตรงไปตรงมาและคุณอาจต้องการหลีกเลี่ยงหากไม่มีเหตุผลที่ชัดเจนในการทำเช่นนั้น


4

ฉันจะตีความคำถามของคุณอย่างรัดกุมที่สุด แจ้งให้เราทราบหากมันเปลี่ยนความหมายของคุณ

ฉันค่อนข้างมั่นใจว่า 6 ของตัวแปรการทำนายเกี่ยวข้องกับการตอบสนองแบบไบนารี [แต่] ฉันไม่เห็นรูปแบบที่สำคัญใน pca

ฉันไม่เห็น "รูปแบบที่สำคัญ" อย่างใดอย่างหนึ่งนอกเหนือจากความสอดคล้องใน pairplots ของคุณ พวกมันทั้งหมดเป็นเพียงหยดวงกลมเป็นวงกลม ฉันอยากรู้ว่าคุณคาดหวังอะไร เห็นได้ชัดว่าแยกจุดกลุ่มของ pairplots บางส่วน? มีแปลงน้อยใกล้กับเส้นมาก?

ผลลัพธ์ PCA ของคุณ - bloblike pairplots และ 85% ของความแปรปรวนที่จับได้ในองค์ประกอบหลัก 11 อันดับแรก - อย่ากีดกันลางสังหรณ์ของคุณเกี่ยวกับ 6 ตัวแปรที่เพียงพอสำหรับการทำนายการตอบสนองแบบไบนารี

ลองนึกภาพสถานการณ์เหล่านี้:

  1. สมมติว่าผล PCA ของคุณแสดงให้เห็นว่า 99% ของความแปรปรวนถูกจับโดย 6 องค์ประกอบหลัก

    นั่นอาจดูเหมือนว่าจะสนับสนุนลางสังหรณ์ของคุณเกี่ยวกับตัวแปรทำนาย 6 ตัว - บางทีคุณอาจกำหนดระนาบหรือพื้นผิวอื่น ๆ ในพื้นที่ 6 มิตินั้นซึ่งจัดประเภทคะแนนได้ดีมากและคุณสามารถใช้พื้นผิวนั้นเป็นตัวทำนายไบนารี ซึ่งนำฉันไปที่หมายเลข 2 ...

  2. สมมติว่าส่วนประกอบหลัก 6 อันดับแรกของคุณมี pairplots ที่มีลักษณะเช่นนี้

    "รูปแบบ" ใน pairplots

    แต่ขอโค้ดสีเป็นการตอบสนองไบนารีโดยพลการ

    "รูปแบบ" ไม่มีประโยชน์

    แม้ว่าคุณจะสามารถบันทึกความแปรปรวนได้เกือบทั้งหมด (99%) ใน 6 ตัวแปรคุณยังไม่รับประกันว่าจะมีการแยกเชิงพื้นที่เพื่อทำนายการตอบสนองแบบไบนารีของคุณ

คุณอาจต้องใช้เกณฑ์ตัวเลขจำนวนมาก (ซึ่งสามารถพล็อตเป็นพื้นผิวในพื้นที่ 6 มิตินั้น) และการเป็นสมาชิกของจุดไปยังการจำแนกไบนารีของคุณอาจขึ้นอยู่กับการแสดงออกตามเงื่อนไขที่ซับซ้อนซึ่งทำจากความสัมพันธ์ของจุดนั้น ๆ แต่นั่นเป็นเพียงตัวอย่างของวิธีการที่คลาสไบนารีสามารถทำนายได้ มีโครงสร้างข้อมูลและวิธีการมากมายสำหรับการเป็นตัวแทนการฝึกอบรมและการทำนาย นี่คือทีเซอร์ อ้าง

บ่อยครั้งที่ส่วนที่ยากที่สุดในการแก้ปัญหาการเรียนรู้ด้วยเครื่องสามารถหาตัวประมาณที่เหมาะสมสำหรับงานได้


1
ใบหน้าที่ยิ้มเป็นสิ่งที่ดีจริง ๆ เพราะมันเป็น uncorrelated! ฉันชอบมัน.
อะมีบา

@ amoeba, คุณมีหน้ายิ้มจากพีซีที่ไม่เกี่ยวข้องกันไหม?
Aksakal

@ อักซาลใช่แผนการกระจายรอยยิ้มดูเหมือนว่าฉันจะแสดงความสัมพันธ์เป็นศูนย์ Kdbanman ฉันขอขอบคุณการอัปเดต +1
อะมีบา

@ amoeba โอเคคุณหมายถึงสหสัมพันธ์เชิงเส้น
Aksakal
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.