จะใช้การถดถอยกับองค์ประกอบหลักเพื่อทำนายตัวแปรเอาต์พุตได้อย่างไร


9

ผมอ่านเกี่ยวกับพื้นฐานของการวิเคราะห์องค์ประกอบหลักจากtutorial1 , link1และlink2

ฉันมีชุดข้อมูลของตัวแปร 100 ตัว (รวมถึงตัวแปรเอาต์พุต Y) ฉันต้องการลดตัวแปรเป็น 40 โดย PCA แล้วทำนายตัวแปร Y โดยใช้ตัวแปร 40 ตัว

ปัญหาที่ 1:หลังจากได้รับส่วนประกอบหลักและเลือก 40 องค์ประกอบแรกถ้าฉันใช้การถดถอยบนฉันได้รับฟังก์ชั่นบางอย่างที่เหมาะกับข้อมูล แต่จะคาดเดาตัวแปร Y จากข้อมูลต้นฉบับได้อย่างไร? ในการทำนายตัวแปร YI มีตัวแปร (100-1) ที่อินพุตและฉันจะรู้ได้อย่างไรว่ามีตัวแปร 40 ตัวที่เลือกตัวแปร 100-1 ดั้งเดิมของฉันได้อย่างไร

ปัญหาที่ 2:ฉันกลับ PCA และรับข้อมูลกลับมาจากองค์ประกอบหลัก 40 รายการ แต่ข้อมูลมีการเปลี่ยนแปลงเพราะฉันเลือกเพียง 40 องค์ประกอบแรก การใช้การถดถอยกับข้อมูลเหล่านี้สมเหตุสมผลหรือไม่?

ฉันใช้ Matlab / Octave


ในการทำ PCA คุณใช้ซอฟต์แวร์หรือโปรแกรมใด ตัวอย่างเช่นใน SPSS การวิเคราะห์นี้สามารถทำได้อย่างง่ายดายและคุณสามารถกำหนดจำนวนส่วนประกอบหลักที่คุณต้องการแยกและคุณสามารถดูว่าจะเลือกองค์ประกอบใดในเอาต์พุต แน่นอนว่าการใช้การถดถอยในข้อมูลนี้ไม่สมเหตุสมผลเนื่องจาก PCA ใช้สำหรับการลดขนาดเท่านั้น
merveceng

1
หากคุณสนใจที่จะคาดการณ์แต่เพียงผู้เดียวคุณควรทราบว่าHastie, Tibshirani และ Friedmanแนะนำให้ LASSO ถดถอยมากกว่าการถดถอยองค์ประกอบหลักเนื่องจาก LASSO ทำสิ่งเดียวกัน (ปรับปรุงความสามารถในการทำนายโดยการลดจำนวนตัวแปรในแบบจำลอง) แต่ ดีกว่า LASSO ยังมีอยู่อย่างแพร่หลายในปัจจุบันในแพ็คเกจทางสถิติ
shadowtalker

@ssdecontrol: ทำ Hastie และคณะ แนะนำ lasso โดยเฉพาะกับการถดถอยองค์ประกอบหลักหรือไม่ PCR เชื่อมต่ออย่างใกล้ชิดกับการถดถอยของสันมากกว่ากับเชือก: มันไม่ทำให้เกิดการกระจัดกระจาย บางทีพวกเขาแนะนำให้ใช้ net elastic ผ่าน PCR แต่มันเป็น lasso plus ridge
อะมีบา

1
@ amoeba ฉันเพิ่งไปตรวจสอบ PDF ออนไลน์ ข้อความเปลี่ยนไปหรือฉันเข้าใจผิดครั้งแรกที่ฉันอ่าน บทสรุปไม่ใช่ว่า "บ่วงบาศเหนือกว่า" แต่ "PCR, PLS และการถดถอยสันนี้มีแนวโน้มที่จะทำงานในลักษณะเดียวกัน" และสันเขานั้นอาจจะดีกว่าเพราะมันต่อเนื่อง ขอบคุณที่ทำให้ฉันซื่อสัตย์!
shadowtalker

คำตอบ:


7

คุณไม่ได้เลือกชุดย่อยของตัวแปร 99 (100-1) ดั้งเดิมของคุณ

องค์ประกอบหลักแต่ละรายการเป็นการรวมกันเชิงเส้นของตัวแปรทำนาย 99 ทั้งหมด (ตัวแปร x, IVs, ... ) ถ้าคุณใช้ครั้งแรก 40 ส่วนประกอบหลักในแต่ละส่วนของพวกเขาเป็นหน้าที่ของทุก 99 เดิมทำนายตัวแปร (อย่างน้อยกับ PCA ธรรมดา - มีเวอร์ชั่นที่กระจัดกระจาย / เป็นมาตรฐานเช่นSPCAของ Zou, Hastie และ Tibshirani ที่จะให้ส่วนประกอบตามตัวแปรที่น้อยลง)

พิจารณากรณีง่าย ๆ ของตัวแปรที่มีความสัมพันธ์เชิงบวกสองตัวซึ่งสำหรับความเรียบง่ายเราจะถือว่าเป็นตัวแปรที่เท่ากัน จากนั้นองค์ประกอบหลักแรกจะเป็น (เศษส่วน) ของผลรวมของทั้งสองตัวแปรและส่วนที่สองจะเป็น (เศษส่วน) ของความแตกต่างของทั้งสองตัวแปร; หากทั้งสองไม่ได้แปรผันเท่ากันส่วนประกอบหลักตัวแรกจะมีน้ำหนักมากขึ้นอีกตัวหนึ่งที่หนักกว่า แต่ก็จะยังคงเกี่ยวข้องกับทั้งคู่

ดังนั้นคุณเริ่มต้นด้วยตัวแปร 99 x ของคุณซึ่งคุณคำนวณส่วนประกอบหลัก 40 รายการโดยใช้น้ำหนักที่สอดคล้องกันกับตัวแปรดั้งเดิมแต่ละตัว [NB ในการสนทนาของฉันฉันถือว่าและนั้นอยู่กึ่งกลาง]yX

จากนั้นคุณใช้ตัวแปรใหม่ 40 ตัวราวกับว่าพวกมันเป็นตัวทำนายในแบบของตัวเองเช่นเดียวกับที่คุณมีปัญหาการถดถอยหลาย ๆ ครั้ง (ในทางปฏิบัติมีวิธีที่มีประสิทธิภาพมากกว่าในการประมาณค่า แต่ลองแยกแง่มุมการคำนวณออกจากกันและจัดการกับแนวคิดพื้นฐาน)

สำหรับคำถามที่สองของคุณยังไม่ชัดเจนว่าคุณหมายถึงอะไรโดย "การย้อนกลับของ PCA"

พีซีของคุณเป็นชุดค่าผสมของตัวแปรดั้งเดิม สมมติว่าความแปรปรวนดั้งเดิมของคุณอยู่ในและคุณคำนวณ (โดยที่คือและคือเมทริกซ์ซึ่งมีน้ำหนักส่วนประกอบหลักสำหรับองค์ประกอบที่คุณใช้) จากนั้นคุณ ประมาณการผ่านการถดถอยXZ=XWXn×99W99×4040y^=Zβ^PC

จากนั้นคุณสามารถเขียนพูด (ที่ไหน , แน่นอน) ดังนั้นคุณสามารถเขียนเป็นฟังก์ชันของตัวทำนายดั้งเดิมได้ ผมไม่ทราบว่าสิ่งที่คุณหมายโดย 'ย้อนกลับ' แต่มันเป็นวิธีที่มีความหมายที่จะดูที่ความสัมพันธ์ระหว่างเดิมและXมันไม่เหมือนกับค่าสัมประสิทธิ์ที่คุณได้รับจากการประมาณค่าการถดถอยของ X ดั้งเดิม - แน่นอนว่ามันเป็นมาตรฐานโดยการทำ PCA; แม้ว่าคุณจะได้ค่าสัมประสิทธิ์สำหรับ X ดั้งเดิมของคุณแต่ละตัวด้วยวิธีนี้พวกเขามีค่า df ของจำนวนส่วนประกอบที่คุณติดตั้งเท่านั้นy^=Zβ^PC=XWβ^PC=Xβ^β^=Wβ^PCyX

ยังเห็นวิกิพีเดียถดถอยองค์ประกอบหลัก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.