วิธีใช้การวิเคราะห์องค์ประกอบหลักเพื่อเลือกตัวแปรสำหรับการถดถอย


12

ฉันกำลังใช้การวิเคราะห์องค์ประกอบหลักเพื่อเลือกตัวแปรที่จะใช้ในการสร้างแบบจำลอง ในตอนนี้ฉันทำการวัด A, B และ C ในการทดลองของฉัน - สิ่งที่ฉันอยากรู้คือฉันสามารถทำการวัดน้อยลงและหยุดการบันทึก C และหรือ B เพื่อประหยัดเวลาและความพยายามได้หรือไม่?

ฉันพบว่าตัวแปรทั้ง 3 ตัวโหลดอย่างหนักในองค์ประกอบหลักตัวแรกซึ่งคิดเป็น 60% ของความแปรปรวนในข้อมูลของฉัน คะแนนองค์ประกอบบอกฉันว่าถ้าฉันเพิ่มตัวแปรเหล่านี้เข้าด้วยกันในอัตราส่วนที่แน่นอน (aA + bB + cC) ฉันสามารถรับคะแนนบน PC1 สำหรับแต่ละกรณีในชุดข้อมูลของฉันและสามารถใช้คะแนนนี้เป็นตัวแปรในการสร้างแบบจำลอง แต่นั่นไม่อนุญาตให้ฉันหยุดการวัด B และ C

ถ้าฉันยกกำลังสองของ A และ B และ C บน PC1 ฉันพบว่าตัวแปร A คิดเป็น 65% ของความแปรปรวนใน PC1 และตัวแปร B คิดเป็น 50% ของความแปรปรวนใน PC1 และตัวแปร C ยัง 50% เช่น ของความแปรปรวนใน PC1 ซึ่งแต่ละตัวแปร A, B และ C ใช้ร่วมกันกับตัวแปรอื่น แต่ A ออกมาในการบัญชีสูงสุดสำหรับอีกเล็กน้อย

ฉันคิดว่าฉันสามารถเลือกตัวแปร A หรืออาจเป็นไปได้ (aA + bB หากจำเป็น) เพื่อใช้ในการสร้างแบบจำลองเพราะตัวแปรนี้อธิบายถึงความแปรปรวนใน PC1 เป็นส่วนใหญ่และสิ่งนี้จะอธิบายถึงความแปรปรวนในสัดส่วนที่มาก ข้อมูล?

คุณเคยเข้าใกล้แนวทางใดในอดีต?

  • ตัวแปรเดี่ยวที่โหลดหนักที่สุดใน PC1 แม้ว่าจะมีรถตักหนักอื่น ๆ ?
  • คะแนนขององค์ประกอบบน PC1 โดยใช้ตัวแปรทั้งหมดแม้ว่าจะเป็นรถตักหนักทั้งหมดหรือไม่

คำตอบ:


14

คุณไม่ได้ระบุสิ่งที่ "การสร้างแบบจำลอง" คุณวางแผนที่จะ แต่เสียงเหมือนคุณกำลังถามเกี่ยวกับวิธีการเลือกอิสระตัวแปรในหมู่,และสำหรับวัตถุประสงค์ของการ (พูด) ถอยสี่ขึ้นอยู่กับตัวแปรกับพวกเขาABCW

หากต้องการดูว่าวิธีการนี้อาจผิดพลาดให้พิจารณาตัวแปรอิสระที่แจกแจงปกติสามตัวคือ ,และมีความแปรปรวนของหน่วย สำหรับโมเดลพื้นฐานที่แท้จริงเลือกค่าคงที่ขนาดเล็กค่าคงที่ขนาดเล็กมากและปล่อยให้ (ตัวแปรตาม) (บวกความผิดพลาดเล็กน้อยที่เป็นอิสระจาก , , และ )XYZβ1ϵβW=ZXYZ

สมมติว่าตัวแปรอิสระที่คุณต้องมี ,และZ แล้วและมีความสัมพันธ์อย่างมาก (ขึ้นอยู่กับความแปรปรวนของข้อผิดพลาด) เพราะแต่ละอยู่ใกล้กับหลายของZอย่างไรก็ตามเป็น uncorrelated กับทั้งของหรือBเพราะมีขนาดเล็กซึ่งเป็นองค์ประกอบหลักเป็นครั้งแรกสำหรับขนานกับกับ eigenvalue\ และโหลดอย่างหนักในส่วนนี้และA=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βABCไม่โหลดเลยเพราะเป็นอิสระจาก (และ ) อย่างไรก็ตามหากคุณกำจัดออกจากตัวแปรอิสระโดยเหลือเพียงและคุณจะทิ้งข้อมูลทั้งหมดเกี่ยวกับตัวแปรตามเพราะ ,และเป็นอิสระ!XYCABWAB

ตัวอย่างนี้แสดงว่าสำหรับการถดถอยคุณต้องการให้ความสนใจว่าตัวแปรอิสระมีความสัมพันธ์กับตัวแปรที่สัมพันธ์กันอย่างไร คุณไม่สามารถหนีไปได้ด้วยการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรอิสระ


1
นี่ควรเป็นไม่ใช่หรือไม่ A=X+ϵYZ+ϵY
shabbychef

@ shabby ใช่ขอบคุณ (ฉันต้องเปลี่ยนชื่อตัวแปรทั้งหมดในร่างเพื่อให้ตรงกับชื่อของ OP และทำให้มันยุ่งเหยิงนี้ขึ้นมา)
whuber

4

หากคุณมีเพียง 3 IVs ทำไมคุณต้องการลดลง

นั่นคือตัวอย่างของคุณมีขนาดเล็กมาก (ดังนั้น 3 IVs มีความเสี่ยงสูงเกินไป)? ในกรณีนี้ให้พิจารณากำลังสองน้อยที่สุดบางส่วน

หรือการวัดมีราคาแพงมาก (ดังนั้นในอนาคตคุณต้องการวัดเพียง IV เดียว) ในกรณีนี้ฉันจะพิจารณาดูความถดถอยที่แตกต่างกันในแต่ละ IV และแยกกัน

หรือมีใครบางคนในอดีตที่คุณเน้นคุณค่าของความน่าสนใจ ในกรณีนี้ทำไมไม่รวมทั้ง 3 IV

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.