การจัดศูนย์กลางข้อมูลกำจัดการสกัดกั้นในการถดถอยและ PCA อย่างไร


38

ฉันได้อ่านเกี่ยวกับอินสแตนซ์ที่เราจัดเก็บข้อมูลไว้ (เช่นด้วยการทำให้เป็นมาตรฐานหรือ PCA) เพื่อที่จะลบการสกัดกั้น (ดังที่ได้กล่าวไว้ในคำถามนี้ ) ฉันรู้ว่ามันง่าย แต่ฉันมีเวลายากที่จะเข้าใจในเรื่องนี้ ใครสามารถให้สัญชาตญาณหรือการอ้างอิงที่ฉันสามารถอ่านได้?


2
นี้เป็นกรณีพิเศษมากของ "การควบคุมตัวแปรอื่น ๆ" ตามที่อธิบายไว้ (ในหลายวิธี) ที่stats.stackexchange.com/questions/17336/... "ตัวแปร" ที่ถูกควบคุมเพื่อเป็นคำที่คงที่ (สกัดกั้น)
whuber

คำตอบ:


63

รูปภาพเหล่านี้สามารถช่วยได้หรือไม่

ภาพแรก 2 ภาพเกี่ยวกับการถดถอย การจัดศูนย์กลางข้อมูลไม่ได้เปลี่ยนความชันของเส้นถดถอย แต่มันทำให้การสกัดกั้นเท่ากับ 0

ป้อนคำอธิบายรูปภาพที่นี่

1

ป้อนคำอธิบายรูปภาพที่นี่


1


1
y¯X¯β

15
PCA is maximizing varianceสิ่งนี้ไม่เป็นความจริง PCA เพิ่มความเบี่ยงเบนของผลรวมกำลังสองจากต้นกำเนิด เฉพาะในกรณีที่ข้อมูลถูกจัดกึ่งกลางเบื้องต้น (การรวมศูนย์ตัวเองไม่ใช่ส่วนหนึ่งของ PCA) จะกลายเป็นการเพิ่มความแปรปรวนสูงสุด
ttnphns

3
PS โปรดทราบว่าการคำนวณความแปรปรวนร่วมหรือสหสัมพันธ์หมายถึงการอยู่ตรงกลาง
ttnphns

1
> PS โปรดทราบว่าการคำนวณความแปรปรวนร่วมหรือสหสัมพันธ์นั้นหมายถึงการเป็นศูนย์กลาง - ttnphns 27 ส.ค. 2555 เวลา 11:47 ในขณะที่ฉันเห็นด้วยกับความคิดเห็นอื่น ๆ ของคุณความแปรปรวนร่วมและสหสัมพันธ์ไม่ได้หมายความว่าอยู่ตรงกลาง ค่าการเปลี่ยนแปลงคอร์และโควาร์ไม่ว่าจะเป็นค่าคงที่แบบเสริมเมื่อใช้กับข้อมูล
TPM

1
นี่คือถอยหลัง ค่าคงที่ที่เพิ่มจะไม่ส่งผลกระทบกับสหสัมพันธ์ แต่นั่นเป็นเพราะพวกมันถูกลบออกไปในการคำนวณตามที่ @ttphns ชี้ให้เห็น นั่นไม่ใช่คำตอบใหม่ แต่เป็นความคิดเห็น เราเข้าใจว่าคุณยังไม่มีชื่อเสียงเพียงพอที่จะแสดงความคิดเห็นดังนั้นฉันจึงเชื่อมั่นได้ว่าผู้ใช้รายนี้จะต้องประทับใจเมื่อได้ตั้งค่าสถานะแล้ว
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.