ทำไม Daniel Wilks (2011) ถึงบอกว่าการถดถอยองค์ประกอบหลัก“ จะลำเอียง”?

ในวิธีการทางสถิติในวิทยาศาสตร์บรรยากาศ , Daniel Wilks ตั้งข้อสังเกตว่าการถดถอยเชิงเส้นหลายครั้งสามารถนำไปสู่ปัญหาได้หากมีความสัมพันธ์ที่แข็งแกร่งมากระหว่างตัวทำนาย (รุ่นที่ 3, หน้า 559-560):

พยาธิสภาพที่สามารถเกิดขึ้นได้ในการถดถอยเชิงเส้นหลายครั้งคือชุดของตัวแปรทำนายที่มีความสัมพันธ์ซึ่งกันและกันอย่างรุนแรงอาจส่งผลให้การคำนวณความสัมพันธ์การถดถอยที่ไม่เสถียร

( ... )

จากนั้นเขาแนะนำการถดถอยองค์ประกอบหลัก:

แนวทางในการแก้ไขปัญหานี้คือการแปลงตัวทำนายเป็นองค์ประกอบหลักของพวกเขาก่อนความสัมพันธ์ระหว่างที่เป็นศูนย์

จนถึงตอนนี้ดีมาก แต่ต่อไปเขาสร้างข้อความบางส่วนที่เขาไม่ได้อธิบาย (หรืออย่างน้อยก็ไม่มีรายละเอียดเพียงพอสำหรับฉันที่จะเข้าใจ):

หากส่วนประกอบหลักทั้งหมดถูกเก็บรักษาไว้ในการถดถอยส่วนประกอบหลักแล้วจะไม่มีสิ่งใดได้รับจากกำลังสองน้อยที่สุดที่เป็นไปตามชุดตัวทำนายแบบเต็ม

(.. ) และ:

เป็นไปได้ที่จะแสดงการถดถอยหลัก - องค์ประกอบใหม่ในแง่ของตัวทำนายดั้งเดิม แต่ผลลัพธ์โดยทั่วไปจะเกี่ยวข้องกับตัวแปรตัวทำนายดั้งเดิมทั้งหมดแม้ว่าจะมีการใช้ตัวทำนายองค์ประกอบหลักเพียงหนึ่งหรือสามตัวเท่านั้น การถดถอยที่สร้างขึ้นใหม่นี้จะลำเอียงแม้ว่าบ่อยครั้งที่ความแปรปรวนน้อยกว่ามากส่งผลให้ MSE โดยรวมมีขนาดเล็กลง

ฉันไม่เข้าใจสองประเด็นนี้

แน่นอนถ้าส่วนประกอบหลักทั้งหมดยังคงอยู่เราจะใช้ข้อมูลเดียวกันกับตอนที่เราใช้ตัวทำนายในพื้นที่ดั้งเดิม อย่างไรก็ตามปัญหาของความสัมพันธ์ซึ่งกันและกันจะถูกลบออกโดยการทำงานในพื้นที่องค์ประกอบหลัก เราอาจยังมีกำลังมากเกินไป แต่นั่นเป็นปัญหาเดียวหรือไม่ ทำไมไม่มีอะไรได้รับ?

ประการที่สองแม้ว่าเราจะตัดทอนส่วนประกอบหลัก (อาจเป็นการลดเสียงรบกวนและ / หรือเพื่อป้องกันการโอเวอร์โหลด) ทำไมและวิธีนี้นำไปสู่การถดถอยที่สร้างใหม่แบบเอนเอียง? ลำเอียงในทางใด?

แหล่งที่มาของหนังสือ: Daniel S. Wilks, วิธีการทางสถิติในวิทยาศาสตร์บรรยากาศ, รุ่นที่สาม, 2011. ชุดธรณีฟิสิกส์สากลเล่มที่ 100, สื่อวิชาการ.

regression pca bias

— Gerrit
แหล่งที่มา

(+1) ในใบเสนอราคาที่สอง "จะลำเอียง" ไม่เป็นไปตามหลักเหตุผล: ควรมีข้อความที่รุนแรงกว่าเช่น "น่าจะมีอคติ" ฉันสงสัยว่าเหตุผลที่อยู่เบื้องหลังอาจเป็นอะไรบางอย่างตามแนวของ "เนื่องจาก PCR กำหนดความสัมพันธ์เชิงเส้นระหว่างการประมาณค่าพารามิเตอร์การประมาณการเหล่านั้นจะแตกต่างจากการประมาณของ OLS และเนื่องจากการประมาณ OLS นั้นไม่เอนเอียง โดยสัญชาตญาณมันเป็นฮิวริสติกที่ดี แต่ก็ไม่ค่อยถูกต้องนัก

— whuber

อาจกล่าวได้ว่า "PCR จะลำเอียง" ถ้า (a) จุดข้อมูลไม่ได้ใช้มิติเชิงเส้นที่ต่ำกว่าหรือเท่ากันกว่าจำนวน PC ที่เลือกและ (b) จุดข้อมูลนั้นไม่ได้แยกจากกันอย่างสมบูรณ์? หรืออย่างไร

— Soren Havelund Welling

จะเกิดอะไรขึ้นเมื่อใช้พีซีทั้งหมด

หากมีการใช้พีซีทั้งหมดค่าสัมประสิทธิ์การถดถอยที่ได้จะเหมือนกับค่าที่ได้จากการถดถอย OLS ดังนั้นขั้นตอนนี้ไม่ควรเรียกว่า "การถดถอยส่วนประกอบหลัก" มันคือการถดถอยมาตรฐานดำเนินการในวงเวียนเท่านั้น

$Z$ $Z$ $X$ $X_i$

ดังนั้นจึงไม่มีอะไรได้รับ

จะเกิดอะไรขึ้นเมื่อใช้พีซีเพียงไม่กี่เครื่อง

$\hat \beta_\mathrm{PCR}$ $\hat \beta_\mathrm{OLS}$ $\hat \beta$

นี่คือตัวอย่างของที่อคติแปรปรวนค้าปิด ดูเหตุใดการหดตัวจึงทำงาน สำหรับการสนทนาทั่วไปเพิ่มเติม

$y$ $y$ $y$

ทำไมการใช้พีซีที่มีความแปรปรวนสูงเป็นแนวคิดที่ดี

นี่ไม่ใช่ส่วนหนึ่งของคำถาม แต่คุณอาจสนใจในหัวข้อต่อไปนี้สำหรับการอ่านเพิ่มเติม: องค์ประกอบหลักด้านบนจะรักษาพลังการทำนายไว้ในตัวแปรตาม (หรือนำไปสู่การคาดการณ์ที่ดีกว่า) ได้อย่างไร?

— อะมีบาพูดว่า Reinstate Monica
แหล่งที่มา

Y

$Y$

Y

$Y$

@whuber แน่นอน ฉันได้เขียนย่อหน้าใหม่อีกครั้งหวังว่าตอนนี้จะสมเหตุสมผลมากกว่านี้ ขอบคุณ

— อะมีบาพูดว่า Reinstate Monica

อืมใช่แล้ว ความเอนเอียงหมายถึงบางประเด็นมีความเท่าเทียมกันมากกว่าประเด็นอื่นซึ่งเป็นสิ่งที่เราต้องการหากเราต้องการลดอิทธิพลของเสียงและค่าผิดปกติ (ซึ่งฉันยังไม่แน่ใจว่า PCA เป็นเครื่องมือที่ดีที่สุดหรือไม่)

— gerrit

@gerrit คุณเขียนราวกับว่าอคติเท่ากับการให้น้ำหนัก แต่พวกเขาแยกจากกัน อคติในบริบทนี้หมายถึงความแตกต่างระหว่างค่าที่คาดหวังของการประมาณค่าสัมประสิทธิ์กับค่าที่แท้จริง

— whuber

แบบจำลองสมมติว่าการตอบสนองเป็นตัวแปรสุ่ม สิ่งนี้ทำให้ค่าสัมประสิทธิ์โดยประมาณ - โดยใช้ขั้นตอนใดก็ได้ - ตัวแปรสุ่มเช่นกัน ค่าคาดหวังของพวกเขาถูกกำหนดเป็นตัวแปรสุ่มใด ๆ ตามคำจำกัดความอคติคือความแตกต่างระหว่างค่าที่คาดหวังและค่าที่แท้จริง การประมาณค่าสัมประสิทธิ์ OLS มีอคติเป็นศูนย์ ความเอนเอียงของขั้นตอนอื่นอาจยังคงเป็นศูนย์ ตรรกะของใบเสนอราคาคือขั้นตอนที่เป็นเชิงเส้นเช่น OLS แต่กำหนดความสัมพันธ์ระหว่างค่าสัมประสิทธิ์จะต้องลำเอียง ข้อสรุปนั้นเป็นจริงในหลายกรณี แต่ไม่ใช่ทั้งหมด

— whuber