ลำดับของตัวแปรอธิบายมีความสำคัญเมื่อคำนวณสัมประสิทธิ์การถดถอยหรือไม่


24

ตอนแรกฉันคิดว่าคำสั่งไม่สำคัญ แต่จากนั้นฉันอ่านเกี่ยวกับกระบวนการ orthogonalization กรัมสำหรับการคำนวณค่าสัมประสิทธิ์การถดถอยหลายและตอนนี้ฉันมีความคิดที่สอง

ตามกระบวนการ gram-schmidt ตัวแปรที่อธิบายต่อมาถูกจัดทำดัชนีในหมู่ตัวแปรอื่น ๆ เวกเตอร์ที่เหลือของมันที่เล็กลงนั้นเป็นเพราะเวกเตอร์ที่เหลือของตัวแปรก่อนหน้านั้นจะถูกลบออกจากมัน ดังนั้นค่าสัมประสิทธิ์การถดถอยของตัวแปรอธิบายก็มีขนาดเล็กลงเช่นกัน

หากนั่นเป็นจริงเวกเตอร์ที่เหลือของตัวแปรนั้นจะใหญ่กว่าถ้ามันถูกจัดทำดัชนีไว้ก่อนหน้านี้เนื่องจากเวกเตอร์ที่เหลือน้อยกว่าจะถูกลบออกจากมัน ซึ่งหมายความว่าสัมประสิทธิ์การถดถอยจะใหญ่ขึ้นเช่นกัน

ตกลงดังนั้นฉันถูกขอให้อธิบายคำถามของฉัน ดังนั้นฉันจึงโพสต์ภาพหน้าจอจากข้อความที่ทำให้ฉันสับสนตั้งแต่แรก ตกลงไปเลย

ความเข้าใจของฉันคือว่ามีอย่างน้อยสองตัวเลือกในการคำนวณค่าสัมประสิทธิ์การถดถอย ตัวเลือกแรกจะแสดง (3.6) ในภาพหน้าจอด้านล่าง

วิธีแรก

นี่คือตัวเลือกที่สอง (ฉันต้องใช้หลายภาพหน้าจอ)

วิธีที่สอง

ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่

ถ้าฉันไม่ได้อ่านอะไรผิดพลาด (ซึ่งเป็นไปได้อย่างแน่นอน) ดูเหมือนว่าคำสั่งจะมีความสำคัญในตัวเลือกที่สอง มันมีความสำคัญในตัวเลือกแรกหรือไม่? ทำไมหรือทำไมไม่? หรือกรอบอ้างอิงของฉันสับสนหรือเปล่าว่านี่ไม่ใช่คำถามที่ถูกต้อง? นอกจากนี้ทั้งหมดนี้เกี่ยวข้องกับ Type I Sum of Squares หรือไม่กับ Type II Sum of Squares

ขอบคุณล่วงหน้ามากฉันสับสนมาก!


1
คุณช่วยอธิบายกระบวนการคำนวณสัมประสิทธิ์ที่แน่นอนได้อย่างไร จากสิ่งที่ฉันรู้เกี่ยวกับ gram-schmidt ortogonalisation และวิธีการใช้กับปัญหาการถดถอยฉันสามารถสันนิษฐานได้ว่าโดยใช้ขั้นตอน gs ที่คุณจะได้รับจากการถดถอย แต่ไม่ใช่สัมประสิทธิ์ดั้งเดิม โปรดทราบว่าการพอดีคือการฉายภาพไปยังพื้นที่ของคอลัมน์ หากคุณตั้งฉากคอลัมน์คุณจะได้ฐานมุมฉากของพื้นที่ซึ่งครอบคลุมคอลัมน์ดังนั้นความพอดีจะเป็นการรวมกันเชิงเส้นของฐานนี้และการรวมเชิงเส้นของคอลัมน์ดั้งเดิม มันจะเหมือนกัน ...
mpiktas

แต่ค่าสัมประสิทธิ์จะแตกต่างกัน นี่เป็นเรื่องปกติอย่างสมบูรณ์
mpiktas

ฉันเดาว่าฉันสับสนเพราะฉันคิดว่าฉันอ่านใน "องค์ประกอบของการเรียนรู้ทางสถิติ" ว่าค่าสัมประสิทธิ์ที่คำนวณโดยใช้กระบวนการแกรม - ชมิดท์จะเหมือนกับที่คำนวณโดยใช้กระบวนการดั้งเดิม: B = (X'X) ^ - 1 X'y
Ryan Zotti

นี่คือข้อความที่ตัดตอนมาจากหนังสือที่พูดเกี่ยวกับขั้นตอน: "เราสามารถดูการประเมิน [ของสัมประสิทธิ์] เป็นผลมาจากการใช้งานสองอย่างของการถดถอยอย่างง่ายขั้นตอนคือ: 1. ถดถอย x ต่อ 1 เพื่อผลิตส่วนที่เหลือ z = x - x ̄1; 2. ถอยหลัง y บน z ที่เหลือเพื่อให้สัมประสิทธิ์ βˆ1 สูตรนี้สรุปให้กับกรณีของอินพุต p ดังที่แสดงในอัลกอริทึม 3.1 โปรดทราบว่าอินพุต z0,...., zj − 1 ในขั้นตอน 2 เป็นมุมฉากดังนั้นค่าสัมประสิทธิ์การถดถอยอย่างง่ายที่คำนวณได้ก็มีค่าสัมประสิทธิ์การถดถอยหลายเท่า "
Ryan Zotti

มันยุ่งเล็กน้อยเมื่อฉันคัดลอกและวางลงในส่วนความคิดเห็นที่นี่ดังนั้นอาจจะเป็นการดีที่สุดที่จะดูที่แหล่งโดยตรง มันเป็นหน้า 53-54 ของ "องค์ประกอบของการเรียนรู้ทางสถิติ" ซึ่งสามารถใช้ได้อย่างอิสระสำหรับการดาวน์โหลดบนเว็บไซต์ของ Stanford: www-stat.stanford.edu/~tibs/ElemStatLearn
Ryan Zotti

คำตอบ:


22

ฉันเชื่อว่าความสับสนอาจเกิดขึ้นจากสิ่งที่เรียบง่ายกว่าเล็กน้อย แต่ก็ให้โอกาสที่ดีในการทบทวนเรื่องที่เกี่ยวข้อง

β^i แต่ที่เฉพาะที่ผ่านมาหนึ่ง β P , สามารถคำนวณทางนี้!

β^i=?y,zizi2,
β^p

โครงการ orthogonalization ที่ต่อเนื่อง (รูปแบบของ Gram - Schmidt orthogonalization) คือ (เกือบ) ผลิตเมทริกซ์และGคู่หนึ่งซึ่ง X = Z GZG ที่ Zคือ n × p ที่มีคอลัมน์ orthonormal และ G = ( g ฉันj )คือ p × pสามเหลี่ยมบน ฉันพูดว่า "เกือบ" เนื่องจากอัลกอริทึมเป็นเพียงการระบุ Zถึงบรรทัดฐานของคอลัมน์ซึ่งโดยทั่วไปจะไม่เป็นหนึ่ง แต่สามารถทำให้หน่วยบรรทัดฐานโดยการทำให้คอลัมน์เป็นปกติ .

X=ZG,
Zn×pG=(gij)p×pZG

สมมติว่าแน่นอนว่ามียศP nที่ไม่ซ้ำกันแก้ปัญหาน้อยสแควร์เป็นเวกเตอร์βที่แก้ระบบ X T X β = X T YXRn×ppnβ^

XTXβ^=XTy.

แทนและการใช้Z T Z = ฉัน (โดยการก่อสร้าง) เราได้รับ จีทีจีβ = G T Z T YX=ZGZTZ=I

GTGβ^=GTZTy,
Gβ^=ZTy.

Ggpp

gppβ^p=y,zp.
gpp=zpzi

β^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

XX(r)rβ^rβ^ryxr

การย่อยสลาย QR ทั่วไป

X

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^p

Xy^


6

βjβp

แบบฝึกหัด 3.4 ใน ESL

X

วิธีการแก้

X

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

QRX=QRQRQ=ZD1R=DΓDDjj=zj

β^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
β^p1βj

3

ทำไมไม่ลองและเปรียบเทียบล่ะ พอดีกับชุดของสัมประสิทธิ์การถดถอยจากนั้นเปลี่ยนคำสั่งและพอดีพวกเขาอีกครั้งและดูว่าพวกเขาแตกต่างกัน

@mpiktas ชี้ให้เห็นว่าไม่ชัดเจนว่าคุณกำลังทำอะไรอยู่

B(xx)B=(xy)(xx)

x1x2x1yx2yx1x2yx1x1x2


ผมคิดว่าย่อหน้าสุดท้ายของคุณอาจจะเป็นที่อยู่ใกล้กับแหล่งที่มาของความสับสนของฉัน - GS ไม่ทำให้เรื่องการสั่งซื้อ นั่นคือสิ่งที่ฉันคิดว่า. ฉันยังสับสนอยู่บ้างเพราะหนังสือที่ฉันกำลังอ่านเรียกว่า: "องค์ประกอบของการเรียนรู้ทางสถิติ" (สิ่งพิมพ์ของ Stanford ที่ให้บริการฟรี: www-stat.stanford.edu/~tibs/ElemStatLearn ) ดูเหมือนว่า แนะนำว่า GS นั้นเทียบเท่ากับวิธีมาตรฐานสำหรับการคำนวณค่าสัมประสิทธิ์; นั่นคือ B = (X'X) ^ - 1 X'y
Ryan Zotti

และส่วนหนึ่งของสิ่งที่คุณพูดทำให้ฉันสับสนเล็กน้อย: "ฉันเห็นการใช้ GS เพื่อแก้ปัญหา B ในสมการกำลังสองน้อยที่สุด (x′x) ^ - 1 B = (x′y) แต่แล้วคุณจะทำ GS บนเมทริกซ์ (x′x) ไม่ใช่ข้อมูลดั้งเดิม " ฉันคิดว่าเมทริกซ์ x'x มีข้อมูลต้นฉบับอยู่หรือไม่ ... อย่างน้อยนั่นคือสิ่งที่องค์ประกอบของการเรียนรู้ทางสถิติกล่าว มันบอกว่า x ใน x'x คือ N โดย p เมทริกซ์โดยที่ N คือจำนวนอินพุต (การสังเกต) และ p คือจำนวนมิติ
Ryan Zotti

หาก GS ไม่ใช่ขั้นตอนมาตรฐานสำหรับการคำนวณค่าสัมประสิทธิ์ดังนั้นการปรับความสัมพันธ์โดยทั่วไปจะปฏิบัติอย่างไร ความซ้ำซ้อน (collinearity) เป็นวิธีการกระจายในหมู่ของ x? การผสมกันแบบดั้งเดิมไม่ทำให้ค่าสัมประสิทธิ์ไม่เสถียรหรือไม่? ถ้าอย่างนั้นจะไม่แนะนำว่ากระบวนการ GS เป็นกระบวนการมาตรฐานหรือไม่ เนื่องจากกระบวนการ GS ทำให้ค่าสัมประสิทธิ์ไม่เสถียร - เวกเตอร์ที่เหลือขนาดเล็กทำให้ค่าสัมประสิทธิ์ไม่เสถียร
Ryan Zotti

อย่างน้อยนั่นคือสิ่งที่ข้อความกล่าวว่า "หาก xp มีความสัมพันธ์สูงกับบางส่วนของ xk ตัวอื่นเวกเตอร์ที่เหลือ zp จะใกล้เคียงกับศูนย์และจาก (3.28) ค่าสัมประสิทธิ์ βˆp จะไม่เสถียรมาก"
Ryan Zotti

2
โปรดทราบว่า GS เป็นรูปแบบของการย่อยสลาย QR
พระคาร์ดินัล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.