สามารถสร้างมาตรฐาน


9

ฉันพยายามตีความผลลัพธ์ของบทความที่พวกเขาใช้การถดถอยหลายครั้งเพื่อทำนายผลลัพธ์ต่าง ๆ อย่างไรก็ตาม 's (ค่าสัมประสิทธิ์ B มาตรฐานกำหนดเป็นโดยที่นั้นขึ้นอยู่กับ ตัวแปรและเป็นตัวทำนาย) ที่รายงานดูเหมือนจะไม่ตรงกับที่รายงาน :ββx1=Bx1SDx1SDyyx1R2

ป้อนคำอธิบายรูปภาพที่นี่

แม้จะมีของ -0.83, -0.29, -0.16, -0.43, 0.25 และ -0.29 แต่รายงานมีค่าเพียง 0.20βR2

นอกจากนี้ผู้ทำนายทั้งสาม: น้ำหนักค่าดัชนีมวลกายและ% ไขมันเป็นหลายคอลลิแนร์มีความสัมพันธ์รอบ r = 0.8-0.9 ซึ่งกันและกันในเพศเดียวกัน

เป็นค่าเป็นไปได้กับเหล่านี้หรือไม่มีความสัมพันธ์แบบตรงระหว่าง 's และหรือไม่?R2ββR2

นอกจากนี้ปัญหาของตัวทำนายหลายค่าอาจส่งผลต่อของตัวทำนายที่สี่ (VO2max) ซึ่งสัมพันธ์กับ r = 0.4 ด้วยตัวแปรสามตัวดังกล่าวข้างต้นหรือไม่β


คืออะไรในบริบทนี้? สัมประสิทธิ์เบต้า (การถดถอยมาตรฐาน) หรืออย่างอื่น? ถ้าเป็นเช่นนั้นพวกเขาจะไม่สามารถพูดอะไรได้ทั้งหมดที่คุณได้รับคือการตีความในแง่ของการเบี่ยงเบนมาตรฐาน ความจริงที่ว่าสัมประสิทธิ์แสดงถึงเอฟเฟกต์ใหญ่ไม่ได้หมายความถึงค่าสูงβR2
Repmat

1
ßย่อมาจากค่าสัมประสิทธิ์ b มาตรฐาน สำหรับผู้ทำนาย 1 รายßเท่ากับ pearson's r ซึ่งสัมพันธ์โดยตรงกับ R-squared แต่ในกรณีหลายตัวแปรนี้ทำไมไม่สูงßก็แปลว่า R-squared สูง?
Sakari Jukarainen

2
ไม่ในกรณี regressor เดียวไม่เท่ากับสหสัมพันธ์ของเพียร์สัน:x) ความสัมพันธ์ระหว่าง s และนั้นไม่ง่ายเลย ββ=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Richard Hardy

5
@ RichardHardy ฉันสงสัยว่าความสับสนคือ Sakari ได้นิยามให้เป็นสัมประสิทธิ์การถดถอยมาตรฐาน ในการถดถอยเชิงเส้น bivariate สัมประสิทธิ์การถดถอย (ในสัญกรณ์ของ Sakari) คือโดยที่คือสหสัมพันธ์และส่วนเบี่ยงเบนมาตรฐาน ในการสร้างมาตรฐานสัมประสิทธิ์การถดถอยเราแบ่งสัมประสิทธิ์ด้วยค่าเบี่ยงเบนมาตรฐานของและคูณกับค่าเบี่ยงเบนมาตรฐานนั้นของดังนั้นเหลือเพียงค่าสหสัมพันธ์ Sakari ถูกต้อง βbrxysysxrsyx
Maarten Buis

ฉันยังไม่เห็นว่าทำไมคุณคิดว่าสิ่งนี้ผิด หากมีสถิติสรุปบางอย่างในกระดาษคุณสามารถตรวจสอบว่ามีตัวเลขเพิ่มขึ้นหรือไม่ คุณยังให้สูตรที่จะทำ คุณไม่สามารถสรุปได้เพราะเอฟเฟ็กต์มีขนาดใหญ่ในแง่ abosulte แบบจำลองนั้นทำงานได้ดีในการอธิบายความแปรปรวนใน y
Repmat

คำตอบ:


17

การตีความทางเรขาคณิตของการถดถอยกำลังสองน้อยที่สุดให้มุมมองที่จำเป็น

ส่วนใหญ่ของสิ่งที่เราจำเป็นต้องรู้สามารถเห็นได้ในกรณีของสอง regressors x1 และ x2 ด้วยการตอบสนอง y. สัมประสิทธิ์มาตรฐานหรือ "เบต้า" เกิดขึ้นเมื่อทั้งสามเวกเตอร์มีมาตรฐานความยาวที่พบบ่อย (ซึ่งเราอาจต้องใช้เวลาที่จะเป็นความสามัคคี) ดังนั้น,x1 และ x2 เป็นเวกเตอร์หน่วยในระนาบ E2- พวกเขาอยู่ในวงกลมหน่วย - และ y เป็นเวกเตอร์หน่วยในปริภูมิแบบยุคลิดแบบสามมิติ E3มีเครื่องบินลำนั้น ค่าติดตั้งy^ เป็นมุมฉาก (ตั้งฉาก) การฉายของ y ไปยัง E2. เพราะR2 ความยาวกำลังสองของ y^เราไม่ต้องการแม้แต่จะมองเห็นทั้งสามมิติ: ข้อมูลทั้งหมดที่เราต้องการสามารถวาดลงในระนาบนั้นได้

รีจิสเตอร์แบบมุมฉาก

สถานการณ์ที่ดีที่สุดคือเมื่อรีจีสเตอร์เป็นฉากฉากในรูปแรก

รูปที่ 1 แสดง regressors และ $ \ hat y $ เป็นพาหะในเครื่องบิน

ในภาพนี้และส่วนที่เหลือฉันจะวาดดิสก์ยูนิตเป็นสีขาวและ regressors อย่างต่อเนื่องเป็นลูกศรสีดำ x1จะชี้ไปทางขวาเสมอ ลูกศรสีแดงหนาแสดงถึงองค์ประกอบของy^ ใน x1 และ x2 เส้นทาง: นั่นคือ β1x1 และ β2x2. ความยาวของy^ คือรัศมีของวงกลมสีเทาที่อยู่ - แต่จำไว้ R2เป็นตารางของความยาวที่

พีทาโกรัสทฤษฎีบทอ้าง

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

เนื่องจากทฤษฎีบทพีทาโกรัสมีอยู่ในมิติใด ๆ การใช้เหตุผลนี้ทำให้จำนวนผู้ลงทะเบียนทุกคนยอมให้ผลลัพธ์แรกของเรา:

เมื่อ regressors เป็นมุมฉาก R2 เท่ากับผลรวมของกำลังสองของ betas

ผลทันทีคือเมื่อมีเพียงหนึ่ง regressor - univariate ถดถอย -R2 คือกำลังสองของความชันมาตรฐาน

ความสัมพันธ์

regressors ที่มีความสัมพันธ์เชิงลบจะพบกันที่มุมที่มากกว่ามุมฉาก

รูปที่ 2 แสดง regressors ที่มีความสัมพันธ์เชิงลบ

เห็นได้ชัดในภาพนี้ว่าผลรวมของกำลังสองของเบต้านั้นมีค่ามากกว่า R2. สิ่งนี้สามารถพิสูจน์ได้เกี่ยวกับพีชคณิตโดยใช้กฎของโคไซน์หรือโดยการทำงานกับเมทริกซ์ของสมการปกติ

โดยการทำให้สองตัวตั้งค่าเกือบขนานกันเราสามารถจัดตำแหน่ง y^ ใกล้แหล่งกำเนิด (สำหรับ R2 ใกล้ 0) ในขณะที่ยังคงมีองค์ประกอบขนาดใหญ่ใน x1 และ x2ทิศทาง. ดังนั้นจึงไม่มีการ จำกัด ขนาดที่เล็กR2 อาจจะ.

รูป

เรามารำลึกถึงผลลัพธ์ที่เห็นได้ชัดนี้สิ่งที่เกิดขึ้นทั่วไปครั้งที่สองของเรา:

เมื่อ regressors สัมพันธ์กัน R2 อาจเล็กกว่าผลรวมของกำลังสองของพล

อย่างไรก็ตามนี่ไม่ใช่ความสัมพันธ์ที่เป็นสากลตามที่แสดงให้เห็นต่อไป

รูปที่ 3 แสดง regressors สัมพันธ์เชิงลบ แต่ betas มีสัญญาณตรงข้าม

ตอนนี้ R2เกินกว่าผลรวมของกำลังสองของเบต้าอย่างเคร่งครัด โดยการวาดสอง regressors ชิดกันและรักษาy^ ระหว่างพวกเขาเราอาจทำให้ betas เข้าใกล้ทั้งคู่ 1/2แม้เมื่อ R2 อยู่ใกล้กับ 1. การวิเคราะห์เพิ่มเติมอาจต้องใช้พีชคณิต: ฉันทำด้านล่าง

ฉันปล่อยให้จินตนาการของคุณสร้างตัวอย่างที่คล้ายกันกับ regressors ที่มีความสัมพันธ์เชิงบวกซึ่งจะพบกันที่มุมแหลม

โปรดสังเกตว่าข้อสรุปเหล่านี้ไม่สมบูรณ์: มีข้อ จำกัด เกี่ยวกับจำนวนที่น้อยลง R2อาจเปรียบเทียบกับผลรวมของกำลังสองของ betas โดยเฉพาะอย่างยิ่งโดยการตรวจสอบความเป็นไปได้อย่างรอบคอบคุณอาจสรุป (สำหรับการถดถอยด้วยสองถดถอย) ว่า

เมื่อ regressors มีความสัมพันธ์เชิงบวกและ betas มีสัญญาณทั่วไปหรือเมื่อ regressors สัมพันธ์เชิงลบและ betas มีอาการต่างกัน R2 อย่างน้อยต้องใหญ่เท่ากับผลรวมของสี่เหลี่ยมจัตุรัส


ผลลัพธ์เกี่ยวกับพีชคณิต

โดยทั่วไปให้ regressors เป็น (เวกเตอร์คอลัมน์) x1,x2,,xp และการตอบสนองเป็น y. การทำให้เป็นมาตรฐานหมายถึง (a) แต่ละอันตั้งฉากกับเวกเตอร์(1,1,,1) และ (b) มีความยาวหน่วย:

|xi|2=|y|2=1.

รวบรวมเวกเตอร์คอลัมน์ xi เป็น n×p มดลูก X. กฎของการคูณเมทริกซ์บ่งบอกว่า

Σ=XX

เป็นเมทริกซ์สหสัมพันธ์ของ xi. Betas ได้รับจากสมการปกติ

β=(XX)1Xy=Σ1(Xy).

ยิ่งไปกว่านั้นตามความหมายพอดีคือ

y^=Xβ=X(Σ1Xy).

ความยาวกำลังสองของมันให้ R2 ตามคำนิยาม:

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

การวิเคราะห์ทางเรขาคณิตแนะนำให้เรามองหาความไม่เท่าเทียมที่เกี่ยวข้อง R2 และผลรวมของกำลังสองของ betas

i=1pβi2=ββ.

L2 บรรทัดฐานของเมทริกซ์ใด ๆ A ได้มาจากผลรวมของกำลังสองของสัมประสิทธิ์ (โดยทั่วไปถือว่าเมทริกซ์เป็นเวกเตอร์ของ p2 ส่วนประกอบในปริภูมิแบบยุคลิด)

|A|22=i,jaij2=tr(AA)=tr(AA).

ความไม่เท่าเทียมกันของ Cauchy-Schwarz

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

เนื่องจากสัมประสิทธิ์สหสัมพันธ์กำลังสองต้องไม่เกิน 1 และมีเพียง p2 ของพวกเขาใน p×p มดลูก Σ, |Σ|2 ต้องไม่เกิน 1×p2=p. ดังนั้น

R2pββ.

ความไม่เท่าเทียมเกิดขึ้นได้เช่นเมื่อทุกสิ่ง xi มีความสัมพันธ์เชิงบวกอย่างสมบูรณ์

มีขีด จำกัด สูงสุดว่าขนาดใหญ่เพียงใด R2อาจจะ. ค่าเฉลี่ยต่อการถดถอยR2/pต้องไม่เกินผลรวมของกำลังสองของสัมประสิทธิ์มาตรฐาน


สรุปผลการวิจัย

โดยทั่วไปแล้วเราจะสรุปอะไรได้บ้าง? เห็นได้ชัดว่าข้อมูลเกี่ยวกับโครงสร้างความสัมพันธ์ของ regressors เช่นเดียวกับสัญญาณของ betasสามารถใช้เพื่อผูกค่าที่เป็นไปได้ของR2หรือแม้กระทั่งการคำนวณอย่างแน่นอน ไม่มีข้อมูลที่สมบูรณ์สามารถพูดได้น้อยกว่าความจริงที่เห็นได้ชัดว่าเมื่อรีจีสเตอร์มีความเป็นอิสระในเชิงเส้นตรงเบต้าที่ไม่ใช่ศูนย์เดียวก็หมายถึงy^ ไม่ใช่ศูนย์แสดงให้เห็น R2 ไม่ใช่ศูนย์

สิ่งหนึ่งที่เราสามารถสรุปได้อย่างแน่นอนจากผลลัพธ์ในคำถามคือข้อมูลมีความสัมพันธ์กัน: เนื่องจากผลรวมของกำลังสองของ betas เท่ากับ 1.1301เกินค่าสูงสุดที่เป็นไปได้ของ R2 (คือ 1) ต้องมีความสัมพันธ์กันบ้าง

อีกสิ่งหนึ่งก็คือเนื่องจากเบต้าที่ใหญ่ที่สุด (ขนาด) คือ 0.83ซึ่งเป็นสี่เหลี่ยมจัตุรัส 0.69- ไกลเกินกว่ารายงาน R2 ของ 0.20- เราอาจสรุปได้ว่าผู้ลงทะเบียนบางรายต้องมีความสัมพันธ์เชิงลบ (ในความเป็นจริง,VO2max มีความสัมพันธ์เชิงลบอย่างมากกับอายุน้ำหนักและไขมันในตัวอย่างใด ๆ ที่ครอบคลุมค่านิยมที่หลากหลายในช่วงหลัง)

หากมีเพียงสอง regressors เราสามารถอนุมานมากขึ้นเกี่ยวกับ R2 จากความรู้เกี่ยวกับสหสัมพันธ์ถดถอยสูงและการตรวจสอบของ betas เพราะสิ่งนี้จะช่วยให้เราสามารถวาดร่างที่ถูกต้องของวิธีการ x1, x2และ y^จะต้องตั้งอยู่ น่าเสียดายที่ผู้ลงทะเบียนเพิ่มเติมในปัญหาหกตัวแปรนี้มีความซับซ้อนมาก ในการวิเคราะห์ตัวแปรสองตัวใด ๆ เราต้อง "take out" หรือ "control for" อีกสี่ regressors ("covariates") ในการทำเช่นนั้นเราย่อทั้งหมดx1, x2และ yตามจำนวนที่ไม่รู้จัก (ขึ้นอยู่กับว่าทั้งสามเกี่ยวข้องกับ covariates อย่างไร) ทำให้เราไม่รู้อะไรเลยเกี่ยวกับขนาดที่แท้จริงของเวกเตอร์ที่เราทำงานด้วย


+1 แต่ฉันไม่เข้าใจว่าทำไมคุณจึงฉายในกรณีที่ไม่ใช่แบบมุมฉาก y^เวกเตอร์ตั้งฉากกับแกนทำนายเมื่อเทียบกับการทำให้เส้นประยื่นออกไปขนานกับตัวทำนายอื่น ฟังดูยุ่งยาก แต่ฉันคิดว่าคุณจะเห็นว่าฉันหมายถึงอะไร "การฉายภาพ" (เวกเตอร์สีแดงขนาดเล็กสองอัน) ของคุณไม่ได้ขึ้นอยู่กับการได้รับสีแดงขนาดใหญ่y^เวกเตอร์
อะมีบา

@amoeba คุณพูดถูก ฉันรีบร้อนเกินไปในการสร้างภาพเหล่านี้! ฉัน (หวังว่าจะเป็นการชั่วคราว) ลบโพสต์นี้จนกว่าฉันจะมีโอกาสแก้ไขปัญหา ขอบคุณที่ชี้นำสิ่งนี้
whuber

@ Amoeba ฉันได้แก้ไขรูปภาพและแก้ไขการวิเคราะห์เพื่อให้ตรงกับพวกเขา แม้ว่ารายละเอียดมีการเปลี่ยนแปลงอย่างมีนัยสำคัญข้อสรุปยังคงเหมือนเดิม
whuber

1
@amoeba อีกครั้งคุณถูกต้อง มีความเสี่ยงที่จะสูญเสียผู้อ่านที่สนใจ แต่ตอนนี้รู้สึกว่าถูกบังคับให้ต้องใช้สัญชาตญาณเชิงปริมาณฉันได้สรุปข้อสรุปนั้นและทำให้มันถูกต้องด้วยพีชคณิตเล็กน้อย (ฉันเชื่อว่าพีชคณิตถูกต้อง!)
whuber

1
ขอบคุณมาก! ในฐานะ sidenote, VO2max มีความสัมพันธ์เชิงลบกับน้ำหนักและ BMI เนื่องจากมีความสัมพันธ์กับมวลร่างกายที่สูงขึ้น ในตารางดังกล่าว VO2max จริง ๆ แล้วสอดคล้องกับ VO2max หารด้วยน้ำหนัก (ซึ่งเป็นวิธีที่ไม่ดีในการปรับขนาด VO2max กับขนาดของร่างกาย) VO2max / น้ำหนักในตารางมีความสัมพันธ์เชิงลบกับตัวทำนายอื่น ๆ ทั้งหมดยกเว้นเพศซึ่งอาจอธิบายค่าสูง แต่ต่ำ R-squared ตามที่คุณกล่าวถึง
Sakari Jukarainen
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.