ความสัมพันธ์ระหว่าง R-squared และ p-value ในการถดถอยคืออะไร?


17

tl; dr - สำหรับการถดถอยของ OLS ค่า R-squared ที่สูงขึ้นนั้นแสดงถึงค่า P ที่สูงขึ้นด้วยหรือไม่ โดยเฉพาะสำหรับตัวแปรอธิบายเดี่ยว (Y = a + bX + e) ​​แต่ก็สนใจที่จะทราบสำหรับตัวแปรอธิบายหลายตัวแปร (Y = a + b1X + ... bnX + e)

บริบท - ฉันกำลังดำเนินการถดถอย OLS ในช่วงของตัวแปรและกำลังพยายามพัฒนารูปแบบการอธิบายที่ดีที่สุดโดยสร้างตารางที่มีค่า R-squared ระหว่างเส้นตรงลอการิทึม ฯลฯ การแปลงของตัวแปรอธิบาย (อิสระ) แต่ละตัว และตัวแปรตอบกลับ (ขึ้นอยู่กับ) ดูเหมือนว่า:

ชื่อตัวแปร - รูปแบบเชิงเส้น - --ln (ตัวแปร) --exp (ตัวแปร) - ... ฯลฯ

ตัวแปร 1 ------- R-squared ---- R-squared ---- R-squared -
... ฯลฯ ...

ฉันสงสัยว่า R-squared นั้นเหมาะสมหรือว่า P-values ​​จะดีกว่า สันนิษฐานว่ามีความสัมพันธ์บางอย่างเนื่องจากความสัมพันธ์ที่มีนัยสำคัญยิ่งกว่าจะบ่งบอกถึงอำนาจการอธิบายที่สูงขึ้น แต่ไม่แน่ใจว่าเป็นจริงในลักษณะที่เข้มงวด


คำตอบ:


15

คำตอบคือไม่ไม่มีความสัมพันธ์ปกติระหว่างR2กับค่า p-value การถดถอยโดยรวมเนื่องจากR2ขึ้นอยู่กับความแปรปรวนของตัวแปรอิสระมากเท่ากับที่ทำกับความแปรปรวนของค่าตกค้าง ตามสัดส่วน) และคุณมีอิสระที่จะเปลี่ยนความแปรปรวนของตัวแปรอิสระตามจำนวนที่กำหนด

ตัวอย่างเช่นการพิจารณาใด ๆชุดของข้อมูลหลายตัวแปร((xi1,xi2,,xip,yi))กับiทำดัชนีกรณีและคิดว่าชุดของค่าของตัวแปรอิสระแรก{xi1}มีสูงสุดที่ไม่ซ้ำกันxแยกออกมาจากที่สองที่มีมูลค่าสูงสุดตามจำนวนเงินที่บวกεϵใช้การแปลงแบบไม่เป็นเชิงเส้นของตัวแปรแรกที่ส่งค่าทั้งหมดน้อยกว่าxϵ/2ในช่วง[0,1]และส่งxตัวเองไปบางค่าขนาดใหญ่M1 1 สำหรับเช่นMนี้สามารถทำได้โดยการปรับขนาด (สัดส่วน) Box-Coxxa((xx0)λ1)/(λ1)) , ดังนั้นเราไม่ได้พูดถึง อะไรที่แปลกหรือ "พยาธิวิทยา" จากนั้นเป็นMเติบโตขนาดใหญ่พลR2วิธี1อย่างใกล้ชิดในขณะที่คุณโปรดโดยไม่คำนึงถึงวิธีการที่ไม่ดีพอดีเป็นเพราะความแปรปรวนของที่เหลือจะถูกล้อมรอบในขณะที่ความแปรปรวนของตัวแปรอิสระครั้งแรกเป็นสัดส่วน asymptotically เพื่อM2 2


คุณควรจะใช้แทนความดีของการทดสอบพอดี (ในเทคนิคอื่น ๆ ) เพื่อเลือกรูปแบบที่เหมาะสมในการสำรวจของคุณ: คุณควรจะมีความกังวลเกี่ยวกับความเป็นเชิงเส้นของความพอดีและของhomoscedasticityของคลาดเคลื่อน และอย่าใช้ค่า p ใด ๆ จากการถดถอยที่เกิดขึ้นกับความน่าเชื่อถือ: พวกเขาจะเกือบไร้ความหมายหลังจากที่คุณผ่านการฝึกหัดนี้เพราะการตีความของพวกเขาถือว่าตัวเลือกในการแสดงตัวแปรอิสระไม่ได้ขึ้นอยู่กับค่าของ ตัวแปรตามทั้งหมดซึ่งไม่ได้เป็นอย่างนี้


10

คำตอบนี้ไม่ได้ตอบคำถามกลางโดยตรง มันไม่มีอะไรมากไปกว่าข้อมูลเพิ่มเติมที่ยาวเกินไปสำหรับความคิดเห็น

ผมชี้ให้เห็นนี้เพราะ econometricstatsquestion จะไม่มีข้อสงสัยพบข้อมูลนี้หรือสิ่งที่ชอบในบางจุด (ระบุว่าและR 2จะเกี่ยวข้อง) และสงสัยว่าข้อมูลที่ได้รับในคำตอบอื่น ๆ ที่นี่เป็นสิ่งที่ผิด - มันไม่ผิด - แต่ฉันคิดว่า มันจ่ายให้ชัดเจนเกี่ยวกับสิ่งที่เกิดขึ้นFR2

มีความสัมพันธ์ภายใต้สถานการณ์เฉพาะ หากคุณถือจำนวนการสังเกตและจำนวนผู้ทำนายที่ได้รับการแก้ไขสำหรับแบบจำลองที่กำหนดคือความจริงที่เกี่ยวกับเสียงเดียวในR 2เนื่องจากFR2

F=R2/(k1)(1R2)/(Nk)

(ถ้าคุณหารเศษและส่วนด้วยและดึงค่าคงที่เป็นkคุณจะเห็นว่า1 / F 1 / R 2 - 1หากคุณมีค่าคงที่Nและk )R2k1/F1/R21Nk

ตั้งแต่คง DF และ p-value ที่เกี่ยวข้อง monotonically, R 2และพี -value ยังเกี่ยวข้อง monotonicallyFR2p

แต่เปลี่ยนแปลงอะไรก็ได้เกือบทุกอย่างเกี่ยวกับแบบจำลองและความสัมพันธ์นั้นไม่ได้อยู่ในสถานการณ์ที่เปลี่ยนแปลงไป

ตัวอย่างเช่นการเพิ่มจุดทำให้มีขนาดใหญ่ขึ้นและการลบออกทำให้มีขนาดเล็กลง แต่การทำอย่างใดอย่างหนึ่งสามารถเพิ่มหรือลดR 2ได้ดังนั้นดูเหมือนว่าFและR 2ไม่จำเป็นต้องเคลื่อนไหวร่วมกัน คุณเพิ่มหรือลบข้อมูล การเพิ่มตัวแปรลดลง( N - k ) / ( k - 1 )แต่เพิ่มR 2 (และในทางกลับกัน) ดังนั้นอีกครั้งR 2ไม่จำเป็นต้องเกี่ยวข้องกับ(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2เมื่อคุณทำเช่นนั้นF

เห็นได้ชัดว่าเมื่อคุณเปรียบเทียบและพี -values ข้ามรุ่นที่มีลักษณะแตกต่างกันความสัมพันธ์นี้ไม่จำเป็นต้องถือเป็น whuber พิสูจน์ในกรณีของการเปลี่ยนแปลงเชิงR2p


ฉันไม่เห็นด้วยกับคุณ แต่ดูเหมือนว่าคุณจะตอบคำถามที่แตกต่างจากที่ฉันทำ ต้องใช้เวลาอ่านบ้าง แต่ฉันสรุปว่าคำถามถามเกี่ยวกับความสัมพันธ์ถ้ามีระหว่างและR 2เมื่อตัวแปรอิสระ (caeteris paribus) ถูกเปลี่ยนแบบไม่เชิงเส้น มันก็ต่อเมื่อตัวแปรเหล่านั้นไม่มีการเปลี่ยนแปลง - หรือในที่สุดการแปลงเชิงเส้นระหว่างตัวเอง - ที่เราสามารถพูดอะไรก็ได้เกี่ยวกับความสัมพันธ์ดังกล่าว นั่นเป็นส่วนหนึ่งของความรู้สึกที่ฉันคิดว่าการคัดเลือกของคุณ "สำหรับรุ่นที่กำหนด" นั้นจะต้องมีความเข้าใจ pR2
whuber

ฉันกำลังตอบคำถามอื่น และฉันเชื่อว่าการตีความความหมายของคุณถูกต้อง ฉันเป็นกังวลมากขึ้นว่าปัญหาดังกล่าวเป็นสิ่งที่ฉันยกขึ้นจะนำไปสู่ความสับสนหากไม่ได้อธิบาย คะแนนทั้งหมดของคุณถือไว้เพื่อความเข้าใจของฉัน (ตอนนี้ฉันกังวลจริง ๆ แล้วว่าคำตอบของฉันอาจไม่ตอบสนองอย่างที่ฉันหวังไว้ แต่แค่ทำให้สับสนคุณคิดว่ามีการดัดแปลงที่เหมาะสมที่จะช่วยได้หรือไม่ฉันควรลบไหม)
Glen_b -Reinstate Monica

ฉันเกลียดที่จะเห็นมันถูกลบไปแล้วเกลน หากคุณตั้งใจจะทำการเปลี่ยนแปลงลองพิจารณาให้ชัดเจนยิ่งขึ้นว่าคุณกำลังเขียนประเด็นใดในประเด็นนี้ ( เช่นคุณหมายถึงอะไรโดย "แบบจำลองที่กำหนด" และสิ่งที่คุณคำนึงถึงเกี่ยวกับแบบจำลองที่มี "คุณสมบัติที่แตกต่าง") นี่คือจิตวิญญาณ (การทำงานร่วมกันไม่สำคัญ) ที่ฉันเสนอความคิดเห็นของฉัน
whuber

ฉันไม่รู้สึกว่าถูกวิพากษ์วิจารณ์จากคุณ - ดูเหมือนว่าคุณจะชัดเจนและไม่มีอะไรเพิ่มเติม - แต่ความต้องการมันเน้นถึงความไม่เพียงพอในคำตอบที่ฉันกังวลก่อนที่คุณจะแสดงความคิดเห็น ความคลุมเครือของ 'คุณสมบัติที่แตกต่าง' เป็นเพราะมันเป็นเรื่องทั่วไปที่ค่อนข้างแตกต่างกันมาก (ฉันยังให้ตัวอย่างของสิ่งที่ง่ายเหมือนการลบจุดหรือเพิ่มตัวแปรเพื่อแสดงให้เห็นว่าคนน้อยต้องการเปลี่ยนแปลง) สามารถสร้างความสัมพันธ์แบบโมโนโทนิก ระเหย. ฉันจะคิดว่าฉันจะพูดอะไรอีก
Glen_b -Reinstate Monica

+1 for the edit: these are valuable comments and it's especially useful to see the formula for F appear.
whuber

3

"for OLS regression, does a higher R-squared also imply a higher P-value? Specifically for a single explanatory variable (Y = a + bX + e) "

R2FtR2pt and R2 is:

|t|=R2(1R2)(n2)

So in this case, once you fix n, the higher the R2 the higher the t statistic and the lower the p-value.

"but would also be interested to know for n multiple explanatory variables (Y = a + b1X + ... bnX + e)."

The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence the F statistic, as Glen_b has shown. And here you have to fix both n and the number of parameters. Or, to put it better, fix the degrees of freedom.

Context - I'm performing OLS regression on a range of variables and am trying to develop the best explanatory functional form (...)

Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even if R2 is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.

And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then the R2 or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.