ค่าสูงหรือเปล่าประโยชน์?

ในสถิติเราทำการถดถอยเชิงเส้นซึ่งเป็นจุดเริ่มต้นของมัน โดยทั่วไปแล้วเรารู้ว่ายิ่งยิ่งสูง แต่ยิ่งมีสถานการณ์ที่สูงจะเป็นตัวอย่างที่ไร้ประโยชน์หรือไม่? $R^2$ $R^2$

regression r-squared

— Richard Hardy
แหล่งที่มา

คำตอบที่stats.stackexchange.com/questions/13314อาจทำให้คุณมีความคิด

— whuber

มีสถานการณ์หนึ่งที่กล่าวถึงที่นี่พร้อมตัวอย่าง ตัวอย่างเช่นหากคุณถดถอยผลลัพธ์ของ coin1 ใน coin2 ในตัวอย่างนั้นคุณจะได้

มากกว่า 85% แต่ความสัมพันธ์ที่ชัดเจนนั้นเป็นของปลอม

R^{2}

$R^2$

— Glen_b -Reinstate Monica

ไม่ใช่รุ่น ดังนั้นคุณควรพูดว่า "...

สูงมาจากแบบจำลองที่ไร้ประโยชน์" หรืออะไรที่คล้ายกันมากกว่า "...

สูงจะเป็นตัวอย่างที่ไร้ประโยชน์"

R^{2}

$R^2$

R^{2}

$R^2$

R^{2}

$R^2$

— Richard Hardy

ตรวจสอบลิงค์นี้: อะไรคือสิ่งที่คุ้มค่าสำหรับ R squared

— Haitao Du

หัวข้อที่เกี่ยวข้อง: stats.stackexchange.com/q/414349/121522

— mkt - Reinstate Monica

คำตอบ:

ใช่. เกณฑ์สำหรับการประเมินแบบจำลองทางสถิติขึ้นอยู่กับปัญหาเฉพาะที่อยู่ในมือและไม่ใช่ฟังก์ชันเชิงกลของหรือนัยสำคัญทางสถิติ (แม้ว่าจะสำคัญ) คำถามที่เกี่ยวข้องคือ "แบบจำลองนี้ช่วยให้คุณเข้าใจข้อมูลหรือไม่" $R^2$

การถดถอยที่ไม่มีความหมายด้วยสูง $R^2$

วิธีที่ง่ายที่สุดในการรับสูงคือการทำรองเท้าที่ถูกต้องบนรองเท้าซ้าย บอกขนาดของรองเท้าที่ใช่ของคุณและฉันสามารถทำนายขนาดของรองเท้าซ้ายของคุณได้อย่างแม่นยำ ใหญ่ ! ช่างเป็นแบบสถิติที่ยอดเยี่ยม! ยกเว้นมันหมายถึงปูไม่ได้ คุณสามารถรับที่ยอดเยี่ยมได้โดยการใส่ตัวแปรเดียวกันทางด้านซ้ายและด้านขวาของการถดถอย แต่การถดถอยขนาดใหญ่นี้แทบจะไร้ประโยชน์อย่างแน่นอน $R^2$ $R^2$ $R^2$ $R^2$
มีอีกหลายกรณีที่การรวมตัวแปรทางด้านขวาเป็นแนวคิดในสิ่งที่ผิด (แม้ว่าจะเพิ่ม ) สมมติว่าคุณกำลังพยายามประเมินว่ากลุ่มชนกลุ่มน้อยบางกลุ่มถูกเลือกปฏิบัติและมีโอกาสน้อยที่จะได้งาน คุณไม่ควรควบคุมว่า บริษัท จะโทรกลับหลังจากสมัครงานเพราะมีโอกาสน้อยที่จะตอบสนองต่อการสมัครงานของชนกลุ่มน้อยอาจเป็นช่องทางที่การเลือกปฏิบัติเกิดขึ้น! การเพิ่มการควบคุมที่ผิดสามารถทำให้การถดถอยของคุณไม่มีความหมาย $R^2$
คุณสามารถเพิ่มตลอดเวลาโดยการเพิ่มตัวลงมากขึ้น! ฉันสามารถเพิ่ม regressors ไปทางด้านขวาจนกว่าฉันจะได้รับอะไรก็ได้ที่ฉันชอบ ในการทำนายรายได้จากแรงงานฉันสามารถเพิ่มการควบคุมการศึกษาการควบคุมอายุผลกระทบประจำไตรมาสผลกระทบคงที่ของรหัสไปรษณีย์ผลการแก้ไขอาชีพอาชีพผลกระทบถาวรของครอบครัวครอบครัวผลกระทบถาวรสัตว์เลี้ยงความยาวผม ฯลฯ ... หยุดที่จะทำให้รู้สึก แต่ยังคงเพิ่มขึ้น การเพิ่มทุกอย่างเป็น regressor เรียกว่า "sink ครัว" ถดถอย คุณสามารถได้รับสูงแต่อาจทำให้ข้อมูลมีขนาดใหญ่เกินไป: แบบจำลองของคุณทำนายตัวอย่างที่ใช้ในการประเมินแบบจำลองได้อย่างสมบูรณ์แบบ (มีค่าสูง $R^2$ $R^2$ $R^2$ $R^2$ ) แต่ตัวแบบโดยประมาณนั้นล้มเหลวอย่างมากกับข้อมูลใหม่ $R^2$
แนวคิดเดียวกันสามารถแสดงในการปรับเส้นโค้งพหุนาม ให้ข้อมูลแบบสุ่มกับฉันและฉันอาจจะได้ค่าที่ดีด้วยการใส่พหุนาม 200 องศา ในข้อมูลใหม่แม้ว่าพหุนามประมาณจะไม่สามารถทำงานได้เนื่องจากการล้น อีกครั้งสูงรุ่นโดยประมาณ แต่รูปแบบที่คาดจะไร้ประโยชน์ $R^2$ $R^2$
จุด (3-4) คือสาเหตุที่เราปรับซึ่งให้โทษบางอย่างสำหรับการเพิ่มตัวเพิ่มมากขึ้น แต่โดยทั่วไปแล้วการปรับนั้นจะยังคงถูกตรึงอยู่กับข้อมูลมากเกินไป นอกจากนี้ยังมีคุณสมบัติไร้สาระอย่างน่าพิศวงที่สามารถไปเชิงลบ $R^2$ $R^2$

ฉันยังสามารถยกตัวอย่างที่ค่าต่ำได้ดี (เช่นการประเมิน betas ในรูปแบบการกำหนดราคาสินทรัพย์) แต่โพสต์นี้ใช้เวลาค่อนข้างนานแล้ว เพื่อสรุปคำถามโดยรวมควรเป็นเช่น "การรู้สิ่งที่ฉันรู้เกี่ยวกับปัญหาและสถิติแบบจำลองนี้ช่วยฉันเข้าใจ / อธิบายข้อมูลหรือไม่" อาจเป็นเครื่องมือที่ช่วยตอบคำถามนี้ แต่มันไม่ง่ายนักเนื่องจากรุ่นที่มีสูงกว่านั้นจะดีกว่าเสมอ $R^2$ $R^2$ $R^2$

— Matthew Gunn
แหล่งที่มา

+1 สำหรับคะแนนที่ดีมากมาย ฉันพยายามที่จะคิดออกว่าจะพูดเกี่ยวกับเสียง ....

— rolando2

+1 เป็นบิตอวดดีแม้ว่า "เพิ่มขึ้นเสมอ" ของคุณควรจะ "ไม่ลดลง" สมมติว่าหนึ่งเพิ่มตัวแปรอธิบายที่เป็นอิสระจากตัวแปรตามที่

จะยังคงเหมือนเดิม : D

R^{2}

$R^2$

— usεr11852พูดว่า Reinstate Monic

R^{2}

$R^2$

"ดีกว่าดีกว่า" เป็นกฎง่ายๆสำหรับ R-square

ดอนมอร์ริสันเขียนบทความที่มีชื่อเสียงไม่กี่ปีที่ผ่านมาแสดงให้เห็นว่าสี่เหลี่ยม R ใกล้ศูนย์ยังคงสามารถดำเนินการได้และผลกำไรขึ้นอยู่กับอุตสาหกรรม ตัวอย่างเช่นในการตลาดแบบตรงคาดการณ์การตอบสนองต่อการส่งจดหมายสมัครสมาชิกนิตยสารถึง 10 ล้านครัวเรือน R-squares ในตัวเลขหลักเดียวที่ต่ำสามารถสร้างแคมเปญที่ทำกำไรได้ (บนพื้นฐาน ROI) หากการส่งจดหมายเป็นไปตาม decile 2 อันดับแรกหรือ 3 ความเป็นไปได้

นักสังคมวิทยาอีกคน (ที่มีชื่อหนีฉัน) แบ่งกลุ่ม R-squares ตามชนิดข้อมูลที่สังเกตว่าการวิจัยสำรวจของ wrt, R-squares ในช่วง 10-20% เป็นบรรทัดฐานในขณะที่สำหรับข้อมูลธุรกิจ R-squares ในช่วง 40-60% คาดว่าจะได้ พวกเขากล่าวต่อไปว่า R-squares ประมาณ 80-90% หรือมากกว่านั้นอาจเป็นการละเมิดสมมติฐานการถดถอยขั้นพื้นฐาน อย่างไรก็ตามผู้เขียนคนนี้ไม่มีประสบการณ์เกี่ยวกับส่วนประสมทางการตลาดข้อมูลอนุกรมเวลาหรือโมเดลที่มีคุณสมบัติ "สาเหตุ" เต็มรูปแบบ (เช่นราคาคลาสสิก 4 "Ps" ราคาโปรโมชั่นสถานที่และผลิตภัณฑ์) ซึ่งสามารถผลิต R- ได้ สี่เหลี่ยมใกล้ 100%

ที่กล่าวว่าแม้กฎการเปรียบเทียบที่เข้าใจง่ายและสมเหตุสมผลเช่นสิ่งเหล่านี้ไม่ได้มีประโยชน์มากนักเมื่อต้องรับมือกับผู้ไม่รู้หนังสือทางเทคนิคซึ่งคำถามแรกเกี่ยวกับแบบจำลองการทำนายมักจะเป็น "สี่เหลี่ยม R คืออะไร"

— ไมค์ฮันเตอร์
แหล่งที่มา

คำตอบอื่น ๆ เสนอคำอธิบายทางทฤษฎีที่ยอดเยี่ยมของหลาย ๆ ค่า R-squared สามารถแก้ไข / ปลอม / ทำให้เข้าใจผิด / ฯลฯ นี่คือการสาธิตภาคปฏิบัติที่ติดอยู่กับฉันเสมอเขียนไว้ในr:

y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))

สิ่งนี้สามารถให้ค่า R-squared> 0.90 เพิ่มตัวลงทะเบียนที่มากพอและแม้แต่ค่าแบบสุ่มก็สามารถ "ทำนาย" ค่าแบบสุ่มได้

— อดัมซี
แหล่งที่มา

ที่น่าสนใจ: ความคมชัดและset.seed(1) set.seed(2)

— PatrickT

ค่าสูงหรือเปล่าประโยชน์?

การถดถอยที่ไม่มีความหมายด้วยR 2สูงR2R2R^2

การถดถอยที่ไม่มีความหมายด้วยสูง $R^2$