ในสถิติเราทำการถดถอยเชิงเส้นซึ่งเป็นจุดเริ่มต้นของมัน โดยทั่วไปแล้วเรารู้ว่ายิ่งยิ่งสูง แต่ยิ่งมีสถานการณ์ที่สูงจะเป็นตัวอย่างที่ไร้ประโยชน์หรือไม่?R 2
ในสถิติเราทำการถดถอยเชิงเส้นซึ่งเป็นจุดเริ่มต้นของมัน โดยทั่วไปแล้วเรารู้ว่ายิ่งยิ่งสูง แต่ยิ่งมีสถานการณ์ที่สูงจะเป็นตัวอย่างที่ไร้ประโยชน์หรือไม่?R 2
คำตอบ:
ใช่. เกณฑ์สำหรับการประเมินแบบจำลองทางสถิติขึ้นอยู่กับปัญหาเฉพาะที่อยู่ในมือและไม่ใช่ฟังก์ชันเชิงกลของหรือนัยสำคัญทางสถิติ (แม้ว่าจะสำคัญ) คำถามที่เกี่ยวข้องคือ "แบบจำลองนี้ช่วยให้คุณเข้าใจข้อมูลหรือไม่"
วิธีที่ง่ายที่สุดในการรับสูงคือการทำรองเท้าที่ถูกต้องบนรองเท้าซ้าย บอกขนาดของรองเท้าที่ใช่ของคุณและฉันสามารถทำนายขนาดของรองเท้าซ้ายของคุณได้อย่างแม่นยำ ใหญ่R 2 ! ช่างเป็นแบบสถิติที่ยอดเยี่ยม! ยกเว้นมันหมายถึงปูไม่ได้ คุณสามารถรับR 2ที่ยอดเยี่ยมได้โดยการใส่ตัวแปรเดียวกันทางด้านซ้ายและด้านขวาของการถดถอย แต่การถดถอยR 2ขนาดใหญ่นี้แทบจะไร้ประโยชน์อย่างแน่นอน
มีอีกหลายกรณีที่การรวมตัวแปรทางด้านขวาเป็นแนวคิดในสิ่งที่ผิด (แม้ว่าจะเพิ่ม ) สมมติว่าคุณกำลังพยายามประเมินว่ากลุ่มชนกลุ่มน้อยบางกลุ่มถูกเลือกปฏิบัติและมีโอกาสน้อยที่จะได้งาน คุณไม่ควรควบคุมว่า บริษัท จะโทรกลับหลังจากสมัครงานเพราะมีโอกาสน้อยที่จะตอบสนองต่อการสมัครงานของชนกลุ่มน้อยอาจเป็นช่องทางที่การเลือกปฏิบัติเกิดขึ้น! การเพิ่มการควบคุมที่ผิดสามารถทำให้การถดถอยของคุณไม่มีความหมาย
คุณสามารถเพิ่มR 2 ได้ตลอดเวลาโดยการเพิ่มตัวลงมากขึ้น! ฉันสามารถเพิ่ม regressors ไปทางด้านขวาจนกว่าฉันจะได้รับR 2อะไรก็ได้ที่ฉันชอบ ในการทำนายรายได้จากแรงงานฉันสามารถเพิ่มการควบคุมการศึกษาการควบคุมอายุผลกระทบประจำไตรมาสผลกระทบคงที่ของรหัสไปรษณีย์ผลการแก้ไขอาชีพอาชีพผลกระทบถาวรของครอบครัวครอบครัวผลกระทบถาวรสัตว์เลี้ยงความยาวผม ฯลฯ ... หยุดที่จะทำให้รู้สึก แต่R 2ยังคงเพิ่มขึ้น การเพิ่มทุกอย่างเป็น regressor เรียกว่า "sink ครัว" ถดถอย คุณสามารถได้รับR 2สูงแต่อาจทำให้ข้อมูลมีขนาดใหญ่เกินไป: แบบจำลองของคุณทำนายตัวอย่างที่ใช้ในการประเมินแบบจำลองได้อย่างสมบูรณ์แบบ (มีค่าRสูง ) แต่ตัวแบบโดยประมาณนั้นล้มเหลวอย่างมากกับข้อมูลใหม่
แนวคิดเดียวกันสามารถแสดงในการปรับเส้นโค้งพหุนาม ให้ข้อมูลแบบสุ่มกับฉันและฉันอาจจะได้ค่าที่ดีด้วยการใส่พหุนาม 200 องศา ในข้อมูลใหม่แม้ว่าพหุนามประมาณจะไม่สามารถทำงานได้เนื่องจากการล้น อีกครั้งสูงR 2รุ่นโดยประมาณ แต่รูปแบบที่คาดจะไร้ประโยชน์
จุด (3-4) คือสาเหตุที่เราปรับซึ่งให้โทษบางอย่างสำหรับการเพิ่มตัวเพิ่มมากขึ้น แต่โดยทั่วไปแล้วการปรับR 2นั้นจะยังคงถูกตรึงอยู่กับข้อมูลมากเกินไป นอกจากนี้ยังมีคุณสมบัติไร้สาระอย่างน่าพิศวงที่สามารถไปเชิงลบ
ฉันยังสามารถยกตัวอย่างที่ค่าต่ำได้ดี (เช่นการประเมิน betas ในรูปแบบการกำหนดราคาสินทรัพย์) แต่โพสต์นี้ใช้เวลาค่อนข้างนานแล้ว เพื่อสรุปคำถามโดยรวมควรเป็นเช่น "การรู้สิ่งที่ฉันรู้เกี่ยวกับปัญหาและสถิติแบบจำลองนี้ช่วยฉันเข้าใจ / อธิบายข้อมูลหรือไม่" R 2อาจเป็นเครื่องมือที่ช่วยตอบคำถามนี้ แต่มันไม่ง่ายนักเนื่องจากรุ่นที่มีR 2 ที่สูงกว่านั้นจะดีกว่าเสมอ
"ดีกว่าดีกว่า" เป็นกฎง่ายๆสำหรับ R-square
ดอนมอร์ริสันเขียนบทความที่มีชื่อเสียงไม่กี่ปีที่ผ่านมาแสดงให้เห็นว่าสี่เหลี่ยม R ใกล้ศูนย์ยังคงสามารถดำเนินการได้และผลกำไรขึ้นอยู่กับอุตสาหกรรม ตัวอย่างเช่นในการตลาดแบบตรงคาดการณ์การตอบสนองต่อการส่งจดหมายสมัครสมาชิกนิตยสารถึง 10 ล้านครัวเรือน R-squares ในตัวเลขหลักเดียวที่ต่ำสามารถสร้างแคมเปญที่ทำกำไรได้ (บนพื้นฐาน ROI) หากการส่งจดหมายเป็นไปตาม decile 2 อันดับแรกหรือ 3 ความเป็นไปได้
นักสังคมวิทยาอีกคน (ที่มีชื่อหนีฉัน) แบ่งกลุ่ม R-squares ตามชนิดข้อมูลที่สังเกตว่าการวิจัยสำรวจของ wrt, R-squares ในช่วง 10-20% เป็นบรรทัดฐานในขณะที่สำหรับข้อมูลธุรกิจ R-squares ในช่วง 40-60% คาดว่าจะได้ พวกเขากล่าวต่อไปว่า R-squares ประมาณ 80-90% หรือมากกว่านั้นอาจเป็นการละเมิดสมมติฐานการถดถอยขั้นพื้นฐาน อย่างไรก็ตามผู้เขียนคนนี้ไม่มีประสบการณ์เกี่ยวกับส่วนประสมทางการตลาดข้อมูลอนุกรมเวลาหรือโมเดลที่มีคุณสมบัติ "สาเหตุ" เต็มรูปแบบ (เช่นราคาคลาสสิก 4 "Ps" ราคาโปรโมชั่นสถานที่และผลิตภัณฑ์) ซึ่งสามารถผลิต R- ได้ สี่เหลี่ยมใกล้ 100%
ที่กล่าวว่าแม้กฎการเปรียบเทียบที่เข้าใจง่ายและสมเหตุสมผลเช่นสิ่งเหล่านี้ไม่ได้มีประโยชน์มากนักเมื่อต้องรับมือกับผู้ไม่รู้หนังสือทางเทคนิคซึ่งคำถามแรกเกี่ยวกับแบบจำลองการทำนายมักจะเป็น "สี่เหลี่ยม R คืออะไร"
คำตอบอื่น ๆ เสนอคำอธิบายทางทฤษฎีที่ยอดเยี่ยมของหลาย ๆ ค่า R-squared สามารถแก้ไข / ปลอม / ทำให้เข้าใจผิด / ฯลฯ นี่คือการสาธิตภาคปฏิบัติที่ติดอยู่กับฉันเสมอเขียนไว้ในr
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
สิ่งนี้สามารถให้ค่า R-squared> 0.90 เพิ่มตัวลงทะเบียนที่มากพอและแม้แต่ค่าแบบสุ่มก็สามารถ "ทำนาย" ค่าแบบสุ่มได้
set.seed(1)
set.seed(2)