มันเป็นคำถามที่ดีเพราะ "ปริมาณที่แตกต่าง" ดูเหมือนจะไม่ได้คำอธิบายอะไรมากมายนัก
มีเหตุผลสำคัญสองข้อที่ต้องระวังในการใช้เพื่อเปรียบเทียบโมเดลเหล่านี้: มันหยาบเกินไป (มันไม่ได้ประเมินความเหมาะสมที่เหมาะสม ) และมันจะไม่เหมาะสมสำหรับโมเดลอย่างน้อยหนึ่งรุ่น คำตอบนี้ระบุถึงปัญหาที่สองR2
การรักษาเชิงทฤษฎี
R2เปรียบเทียบความแปรปรวนของแบบจำลองส่วนที่เหลือกับความแปรปรวนของการตอบสนอง ความแปรปรวนเป็นค่าเบี่ยงเบนบวกส่วนเบี่ยงเบนกำลังสองจากขนาดพอดี ดังนั้นเราอาจเข้าใจเปรียบเทียบสองรุ่นของการตอบสนองY R2y
รูปแบบ "ฐาน"คือ
yi=μ+δi(1)
ที่เป็นพารามิเตอร์ (หมายถึงการตอบสนองในทางทฤษฎี) และมีความเป็นอิสระ "ข้อผิดพลาด" สุ่มแต่ละคนมีศูนย์เฉลี่ยและความแปรปรวนที่พบบ่อยของ 2μδiτ2
ตัวแบบการถดถอยเชิงเส้นแนะนำเวกเตอร์เป็นตัวแปรอธิบาย:xi
yi=β0+xiβ+εi.(2)
หมายเลขและ vectorเป็นพารามิเตอร์ (การสกัดกั้นและ "ลาด") อีกครั้งคือข้อผิดพลาดแบบสุ่มอิสระแต่ละกับศูนย์ค่าเฉลี่ยและความแปรปรวนร่วมกัน 2β0βεiσ2
R2ประมาณการลดลงในแปรปรวนเมื่อเทียบกับความแปรปรวนเดิม 2τ2−σ2τ2
เมื่อคุณใช้ลอการิทึมและใช้กำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองคุณจะเปรียบเทียบความสัมพันธ์ของแบบฟอร์มโดยปริยาย
log(yi)=ν+ζi(1a)
ไปที่หนึ่งในแบบฟอร์ม
log(yi)=γ0+xiγ+ηi.(2a)
เหล่านี้เป็นเหมือนรุ่นและแต่มีการตอบสนองบันทึก แม้ว่ามันจะไม่เทียบเท่ากับสองรุ่นแรก ยกตัวอย่างเช่นการยกกำลังทั้งสองด้านของจะให้(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
เงื่อนไขข้อผิดพลาดตอนนี้คูณความสัมพันธ์พื้นฐานแกมมา) ผลต่างของการตอบสนองคือexp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
ผลต่างขึ้นอยู่กับx_ixi นั่นไม่ใช่รูปแบบซึ่งซึมแปรปรวนทุกคนเท่าเทียมกันที่จะคงที่ 2(2)σ2
โดยปกติแล้วชุดแบบจำลองเพียงชุดเดียวเท่านั้นที่สามารถเป็นคำอธิบายที่สมเหตุสมผลของข้อมูลได้ การใช้ชุดที่สองและเมื่อชุดแรกและเป็นแบบอย่างที่ดีหรือชุดแรกเมื่อชุดที่สองดีทำงานกับ ชุดข้อมูลแบบไม่เชิงเส้นชุดแบบ heteroscedastic ซึ่งควรมีคุณภาพไม่ดีเมื่อใช้การถดถอยเชิงเส้น เมื่อทั้งสองกรณีนี้เป็นจริงเราอาจคาดหวังว่าแบบจำลองที่ดีกว่าจะแสดงใหญ่ขึ้น อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าไม่มีทั้งสองกรณี เราสามารถคาดหวังเพื่อช่วยเราระบุรุ่นที่ดีกว่านี้ได้หรือไม่?(1a)(2a)(1)(2)R2R2
การวิเคราะห์
ในแง่นี้มันไม่ได้เป็นคำถามที่ดีเพราะถ้าไม่ใช่ทั้งสองแบบที่เหมาะสมเราควรหาแบบจำลองที่สาม อย่างไรก็ตามปัญหาก่อนที่เราจะเกี่ยวข้องกับยูทิลิตี้ของในการช่วยให้เราทำการตัดสินใจนี้ นอกจากนี้หลายคนคิดว่าเป็นครั้งแรกเกี่ยวกับรูปร่างของความสัมพันธ์ระหว่างและ --is มันเส้นมันเป็นลอการิทึมมันเป็นสิ่งอื่น - โดยไม่ต้องกังวลเกี่ยวกับลักษณะของข้อผิดพลาดของการถดถอยที่หรือ\เหตุฉะนั้นให้เราพิจารณาสถานการณ์ที่รูปแบบของเราได้รับสัมพันธ์ที่ถูกต้อง แต่เป็นความผิดเกี่ยวกับโครงสร้างข้อผิดพลาดหรือของตนในทางกลับกันR2xyεiηi
แบบจำลองดังกล่าว (ซึ่งมักเกิดขึ้น) เป็นรูปสี่เหลี่ยมจัตุรัสขนาดเล็กที่สุดที่เหมาะสมกับความสัมพันธ์เชิงเลขชี้กำลัง
yi=exp(α0+xiα)+θi.(3)
ตอนนี้ลอการิทึมของเป็นเชิงเส้นการทำงานของในขณะที่ , แต่เงื่อนไขข้อผิดพลาดเป็นสารเติมแต่งในขณะที่(2) ในกรณีดังกล่าวอาจทำให้เข้าใจผิดเราเข้าไปเลือกรุ่นที่มีความสัมพันธ์ที่ไม่ถูกต้องระหว่างและy ที่yx(2a)θi(2)R2xy
นี่คือตัวอย่างของรูปแบบ(3)มีข้อสังเกตสำหรับ (1-vector กระจายเท่ากันระหว่างและ ) ด้านซ้ายแสดงให้เห็นแผงเดิมข้อมูลในขณะที่ด้านขวาแสดงข้อมูลเปลี่ยน เส้นประสีแดงแสดงความสัมพันธ์ที่แท้จริงพื้นฐานในขณะที่เส้นสีฟ้าทึบแสดงสี่เหลี่ยมจัตุรัสที่มีขนาดเล็กที่สุด ข้อมูลและความสัมพันธ์ที่แท้จริงนั้นเหมือนกันในทั้งสองพาเนล: เฉพาะรุ่นและขนาดที่พอดีเท่านั้น(3)300xi1.01.6(x,y)(x,log(y))
พอดีกับบันทึกการตอบสนองทางด้านขวาอย่างชัดเจนดี: มันเกือบจะสอดคล้องกับความสัมพันธ์ที่แท้จริงและทั้งสองเป็นเชิงเส้น ความพอดีกับคำตอบดั้งเดิมทางซ้ายชัดเจนว่าแย่กว่า: มันเป็นเส้นตรงในขณะที่ความสัมพันธ์ที่แท้จริงนั้นมีความหมายอย่างมาก แต่น่าเสียดายที่มันมีค่าสะดุดตาขนาดใหญ่ของ :เมื่อเทียบกับ0.56นั่นเป็นเหตุผลที่เราไม่ควรไว้วางใจเพื่อนำเราไปสู่รุ่นที่ดีกว่า นั่นเป็นเหตุผลที่เราไม่ควรพึงพอใจกับความพอดีแม้เมื่อเป็น "สูง" (และในหลาย ๆ แอปพลิเคชันค่าก็ถือว่าสูงมาก)R20.700.56R2R20.70
วิธีที่ดีกว่าในการประเมินแบบจำลองเหล่านี้รวมถึงความดีของการทดสอบแบบพอดี (ซึ่งจะบ่งบอกถึงความเหนือกว่าของแบบจำลองบันทึกทางด้านขวา) และแผนการวินิจฉัยสำหรับความคงที่ของส่วนที่เหลือ (ซึ่งจะเน้นปัญหาของทั้งสองรุ่น) การประเมินดังกล่าวจะนำไปสู่หนึ่งในรูปแบบน้ำหนักน้อยที่สุดของหรือโดยตรงกับแบบจำลองซึ่งจะต้องเหมาะสมกับการใช้โอกาสสูงสุดหรือวิธีกำลังสองน้อยที่สุดแบบไม่เชิงเส้นlog(y)(3)