"ดีกว่า" เป็นฟังก์ชั่นของรุ่นของคุณ
เหตุผลส่วนหนึ่งที่ทำให้คุณสับสนคือคุณเขียนเพียงครึ่งเดียวของแบบจำลองของคุณ
เมื่อคุณพูดนั่นไม่จริงเลย ค่าคุณสังเกตเห็นไม่เท่ากับ ; พวกเขามีองค์ประกอบข้อผิดพลาด y a x bY= a xขYa xข
ตัวอย่างเช่นทั้งสองโมเดลที่คุณพูดถึง (ไม่ใช่โมเดลที่เป็นไปได้เท่านั้นไม่ว่าด้วยวิธีใดก็ตาม) สร้างสมมติฐานที่แตกต่างอย่างสิ้นเชิงเกี่ยวกับข้อผิดพลาด
บางสิ่งบางอย่างที่คุณอาจหมายถึงใกล้ชิดกับ\,E( Y| X= x ) = a xข
แต่แล้วเราจะพูดอย่างไรเกี่ยวกับการแปรผันของห่างจากความคาดหวังนั้นในกำหนด? มันเป็นเรื่องสำคัญ!xYx
เมื่อคุณใส่แบบจำลองกำลังสองน้อยที่สุดแบบไม่เชิงเส้นคุณกำลังบอกว่าข้อผิดพลาดนั้นเป็นส่วนเสริมและค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดนั้นคงที่ในข้อมูล:
Yผม∼ N( a xขผม, σ2)
หรือเทียบเท่า
var ( e i ) = σ 2Yผม= a xขผม+ eผมโดยมีvar ( eผม) = σ2
ในทางตรงกันข้ามเมื่อคุณใช้บันทึกและจัดวางโมเดลเชิงเส้นคุณกำลังบอกว่าข้อผิดพลาดนั้นเป็นส่วนเพิ่มเติมในระดับบันทึกและค่าคงที่ (ในระดับบันทึก) ทั่วทั้งข้อมูล ซึ่งหมายความว่าในระดับของการสังเกตคำผิดพลาดเป็นmultiplicativeและดังนั้นข้อผิดพลาดจะมีขนาดใหญ่เมื่อค่าที่คาดหวังมีขนาดใหญ่กว่า:
Yผม∼ logN ( บันทึกa + b บันทึกxผม, σ2)
หรือเทียบเท่า
Yผม= a xขผม⋅ ηผมโดยมีηผม∼ logN ( 0 , σ2)
(โปรดทราบว่าไม่ใช่ 1 หากมีขนาดเล็กคุณต้องอนุญาตสำหรับผลกระทบนี้)σ 2E ( η)σ2
(คุณสามารถทำกำลังสองน้อยที่สุดได้โดยไม่สมมติว่ามีการแจกแจงปกติ / lognormal แต่ประเด็นสำคัญที่ถูกกล่าวถึงยังคงมีผล ...
ดังนั้นสิ่งที่ดีที่สุดขึ้นอยู่กับชนิดของข้อผิดพลาดที่อธิบายสถานการณ์ของคุณ
[หากคุณกำลังทำบางการวิเคราะห์สอบสวนกับชนิดของข้อมูลที่ไม่เคยเห็นมาก่อนบางอย่างที่คุณต้องการพิจารณาคำถามเช่น "สิ่งที่ข้อมูลของคุณมีลักษณะอย่างไร (เช่นพล็อตกับอะไรไม่เหลือดูเหมือนกับ ? ในทางกลับกันหากตัวแปรเช่นนี้ไม่ใช่เรื่องแปลกคุณควรมีข้อมูลเกี่ยวกับพฤติกรรมทั่วไปของพวกเขาอยู่แล้ว]x xyxx