มีหลายประเด็นที่นี่
(1) รูปแบบที่จะต้องมีความน่าจะเป็นอย่างชัดเจน ในเกือบทุกกรณีจะไม่มีชุดของพารามิเตอร์ที่ lhs ตรงกับ rhs สำหรับข้อมูลทั้งหมดของคุณ: จะมีส่วนที่เหลือ คุณต้องตั้งสมมติฐานเกี่ยวกับสิ่งที่เหลืออยู่ คุณคาดหวังให้พวกเขาเป็นศูนย์โดยเฉลี่ย? มีการกระจายแบบสมมาตรหรือไม่? จะกระจายประมาณปกติ?
ต่อไปนี้เป็นสองรุ่นที่เห็นด้วยกับรุ่นที่ระบุ แต่อนุญาตให้มีพฤติกรรมการตกค้างที่แตกต่างกันอย่างเห็นได้ชัด คุณสามารถเปลี่ยนแปลงแบบจำลองเหล่านี้ได้โดยสมมติฐานที่แตกต่างกันเกี่ยวกับการแจกแจงร่วมของ :ϵi
B: y i = β 0 exp ( β 1 x 1
A: yi=β0exp(β1x1i+…+βkxki+ϵi)
B: yi=β0exp(β1x1i+…+βkxki)+ϵi.
(โปรดทราบว่าสิ่งเหล่านี้เป็นแบบจำลองสำหรับข้อมูล โดยปกติจะไม่มีสิ่งเช่นค่าข้อมูลโดยประมาณ )^ y iyiyi^
(2) ความจำเป็นในการจัดการค่าศูนย์สำหรับ y หมายถึงรูปแบบที่ระบุไว้ (A) ทั้งผิดและไม่เพียงพอเพราะมันไม่สามารถสร้างค่าเป็นศูนย์ไม่ว่าข้อผิดพลาดแบบสุ่มจะเท่ากับ รุ่นที่สองด้านบน (B) อนุญาตให้มีค่าศูนย์ (หรือลบ) ของ y อย่างไรก็ตามเราไม่ควรเลือกแบบจำลองเพียงอย่างเดียวบนพื้นฐานดังกล่าว หากต้องการย้ำข้อ # 1: เป็นสิ่งสำคัญที่ควรสร้างแบบจำลองข้อผิดพลาดที่เหมาะสม
(3) Linearization การเปลี่ยนแปลงรูปแบบ โดยทั่วไปแล้วจะส่งผลในรูปแบบเช่น (A) แต่ไม่ชอบ (B) มันถูกใช้โดยผู้ที่วิเคราะห์ข้อมูลของพวกเขามากพอที่จะรู้ว่าการเปลี่ยนแปลงนี้จะไม่ส่งผลกระทบอย่างมีนัยสำคัญต่อการประมาณค่าพารามิเตอร์และโดยคนที่ไม่รู้ในสิ่งที่เกิดขึ้น (มันยากหลายครั้งที่จะบอกความแตกต่าง)
(4) วิธีทั่วไปในการจัดการกับความเป็นไปได้ของค่าศูนย์คือการเสนอว่า (หรือการแสดงออกอีกครั้งของมันเช่นรากที่สอง) มีโอกาสในเชิงบวกอย่างเคร่งครัดเท่ากับศูนย์ ในทางคณิตศาสตร์เรากำลังผสมมวลจุด ("ฟังก์ชันเดลต้า") เข้ากับการแจกแจงแบบอื่น โมเดลเหล่านี้มีลักษณะดังนี้:y
f(yi)θj∼F(θ);=βj0+βj1x1i+⋯+βjkxki
โดยที่เป็นหนึ่งในพารามิเตอร์โดยปริยายในเวกเตอร์ ,คือบางส่วนของการแจกแจงพารามิเตอร์ โดยและคือการแสดงออกของฟังก์ชัน (ฟังก์ชัน "ลิงก์" ของโมเดลเชิงเส้นทั่วไป: ดูการตอบกลับของ onestop) (แน่นอนดังนั้น =เมื่อ ) ตัวอย่างคือศูนย์พอง Poisson และรูปแบบทวินามเชิงลบθ F θ 1 , … , θ j f y Pr F θ [ f ( Y ) ≤ t ] ( 1 - θ j + 1 ) F θ ( t ) t ≠ 0PrFθ[f(Y)=0]=θj+1>0θFθ1,…,θjfyPrFθ[f(Y)≤t](1−θj+1)Fθ(t)t≠0
(5) ปัญหาของการสร้างรูปแบบและเนื้อมันมีความสัมพันธ์กัน แต่ที่แตกต่างกัน เป็นตัวอย่างง่ายๆแม้รูปแบบการถดถอยปกติสามารถทำได้หลายวิธีโดยใช้กำลังสองน้อยที่สุด (ซึ่งให้ค่าพารามิเตอร์เดียวกันกับโอกาสสูงสุดและข้อผิดพลาดมาตรฐานเดียวกันเกือบทั้งหมด) การทำซ้ำอย่างน้อยกำลังสองน้อยที่สุดรูปแบบอื่น ๆ ของ "ความแข็งแกร่งกำลังสองน้อยที่สุด " ฯลฯ การเลือกอุปกรณ์ที่เหมาะสมมักจะขึ้นอยู่กับความสะดวกความสะดวก ( เช่นความพร้อมของซอฟต์แวร์) ความคุ้นเคยนิสัยหรือการประชุม แต่อย่างน้อยบางคนก็ควรคิด มอบให้กับสิ่งที่เหมาะสมสำหรับการกระจายที่สันนิษฐานของข้อผิดพลาดไปยังสิ่งที่ϵ iY=β0+β1X+ϵϵiฟังก์ชั่นการสูญเสียสำหรับปัญหาอาจจะสมเหตุสมผลและเป็นไปได้ของการใช้ประโยชน์จากข้อมูลเพิ่มเติม (เช่นการกระจายก่อนหน้าสำหรับพารามิเตอร์)