คุณกำลังทำให้คำ "ข้อผิดพลาด" ทั้งสองประเภทแตกต่างกัน วิกิพีเดียมีบทความเกี่ยวกับความแตกต่างระหว่างข้อผิดพลาดและส่วนที่เหลือนี้
ในการถดถอย OLS ที่เหลือ มีการรับประกันที่แน่นอนที่จะ uncorrelated กับตัวแปรสมมติว่าการถดถอยมีระยะตัดε^
แต่ข้อผิดพลาด "true" ดีอาจจะมีความสัมพันธ์กับพวกเขาและนี่คือสิ่งที่นับเป็น endogeneityε
เพื่อให้สิ่งต่าง ๆ ง่ายขึ้นพิจารณาตัวแบบการถดถอย (คุณอาจเห็นสิ่งนี้อธิบายว่าเป็น " กระบวนการสร้างข้อมูล " หรือ "DGP" ซึ่งเป็นแบบจำลองทางทฤษฎีที่เราสมมติว่าจะสร้างมูลค่าของ ):y
yi=β1+β2xi+εi
ไม่มีเหตุผลในหลักการว่าทำไมไม่สามารถมีความสัมพันธ์กับεในรูปแบบของเรามาก แต่เราจะชอบมันจะไม่ละเมิด OLS มาตรฐานสมมติฐานในลักษณะนี้ ยกตัวอย่างเช่นมันอาจเป็นไปได้ว่าปีขึ้นอยู่กับตัวแปรอื่น ๆ ที่ได้รับการละเว้นจากแบบจำลองของเรานี้และได้รับการจดทะเบียนเป็นระยะรบกวน (คนεเป็นที่ที่เราก้อนในทุกสิ่งอื่น ๆ นอกเหนือจากxที่มีผลต่อปี ) หากตัวแปรที่ละเว้นนี้มีความสัมพันธ์กับxดังนั้นεจะสัมพันธ์กับxและเรามี endogeneity (โดยเฉพาะอคติที่ละเว้นตัวแปร )xεyεxyxεx
เมื่อคุณประเมินโมเดลการถดถอยของคุณกับข้อมูลที่มีอยู่เราจะได้รับ
yi=β^1+β^2xi+ε^i
เนื่องจากวิธีการ OLS งาน * คลาดเคลื่อนεจะ uncorrelated กับx แต่นั่นไม่ได้หมายความว่าเราต้องหลีกเลี่ยง endogeneity - มันก็หมายความว่าเราไม่สามารถตรวจสอบได้โดยการวิเคราะห์ความสัมพันธ์ระหว่างεและxซึ่งจะเป็น (ถึงข้อผิดพลาดตัวเลข) ศูนย์ และเนื่องจากสมมติฐานของ OLS ถูกละเมิดเราจึงไม่รับประกันคุณสมบัติที่ดีเช่นความไม่เอนเอียงอีกต่อไปเราจึงสนุกกับ OLS มาก เราคาดβ 2จะลำเอียงε^xε^xβ^2
ความจริงที่ว่า εเป็น uncorrelated กับ xดังนี้ทันทีจาก "สมการปกติ" เราใช้ในการเลือกประมาณการที่ดีที่สุดของเราสำหรับค่าสัมประสิทธิ์(∗)ε^x
หากคุณไม่คุ้นเคยกับการตั้งค่าเมทริกซ์และฉันยึดติดกับรูปแบบ bivariate ที่ใช้ในตัวอย่างของฉันด้านบนผลรวมของกำลังสองที่เหลือคือและเพื่อหาสิ่งที่ดีที่สุดข1 = β 1และข2 =S(b1,b2)=∑ni=1ε2i=∑ni=1(yi−b1−b2xi)2b1=β^1ที่ทำให้สิ่งนี้เล็กลงเราจะพบสมการปกติก่อนอื่นเงื่อนไขลำดับแรกสำหรับการสกัดกั้นโดยประมาณ:b2=β^2
∂S∂b1=∑i=1n−2(yi−b1−b2xi)=−2∑i=1nε^i=0
ซึ่งแสดงให้เห็นว่าผลรวม (และด้วยเหตุนี้ค่าเฉลี่ย) ของเหลือเป็นศูนย์ดังนั้นสูตรสำหรับความแปรปรวนระหว่างεและตัวแปรxแล้วลดไป1ε^xฉัน เราเห็นว่านี่เป็นศูนย์โดยพิจารณาเงื่อนไขการสั่งซื้อครั้งแรกสำหรับความชันโดยประมาณซึ่งก็คือ1n−1∑ni=1xiε^i
∂S∂b2=∑i=1n−2xi(yi−b1−b2xi)=−2∑i=1nxiε^i=0
หากคุณกำลังใช้ในการทำงานร่วมกับเมทริกซ์ที่เราสามารถพูดคุยนี้เพื่อถดถอยพหุคูณด้วยการกำหนด ; เงื่อนไขแรกเพื่อลดS ( ข)ที่ดีที่สุดข= βคือ:S(b)=ε′ε=(y−Xb)′(y−Xb)S(b)b=β^
dSdb(β^)=ddb(y′y−b′X′y−y′Xb+b′X′Xb)∣∣∣b=β^=−2X′y+2X′Xβ^=−2X′(y−Xβ^)=−2X′ε^=0
ซึ่งหมายความว่าแต่ละแถวของและด้วยเหตุนี้คอลัมน์ของแต่ละXเป็นฉากกับε แล้วถ้าการออกแบบเมทริกซ์Xมีคอลัมน์ของคน (ซึ่งเกิดขึ้นถ้าแบบจำลองของคุณมีระยะตัด) เราต้องมีΣ n ฉัน= 1 εฉัน = 0ดังนั้นที่เหลือมีผลรวมศูนย์และศูนย์เฉลี่ย แปรปรวนระหว่างεและตัวแปรxเป็นอีกครั้งที่1X′Xε^X∑ni=1ε^i=0ε^xและตัวแปรxรวมอยู่ในรูปแบบของเราที่เรารู้ว่าจำนวนนี้เป็นศูนย์เพราะ εเป็นมุมฉากกับคอลัมน์ของเมทริกซ์ออกแบบทุก จึงมีความแปรปรวนเป็นศูนย์และศูนย์ความสัมพันธ์ระหว่าง εและตัวแปรใด ๆ ทำนายx1n−1∑ni=1xiε^ixε^ε^x
หากคุณต้องการมุมมองทางเรขาคณิตมากขึ้นในสิ่งที่ปรารถนาของเราที่Yโกหกใกล้เคียงเป็นไปได้ที่จะYในชนิดพีทาโกรัสของวิธีการและความจริงที่ว่าYเป็นข้อ จำกัด ไปยังพื้นที่คอลัมน์ของการออกแบบเมทริกซ์X , บอกว่าyควรเป็นการประมาณการมุมฉากของy ที่สังเกตบนพื้นที่คอลัมน์นั้น ดังนั้นเวกเตอร์ของคลาดเคลื่อนε = Y - Yเป็นมุมฉากกับคอลัมน์ของทุกXรวมทั้งเวกเตอร์ของคนที่1 ny^y y^Xy^yε^=y−y^X1nถ้าคำว่าดักรวมอยู่ในโมเดล เมื่อก่อนนี้หมายถึงผลรวมของค่าตกค้างเป็นศูนย์ดังนั้นมุมฉากของเวกเตอร์ที่เหลือกับคอลัมน์อื่น ๆ ของทำให้มั่นใจได้ว่ามันไม่ได้มีความสัมพันธ์กับตัวทำนายแต่ละตัวX
แต่ไม่มีอะไรที่เราได้ทำที่นี่พูดอะไรเกี่ยวกับข้อผิดพลาดที่แท้จริงεสมมติว่ามีคำที่ตัดในรูปแบบของเราคลาดเคลื่อนεจะ uncorrelated เฉพาะกับxเป็นผลทางคณิตศาสตร์ของลักษณะที่เราเลือกที่จะประเมินค่าสัมประสิทธิ์การถดถอยβ วิธีที่เราเลือกของเราβส่งผลกระทบต่อค่าคาดการณ์ของเราปีและด้วยเหตุที่เหลือของเราε = Y - Y ถ้าเราเลือกβโดย OLS เราจะต้องแก้สมการปกติและบังคับใช้เหล่านี้ที่เหลือโดยประมาณของเราεε^xβ^β^y^ε^=y−y^β^จะ uncorrelated กับx ทางเลือกของเราของ βส่งผลกระทบต่อปีแต่ไม่E(Y)และด้วยเหตุนี้การเรียกเก็บไม่มีเงื่อนไขในข้อผิดพลาดจริงε=Y-E(Y) มันจะเป็นความผิดพลาดที่จะคิดว่า εได้อย่างใด "ได้รับมรดก" uncorrelatedness กับxจากสมมติฐานที่ OLSεควรจะ uncorrelated กับx ความไม่สัมพันธ์กันเกิดขึ้นจากสมการปกติε^xβ^y^E(y)ε=y−E(y)ε^xεx