มันได้รับการกล่าวสามัญสี่เหลี่ยมจัตุรัสที่น้อยที่สุดใน y (OLS) นั้นเหมาะสมที่สุดในคลาสของตัวประมาณค่าแบบไม่ลำเอียงเชิงเส้นเมื่อความผิดพลาดนั้นเป็นแบบ homoscedastic และไม่ได้มีการเรียงตัวกันแบบอนุกรม สำหรับความแตกต่างของสารตกค้างแบบ homoscedastic นั้นความแปรปรวนของส่วนที่เหลือจะเป็นอิสระจากที่เราจะวัดความแปรปรวนของขนาดที่เหลืออยู่บนแกน x ตัวอย่างเช่นสมมติว่าข้อผิดพลาดของการวัดของเราเพิ่มขึ้นตามสัดส่วนเพื่อเพิ่มค่า y จากนั้นเราสามารถหาลอการิทึมของค่า y เหล่านั้นก่อนดำเนินการถดถอย หากทำเช่นนั้นคุณภาพพอดีจะเพิ่มขึ้นเมื่อเทียบกับข้อผิดพลาดแบบสัดส่วนโดยไม่ต้องใช้ลอการิทึม โดยทั่วไปเพื่อให้ได้ homoscedasticity เราอาจต้องรับส่วนกลับของข้อมูล y หรือแกน x, ลอการิทึม (s), สแควร์รูทหรือสแควร์รูทหรือใช้เลขชี้กำลัง อีกทางเลือกหนึ่งคือการใช้ฟังก์ชั่นน้ำหนัก( y- แบบจำลอง)2Y2( y- แบบจำลอง)2
ต้องบอกว่ามากมักเกิดขึ้นที่ทำให้ส่วนที่เหลือ homoscedastic ทำให้พวกเขากระจายตามปกติ แต่บ่อยครั้งที่คุณสมบัติ homoscedastic มีความสำคัญมากขึ้น หลังนั้นจะขึ้นอยู่กับสาเหตุที่เราทำการถดถอย ตัวอย่างเช่นถ้าสแควร์รูทของข้อมูลกระจายมากกว่าปกติโดยใช้ลอการิทึม แต่ข้อผิดพลาดเป็นประเภทสัดส่วนการทดสอบลอการิทึม t-test จะมีประโยชน์สำหรับการตรวจจับความแตกต่างระหว่างประชากรหรือการวัด แต่สำหรับการค้นหาที่คาดหวัง คุณค่าเราควรใช้สแควร์รูทของข้อมูลเพราะมีเพียงสแควร์รูทของข้อมูลเท่านั้นคือการกระจายแบบสมมาตรซึ่งคาดว่าค่าเฉลี่ยโหมดและค่ามัธยฐานจะเท่ากัน
ยิ่งกว่านั้นมันเกิดขึ้นบ่อยครั้งที่เราไม่ต้องการคำตอบที่ทำให้เราคาดการณ์ข้อผิดพลาดน้อยที่สุดของค่าแกน y และการถดถอยเหล่านั้นสามารถลำเอียงอย่างมาก ตัวอย่างเช่นบางครั้งเราอาจต้องการความผิดพลาดน้อยที่สุดใน x หรือบางครั้งเราต้องการเปิดเผยความสัมพันธ์ระหว่าง y และ x ซึ่งไม่ใช่ปัญหาการถดถอยตามปกติ จากนั้นเราอาจใช้ Theil คือความชันเฉลี่ยการถดถอยเป็นการประนีประนอมที่ง่ายที่สุดระหว่าง x และ y การถดถอยข้อผิดพลาดน้อยที่สุด หรือถ้าเรารู้ว่าความแปรปรวนของการวัดซ้ำสำหรับทั้ง x และ y เราสามารถใช้ Deming regression ได้ การถดถอยของพวกเขาดีกว่าเมื่อเรามีค่าผิดปกติซึ่งทำสิ่งที่น่ากลัวต่อผลลัพธ์การถดถอยปกติ และสำหรับการถดถอยของค่ามัธยฐานแบบปานกลางมันมีความสำคัญเพียงเล็กน้อยไม่ว่าจะมีการแจกแจงแบบปกติหรือไม่
BTW ค่าเฉลี่ยของค่าคงที่ไม่จำเป็นต้องให้ข้อมูลการถดถอยเชิงเส้นที่เป็นประโยชน์กับเราตัวอย่างเช่นสมมติว่าเรากำลังทำการวัดซ้ำสองการวัดอิสระ เนื่องจากเรามีความเป็นอิสระความสัมพันธ์ที่คาดหวังนั้นเป็นศูนย์และความชันของเส้นถดถอยจะเป็นจำนวนสุ่มใด ๆ ที่ไม่มีความชันที่มีประโยชน์ เราทำการวัดซ้ำเพื่อสร้างการประมาณตำแหน่งเช่นค่าเฉลี่ย (หรือค่ามัธยฐาน (การแจกแจงแบบ Cauchy หรือเบต้าที่มีจุดสูงสุดหนึ่งจุด) หรือโดยทั่วไปแล้วค่าคาดหวังของประชากร) และจากนั้นเพื่อคำนวณความแปรปรวนใน x และความแปรปรวน ใน y ซึ่งสามารถใช้สำหรับ Deming ถดถอยหรืออะไรก็ได้ ยิ่งกว่านั้นสมมติฐานที่ว่าการซ้อนทับจึงเป็นเรื่องปกติที่ค่าเฉลี่ยเดียวกันถ้าประชากรดั้งเดิมเป็นปกติทำให้เราไม่มีการถดถอยเชิงเส้นที่มีประโยชน์ เพื่อดำเนินการต่อไปนี้ สมมติว่าฉันเปลี่ยนพารามิเตอร์เริ่มต้นและสร้างการวัดใหม่ด้วย Monte Carlo x และฟังก์ชัน y-value ที่ต่างกันสร้างตำแหน่งและเปรียบเทียบข้อมูลนั้นด้วยการเรียกใช้ครั้งแรก จากนั้นค่าคงที่เป็นปกติในทิศทาง y ที่ค่า x ทุกค่า แต่ในทิศทาง x ค่าฮิสโตแกรมจะมียอดเขาสองอันซึ่งไม่เห็นด้วยกับสมมติฐาน OLS และความชันและการสกัดกั้นของเราจะลำเอียงเพราะ ไม่มีข้อมูลช่วงเวลาเท่ากันบนแกน x อย่างไรก็ตามการถดถอยของข้อมูลที่ถูกจัดเรียงในขณะนี้มีความชันและการสกัดกั้นที่ชัดเจนในขณะที่ไม่เคยมีมาก่อน ยิ่งกว่านั้นเพราะเราทดสอบเพียงสองจุดด้วยการสุ่มตัวอย่างซ้ำเราจึงไม่สามารถทดสอบความเป็นเชิงเส้นได้ อันที่จริงค่าสัมประสิทธิ์สหสัมพันธ์จะไม่เป็นการวัดที่เชื่อถือได้ด้วยเหตุผลเดียวกัน
ในทางกลับกันบางครั้งก็สันนิษฐานว่าข้อผิดพลาดนั้นมีการแจกแจงแบบปกติตามเงื่อนไขบน regressors สมมติฐานนี้ไม่จำเป็นสำหรับความถูกต้องของวิธีการ OLS แม้ว่าคุณสมบัติตัวอย่างแน่นอนบางอย่างเพิ่มเติมสามารถสร้างขึ้นได้ในกรณีเมื่อมันทำ (โดยเฉพาะในพื้นที่ของการทดสอบสมมติฐาน)ดูที่นี่. เมื่อใดที่ OLS อยู่ในการถดถอยที่ถูกต้อง ตัวอย่างเช่นหากเราทำการวัดราคาหุ้นที่ปิดทุกวันในเวลาเดียวกันอย่างแม่นยำดังนั้นจะไม่มีความแปรปรวนแกน T (แกน x คิด) อย่างไรก็ตามเวลาของการซื้อขายครั้งสุดท้าย (การตั้งถิ่นฐาน) จะกระจายแบบสุ่มและการถดถอยเพื่อค้นหาความสัมพันธ์ระหว่างตัวแปรจะต้องรวมความแปรปรวนทั้งสอง ในกรณีดังกล่าว OLS ใน y จะประมาณการข้อผิดพลาดน้อยที่สุดในค่า y เท่านั้นซึ่งจะเป็นตัวเลือกที่ไม่ดีสำหรับการคาดการณ์ราคาการซื้อขายสำหรับการชำระราคาเนื่องจากเวลาของการตั้งถิ่นฐานนั้นจำเป็นต้องคาดการณ์เช่นกัน นอกจากนี้ยังมีข้อผิดพลาดในการกระจายตามปกติอาจจะด้อยกว่าไปแกมมา Pricing Model
มันมีความหมายอะไร? ทีนี้บางหุ้นซื้อขายหลายครั้งต่อนาทีและอื่น ๆ ไม่ซื้อขายทุกวันหรือทุกสัปดาห์และมันสามารถสร้างความแตกต่างเป็นตัวเลขที่ค่อนข้างใหญ่ ดังนั้นมันขึ้นอยู่กับข้อมูลที่เราต้องการ หากเราต้องการถามว่าตลาดจะทำอย่างไรในวันพรุ่งนี้เมื่อปิดนั่นคือคำถาม "ประเภท" OLS แต่คำตอบอาจเป็นแบบไม่เชิงเส้นไม่เป็นแบบตกค้างเป็นปกติและต้องการฟังก์ชันการฟิตที่มีค่าสัมประสิทธิ์รูปร่างที่เห็นด้วยกับอนุพันธ์พอดี (และ / หรือช่วงเวลาที่สูงกว่า) เพื่อสร้างความโค้งที่ถูกต้อง . (หนึ่งสามารถพอดีกับอนุพันธ์เช่นเดียวกับฟังก์ชั่นเช่นใช้ลูกบาศก์ splines ดังนั้นแนวคิดของสัญญาซื้อขายล่วงหน้าไม่ควรมาเป็นที่น่าประหลาดใจแม้ว่ามันจะไม่ค่อยมีการสำรวจ) หากเราต้องการทราบว่าเราจะทำเงินหรือไม่ ในสต็อกเฉพาะจากนั้นเราจะไม่ใช้ OLS เนื่องจากปัญหาจะเกิดขึ้นที่ตัวแปร