ทำไมการประมาณของ OLS จึงเกี่ยวข้องกับการเบี่ยงเบนในแนวดิ่งของคะแนนไปยังเส้นมากกว่าระยะทางแนวนอน
ทำไมการประมาณของ OLS จึงเกี่ยวข้องกับการเบี่ยงเบนในแนวดิ่งของคะแนนไปยังเส้นมากกว่าระยะทางแนวนอน
คำตอบ:
OLS ( สี่เหลี่ยมจัตุรัสน้อยที่สุดธรรมดา ) ถือว่าค่าที่แสดงโดยระยะทางแนวนอนนั้นถูกกำหนดไว้ล่วงหน้าโดยผู้ทดลองหรือวัดด้วยความแม่นยำสูง (เทียบกับระยะทางแนวดิ่ง) เมื่อมีคำถามของความไม่แน่นอนในระยะทางแนวนอนที่คุณไม่ควรจะใช้ OLS แต่ควรมีลักษณะเป็นข้อผิดพลาดในตัวแปรรุ่นหรืออาจจะเป็นการวิเคราะห์องค์ประกอบหลัก
คำถามที่น่าสนใจ คำตอบของฉันคือเมื่อเราปรับโมเดล OLS ให้เหมาะสมเราจะพยายามคาดเดา / อธิบายตัวแปรตามที่กล่าวมาข้างต้นนั่นคือ "Y" ใน "Y vs X" ดังนั้นความกังวลหลักของเราคือการลดระยะห่างจากแนวที่เราติดตั้งไปจนถึงการสังเกตการณ์จริงด้วยความเคารพต่อผลลัพธ์ซึ่งหมายถึงการลดระยะห่างในแนวดิ่ง แน่นอนนี้กำหนดส่วนที่เหลือ
นอกจากนี้สูตรสี่เหลี่ยมน้อยที่สุดนั้นหาได้ง่ายกว่าวิธีการแข่งขันอื่น ๆ ส่วนใหญ่ซึ่งอาจเป็นเหตุผลว่าทำไมจึงต้องมาก่อน : P
ในฐานะที่เป็น 'whuber' หมายถึงข้างต้นมีวิธีการอื่น ๆ ที่ปฏิบัติต่อ X และ Y โดยเน้นที่เท่าเทียมกันเมื่อติดตั้งเส้นที่เหมาะสมที่สุด วิธีการหนึ่งที่ฉันทราบคือการถดถอยของ "เส้นหลัก" หรือ "เส้นโค้งหลัก" ซึ่งลดระยะห่างมุมฉากระหว่างจุดและเส้นให้สั้นลง (แทนที่จะเป็นเส้นข้อผิดพลาดแนวตั้งที่คุณมีที่ 90 องศากับเส้นติดตั้ง) . ฉันโพสต์หนึ่งอ้างอิงด้านล่างสำหรับการอ่านของคุณ มันยาว แต่เข้าถึงได้ง่ายและสว่างมาก
หวังว่านี่จะช่วยได้เบรนเดน
มันอาจเกี่ยวข้องกับการออกแบบที่ได้รับการออกแบบด้วย - ถ้า x เป็นปริมาณที่ควบคุมซึ่งเป็นส่วนหนึ่งของการออกแบบการทดลอง ในขณะที่ y คือผลลัพธ์และเป็นปริมาณสุ่ม x อาจเป็นปริมาณต่อเนื่อง (เช่นความเข้มข้นของยาบางตัว) แต่อาจแบ่งได้ 0/1 (นำไปสู่การทดสอบตัวอย่าง 2 ตัวอย่างโดยสมมติว่า y คือ Gaussian) หาก x เป็นปริมาณต่อเนื่องอาจมีข้อผิดพลาดในการวัดบางอย่าง แต่โดยทั่วไปหากนี่มีขนาดเล็กกว่าความแปรปรวนของ y มากแล้วสิ่งนี้จะถูกละเว้น