ทำไมระยะทางแนวตั้ง?


11

ทำไมการประมาณของ OLS จึงเกี่ยวข้องกับการเบี่ยงเบนในแนวดิ่งของคะแนนไปยังเส้นมากกว่าระยะทางแนวนอน


1
คำถามเก่า แต่ฉันคิดว่าการดูข้อมูลเป็นตัวอย่างของการแจกแจงความน่าจะเป็นที่ค่าพารามิเตอร์ของ x นั้นมีประโยชน์
Bendy

คำตอบ:


12

OLS ( สี่เหลี่ยมจัตุรัสน้อยที่สุดธรรมดา ) ถือว่าค่าที่แสดงโดยระยะทางแนวนอนนั้นถูกกำหนดไว้ล่วงหน้าโดยผู้ทดลองหรือวัดด้วยความแม่นยำสูง (เทียบกับระยะทางแนวดิ่ง) เมื่อมีคำถามของความไม่แน่นอนในระยะทางแนวนอนที่คุณไม่ควรจะใช้ OLS แต่ควรมีลักษณะเป็นข้อผิดพลาดในตัวแปรรุ่นหรืออาจจะเป็นการวิเคราะห์องค์ประกอบหลัก


"การถดถอยแบบมุมฉาก" เป็นอีกสิ่งหนึ่งที่อาจพบเมื่อค้นหาวิธีการจัดการกับตัวย่อและคำสั่งที่ปนเปื้อน
JM ไม่ใช่นักสถิติเมื่อ

+1 นี่เป็นเพียงช่องทางสถิติเท่านั้น วิธีกำลังสองน้อยที่สุดที่ซับซ้อนมากขึ้น (ไม่เพียง แต่เพิ่มความแปรปรวน X เท่านั้น แต่ยังมีบทลงโทษที่แตกต่างกันสำหรับจุดที่อิงตามการประมาณข้อผิดพลาด) เป็นเรื่องปกติในฟิสิกส์ทดลอง กรอบรูทมีหลายสิบอย่าง

1

คำถามที่น่าสนใจ คำตอบของฉันคือเมื่อเราปรับโมเดล OLS ให้เหมาะสมเราจะพยายามคาดเดา / อธิบายตัวแปรตามที่กล่าวมาข้างต้นนั่นคือ "Y" ใน "Y vs X" ดังนั้นความกังวลหลักของเราคือการลดระยะห่างจากแนวที่เราติดตั้งไปจนถึงการสังเกตการณ์จริงด้วยความเคารพต่อผลลัพธ์ซึ่งหมายถึงการลดระยะห่างในแนวดิ่ง แน่นอนนี้กำหนดส่วนที่เหลือ

นอกจากนี้สูตรสี่เหลี่ยมน้อยที่สุดนั้นหาได้ง่ายกว่าวิธีการแข่งขันอื่น ๆ ส่วนใหญ่ซึ่งอาจเป็นเหตุผลว่าทำไมจึงต้องมาก่อน : P

ในฐานะที่เป็น 'whuber' หมายถึงข้างต้นมีวิธีการอื่น ๆ ที่ปฏิบัติต่อ X และ Y โดยเน้นที่เท่าเทียมกันเมื่อติดตั้งเส้นที่เหมาะสมที่สุด วิธีการหนึ่งที่ฉันทราบคือการถดถอยของ "เส้นหลัก" หรือ "เส้นโค้งหลัก" ซึ่งลดระยะห่างมุมฉากระหว่างจุดและเส้นให้สั้นลง (แทนที่จะเป็นเส้นข้อผิดพลาดแนวตั้งที่คุณมีที่ 90 องศากับเส้นติดตั้ง) . ฉันโพสต์หนึ่งอ้างอิงด้านล่างสำหรับการอ่านของคุณ มันยาว แต่เข้าถึงได้ง่ายและสว่างมาก

หวังว่านี่จะช่วยได้เบรนเดน

  1. Trevor Hastie อาจารย์ใหญ่โค้งและพื้นผิววิทยานิพนธ์ปริญญาเอกมหาวิทยาลัยสแตนฟอร์ด; 1984

1

มันอาจเกี่ยวข้องกับการออกแบบที่ได้รับการออกแบบด้วย - ถ้า x เป็นปริมาณที่ควบคุมซึ่งเป็นส่วนหนึ่งของการออกแบบการทดลอง ในขณะที่ y คือผลลัพธ์และเป็นปริมาณสุ่ม x อาจเป็นปริมาณต่อเนื่อง (เช่นความเข้มข้นของยาบางตัว) แต่อาจแบ่งได้ 0/1 (นำไปสู่การทดสอบตัวอย่าง 2 ตัวอย่างโดยสมมติว่า y คือ Gaussian) หาก x เป็นปริมาณต่อเนื่องอาจมีข้อผิดพลาดในการวัดบางอย่าง แต่โดยทั่วไปหากนี่มีขนาดเล็กกว่าความแปรปรวนของ y มากแล้วสิ่งนี้จะถูกละเว้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.