ความต้องการของสมมติฐานในการถดถอยเชิงเส้นคืออะไร?


15

ในการถดถอยเชิงเส้นเราทำสมมติฐานดังต่อไปนี้

  • ค่าเฉลี่ยของการตอบสนอง ในแต่ละชุดค่าของตัวทำนายเป็นฟังก์ชันเชิงเส้นของตัวทำนายE(Yi)(x1i,x2i,)
  • ข้อผิดพลาดεiเป็นอิสระ
  • ข้อผิดพลาดεiที่แต่ละชุดของค่าของตัวทำนาย(x1i,x2i,)มีการกระจายตามปกติ
  • ข้อผิดพลาดεiที่แต่ละชุดของค่าของตัวทำนาย (x1i,x2i,)มีค่าความแปรปรวนเท่ากัน (แทนσ2 )
  • อีกวิธีหนึ่งที่เราสามารถแก้ปัญหาการถดถอยเชิงเส้นคือผ่านสมการปกติซึ่งเราสามารถเขียนเป็น

    θ=(XTX)1XTY

    จากมุมมองทางคณิตศาสตร์สมการข้างต้นต้องการXTXที่จะกลับด้านได้ ดังนั้นทำไมเราจึงจำเป็นต้องมีข้อสมมติฐานเหล่านี้ ฉันถามเพื่อนร่วมงานไม่กี่คนและพวกเขากล่าวว่าการได้รับผลลัพธ์ที่ดีและสมการปกติเป็นขั้นตอนวิธีเพื่อให้บรรลุ แต่ในกรณีนั้นสมมติฐานเหล่านี้มีประโยชน์อย่างไร การสนับสนุนพวกเขาช่วยในการสร้างแบบจำลองที่ดีขึ้นอย่างไร


    2
    การแจกแจงแบบปกติเป็นสิ่งจำเป็นในการคำนวณช่วงความเชื่อมั่นสัมประสิทธิ์โดยใช้สูตรปกติ สูตรอื่นของการคำนวณ CI (ฉันคิดว่ามันเป็นสีขาว) อนุญาตการแจกแจงแบบไม่ปกติ
    keiv.fly

    คุณไม่จำเป็นต้องมีข้อสันนิษฐานเหล่านี้เสมอไป ในเครือข่ายประสาทเทียมคุณมีการถดถอยเชิงเส้นภายในและจะลดค่า rmse เช่นเดียวกับสูตรที่คุณให้ แต่ส่วนใหญ่ไม่มีข้อสันนิษฐานใด ๆ ไม่มีการแจกแจงแบบปกติไม่มีความแปรปรวนเท่ากันไม่มีฟังก์ชันเชิงเส้นแม้แต่ข้อผิดพลาดก็ยังขึ้นอยู่กับ
    keiv.fly


    1
    @Alexis ตัวแปรอิสระที่เป็น iid ไม่ได้เป็นข้อสันนิษฐาน (และตัวแปรที่ขึ้นกับการเป็น iid นั้นไม่ใช่ข้อสันนิษฐานด้วย - ลองคิดดูว่าถ้าเราสันนิษฐานว่าการตอบสนองนั้นเป็น iid มันคงไม่มีจุดหมายที่จะทำอะไรเลย และ "ไม่มีตัวแปรที่ละเว้น" ไม่ใช่ข้อสมมติฐานเพิ่มเติมจริง ๆ แม้ว่ามันจะดีกว่าที่จะหลีกเลี่ยงการละเว้นตัวแปร - ข้อสันนิษฐานแรกที่ระบุไว้คือสิ่งที่ต้องดูแล
    Dason

    1
    @Dason ฉันคิดว่าลิงก์ของฉันเป็นตัวอย่างที่ดีของ "ไม่มีตัวแปรที่ละเว้น" ซึ่งเป็นสิ่งจำเป็นสำหรับการตีความที่ถูกต้อง ฉันยังคิดว่าจำเป็นต้องมี iid (แบบมีเงื่อนไขกับตัวทำนายใช่) ด้วยการเดินแบบสุ่มซึ่งเป็นตัวอย่างที่ยอดเยี่ยมว่าการประมาณแบบ non-iid นั้นอาจล้มเหลวได้หรือไม่
    Alexis

    คำตอบ:


    19

    คุณถูกต้อง - คุณไม่จำเป็นต้องทำตามสมมติฐานเหล่านี้เพื่อให้พอดีกับเส้นที่มีกำลังสองน้อยที่สุดไปยังจุดต่างๆ คุณต้องการสมมติฐานเหล่านี้เพื่อตีความผลลัพธ์ ตัวอย่างเช่นสมมติว่าไม่มีความสัมพันธ์ระหว่างอินพุตและความน่าจะเป็นที่ได้ค่าสัมประสิทธิ์อย่างน้อยที่สุดก็ยิ่งใหญ่เท่ากับที่เราเห็นจากการถดถอยX1Yβ1


    17

    ลองใช้ภาพของQuartet ของ Anscombeจาก Wikipedia เพื่อให้เข้าใจถึงปัญหาที่อาจเกิดขึ้นกับการตีความการถดถอยเชิงเส้นเมื่อสมมติฐานบางข้อนั้นผิดพลาดชัดเจน: สถิติเชิงพรรณนาพื้นฐานส่วนใหญ่เหมือนกันในทั้งสี่ (และค่าแต่ละค่าคือ เหมือนกันทั้งหมด แต่ด้านล่างขวา) xi

    https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png


    ฉันทำภาพประกอบต่อไปนี้อินส์แสดงสิ่งที่ละเมิดสมมติฐานตัวแปรไม่มีละเว้นสามารถมีลักษณะเหมือน ยังคงทำงานในภาพประกอบอินส์เหมือนของการละเมิดของสมมติฐาน IID
    อเล็กซิส

    3

    คุณไม่จำเป็นต้องใช้สมมติฐานเหล่านั้นเพื่อให้พอดีกับโมเดลเชิงเส้น อย่างไรก็ตามการประมาณพารามิเตอร์ของคุณอาจมีลำเอียงหรือไม่มีความแปรปรวนขั้นต่ำ การละเมิดสมมติฐานจะทำให้ตัวเองยากขึ้นในการตีความผลลัพธ์การถดถอยตัวอย่างเช่นการสร้างช่วงความมั่นใจ


    1

    ตกลงคำตอบจะเป็นเช่นนี้: หากเราละเมิดข้อสันนิษฐานแล้วสิ่งเลวร้ายก็เกิดขึ้นได้ ฉันเชื่อว่าทิศทางที่น่าสนใจคือ: เมื่อสมมติฐานทั้งหมดที่เราต้องการ (จริง ๆ แล้วแตกต่างจากข้างบนเล็กน้อย) เป็นไปตามสาเหตุและเราจะแน่ใจได้อย่างไรว่าการถดถอยเชิงเส้นเป็นแบบที่ดีที่สุด?

    p(yi|xi)E[Yi|Xi=xi]xผม


    0

    สมมติฐานหลักสองข้อคือ

    1. ความเป็นอิสระของการสังเกต
    2. ค่าเฉลี่ยไม่เกี่ยวข้องกับความแปรปรวน

    ดูการอภิปรายในจูเลียนไกลของหนังสือ

    หากสิ่งเหล่านี้เป็นจริงทั้งคู่ OLS จะต่อต้านการฝ่าฝืนในสมมติฐานอื่น ๆ ที่คุณระบุไว้อย่างน่าประหลาดใจ

    โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
    Licensed under cc by-sa 3.0 with attribution required.