ทำไมการถดถอยถึงความแปรปรวน?


19

ฉันกำลังอ่านบันทึกนี้

บนหน้า 2 มันระบุ:

"ความแปรปรวนของข้อมูลอธิบายได้อย่างไรโดยตัวแบบการถดถอยที่กำหนด"

"การตีความการถดถอยเป็นเรื่องเกี่ยวกับค่าเฉลี่ยของสัมประสิทธิ์; การอนุมานเป็นเรื่องของความแปรปรวน"

ฉันได้อ่านเกี่ยวกับคำแถลงดังกล่าวหลายครั้งแล้วทำไมเราถึงสนใจ "ความแปรปรวนของข้อมูลอธิบายโดยตัวแบบการถดถอยที่ให้มาเท่าไหร่" ... โดยเฉพาะอย่างยิ่งทำไม "ความแปรปรวน"?


"[V] ariance" ตรงข้ามกับค่าเบี่ยงเบนมาตรฐานอะไร? คุณคิดว่าเราควรใส่ใจในเรื่องการถดถอยอย่างไร เป้าหมายทั่วไปของคุณในการสร้างแบบจำลองการถดถอยคืออะไร?
gung - Reinstate Monica

ความแปรปรวนมีหน่วยแตกต่างจากปริมาณที่ทำแบบจำลองดังนั้นฉันมักพบว่าเป็นการยากที่จะตีความ "สัดส่วนของความแปรปรวนที่อธิบายโดยตัวแบบ"
บิน

คำตอบ:


18

ทำไมเราถึงสนใจ "ความแปรปรวนของข้อมูลอธิบายโดยตัวแบบการถดถอยที่ให้มาเท่าไหร่"

เพื่อตอบคำถามนี้มันมีประโยชน์ที่จะคิดเกี่ยวกับความหมายของเปอร์เซ็นต์ความแปรปรวนที่จะอธิบายโดยตัวแบบการถดถอย

Let เป็นตัวแปรผลลัพธ์ ความแปรปรวนตัวอย่างปกติของตัวแปรตามในรูปแบบการถดถอยคือ1Y1,...,Ynตอนนี้ขอ Yฉัน F (Xฉัน)ได้รับการคาดการณ์ของYฉันอยู่บนพื้นฐานของสี่เหลี่ยมน้อยเชิงเส้นแบบการถดถอยที่มีค่าทำนายXฉัน พิสูจน์แล้วว่าที่นี่แปรปรวนข้างต้นนี้สามารถแบ่งเป็น:1

1n1i=1n(YiY¯)2
Y^if^(Xi)YiXi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

ในการถดถอยกำลังสองน้อยที่สุดค่าเฉลี่ยของค่าที่ทำนายคือดังนั้นค่าความแปรปรวนโดยรวมจะเท่ากับความแตกต่างเฉลี่ยกำลังสองระหว่างค่าที่สังเกตกับค่าที่ทำนาย (ความแปรปรวนตกค้าง) บวกค่าความแปรปรวนตัวอย่างของการทำนายเองซึ่งเป็นเพียงการทำงานของที่X s ดังนั้น "อธิบาย" ความแปรปรวนอาจจะคิดว่าเป็นความแปรปรวนในY ฉันที่เป็นส่วนที่เปลี่ยนแปลงในXฉัน สัดส่วนของความแปรปรวนในY iนั่นคือ "อธิบาย" (เช่นสัดส่วนของความแปรปรวนในY iที่เกิดจากการแปรผันในXY¯XYiXiYiYi ) บางครั้งเรียกว่า R 2 XiR2

ตอนนี้เราใช้สองตัวอย่างที่ชัดเจนว่าทำไมการแยกย่อยความแปรปรวนนี้จึงสำคัญ:

  • (1) การพยากรณ์มีอะไรจะทำอย่างไรกับการตอบสนอง ในกรณีที่ตัวทำนายที่เป็นกลางที่ดีที่สุด (ในความรู้สึกน้อยสแควร์) สำหรับคือYฉัน = ¯ Y ดังนั้นความแปรปรวนรวมในY ฉันเป็นเพียงเท่ากับความแปรปรวนคงเหลือและไม่เกี่ยวข้องกับความแปรปรวนในการพยากรณ์ที่XฉันYiY^i=Y¯YiXi

  • (2) การพยากรณ์ที่ดีที่สุดที่จะเป็นเส้นตรงที่เกี่ยวข้องกับการพยากรณ์ ในกรณีที่การคาดการณ์เป็นสิ่งที่ถูกต้องและYฉัน = Yฉัน ดังนั้นจึงไม่มีความแปรปรวนที่เหลือและความแปรปรวนทั้งหมดในผลลัพธ์คือความแปรปรวนในการทำนายตัวเองซึ่งเป็นเพียงหน้าที่ของผู้ทำนาย ดังนั้นทุกความแปรปรวนในผลที่เป็นเพียงเพราะความแปรปรวนในการพยากรณ์XฉันY^i=YiXi

สถานการณ์ที่มีข้อมูลจริงมักจะอยู่ระหว่างทั้งสองขั้วเช่นเดียวกับสัดส่วนของความแปรปรวนที่สามารถนำมาประกอบกับแหล่งที่มาทั้งสองนี้ ยิ่ง "อธิบายความแปรปรวน" มี - คือมากขึ้นของการเปลี่ยนแปลงในว่าเป็นเพราะการเปลี่ยนแปลงในXฉัน - ดีกว่าการคาดการณ์Yฉันมีประสิทธิภาพ (เช่นขนาดเล็ก "ความแปรปรวนที่เหลือ" เป็น) ซึ่งเป็น อีกวิธีในการบอกว่าแบบจำลองกำลังสองน้อยที่สุดเหมาะสมดี YiXiY^i


นี่เป็นเหมือนคำตอบของฉัน แต่อาจอธิบายได้ดีขึ้นเล็กน้อย นอกจากนี้ฉันเห็นคำวิจารณ์ที่เป็นไปได้ที่อาจกล่าวถึงคือฉันควรเขียนรูปแบบที่สัมพันธ์กับค่าเฉลี่ยของ Y
Michael R. Chernick

1
@MichaelChernick ใช่ แต่อย่างน้อยกำลังสองถดถอย (ซึ่งฉันคิดว่า OP กำลังพูดถึงตามสไลด์ที่เชื่อมโยง) ค่าเฉลี่ยของค่าที่ทำนายเท่ากับค่าเฉลี่ยของดังนั้นคุณสามารถเรียกมันว่าความแปรปรวนตัวอย่างของ การคาดการณ์ Y
มาโคร

ฉันแก้ไขคำตอบของฉันเพราะ Yb เป็นสิ่งจำเป็นสำหรับการย่อยสลายความแปรปรวนในการทำงานอย่างถูกต้อง
Michael R. Chernick

ใช่เป็นที่ชัดเจนสำหรับฉันว่าเธออ้างถึงการถดถอยกำลังสองน้อยที่สุด ยังมีอีกหลายสิ่งที่คุณเขียนเป็นเพียงการทำซ้ำสิ่งที่ฉันพูดแตกต่างกันเล็กน้อย ฉันยังให้ +1
Michael R. Chernick

1
แมโครจุดของฉันคือการที่สลายตัวนี้เกิดขึ้นเฉพาะในกรณีที่และดังนั้น "ถดถอย" โดยเนื้อแท้เกี่ยวข้องกับการฉายฉากบนพื้นที่ที่มีเวกเตอร์อย่างต่อเนื่อง โปรดทราบว่าเราสามารถ "แยก" การย่อยสลายนี้ได้อย่างง่ายดายเพียงแค่ลบเวกเตอร์คงที่ออกจากแบบจำลองของเราซึ่งดูเหมือนว่าขัดแย้งกับความคิดเห็นล่าสุดของคุณ yy^,y^y¯1=0
พระคาร์ดินัล

9

ฉันวิ่งไม่ได้กับสุนัขตัวใหญ่ ๆ ของสถิติที่ตอบมาก่อนหน้าฉันและบางทีความคิดของฉันก็ไร้เดียงสา แต่ฉันมองมันด้วยวิธีนี้ ...

ลองนึกภาพคุณกำลังอยู่ในรถและกำลังขับรถไปทางซ้ายและขวาแล้วเหยียบแป้นเหยียบคันเร่งและเบรกอย่างเมามัน ทว่ารถกำลังเคลื่อนที่ไปอย่างราบรื่นไม่ได้รับผลกระทบจากการกระทำของคุณ คุณสงสัยทันทีว่าคุณไม่ได้อยู่ในรถจริงและบางทีถ้าเรามองอย่างใกล้ชิดเราจะพิจารณาว่าคุณกำลังขี่ในดิสนีย์เวิลด์ (ถ้าคุณอยู่ในรถจริงคุณจะตกอยู่ในอันตราย แต่อย่าไปที่นั่น)

ในทางกลับกันถ้าคุณขับรถไปตามถนนในรถแล้วหมุนล้อไปทางซ้ายหรือขวาเพียงเล็กน้อยก็ทำให้รถเคลื่อนที่ได้การแตะเบรกทำให้เกิดการชะลอตัวอย่างรุนแรงในขณะที่เหยียบคันเร่งเหวี่ยงคุณกลับเข้ามาใน ที่นั่ง คุณอาจสงสัยว่าคุณอยู่ในรถสปอร์ตประสิทธิภาพสูง

โดยทั่วไปคุณอาจพบบางสิ่งระหว่างทั้งสองขั้ว ระดับที่อินพุตของคุณ (พวงมาลัย, เบรก, แก๊ส) ส่งผลโดยตรงต่อการเคลื่อนไหวของรถช่วยให้คุณทราบถึงคุณภาพของรถ นั่นคือความแปรปรวนของรถของคุณในการเคลื่อนไหวที่เกี่ยวข้องกับการกระทำของคุณยิ่งรถดีขึ้นและยิ่งเมื่อรถเคลื่อนที่อิสระจากการควบคุมของคุณยิ่งแย่ลงรถ

ในลักษณะที่คล้ายกันคุณกำลังพูดคุยเกี่ยวกับการสร้างแบบจำลองสำหรับข้อมูลบางอย่าง (ขอเรียกข้อมูลนี้ ) บนพื้นฐานของบางชุดอื่น ๆ ของข้อมูล (ขอเรียกว่าx 1 , x 2 , . . . , x ฉัน ) ถ้าyไม่แตกต่างกันมันก็เหมือนกับรถที่ไม่เคลื่อนไหวและไม่มีจุดใดที่จะพูดถึงว่ารถ (รุ่น) ทำงานได้ดีหรือไม่ดังนั้นเราจะถือว่าคุณyx1,x2,...,xiyyแตกต่างกัน

เช่นเดียวกับรถที่เป็นแบบอย่างที่ดีมีคุณภาพจะมีความสัมพันธ์ที่ดีระหว่างผลแตกต่างกันและปัจจัยการผลิตx ผมที่แตกต่างกัน ซึ่งแตกต่างจากรถที่x ฉันไม่จำเป็นต้องสาเหตุYมีการเปลี่ยนแปลง แต่ถ้ารูปแบบเป็นไปได้ที่มีประโยชน์x ผมจำเป็นที่จะต้องมีการเปลี่ยนแปลงในความสัมพันธ์ที่ใกล้เคียงกับปี กล่าวอีกนัยหนึ่งx ฉันอธิบายความแปรปรวนจำนวนมากในyyxixi yxiyxiyปี

ป.ล. ฉันไม่สามารถเปรียบเทียบวินนี่เดอะพูห์ได้ แต่ฉันพยายาม

PPS [แก้ไข:] โปรดทราบว่าฉันกำลังตอบคำถามนี้โดยเฉพาะ อย่าสับสนกับการคิดว่าถ้าคุณอธิบายความแปรปรวน 100% โมเดลของคุณจะทำงานได้อย่างยอดเยี่ยม นอกจากนี้คุณยังต้องคำนึงถึงการปรับให้กระชับมากเกินไปซึ่งแบบจำลองของคุณมีความยืดหยุ่นมากซึ่งเหมาะกับข้อมูลการฝึกอบรมอย่างใกล้ชิดรวมถึงนิสัยแปลก ๆ และความแปลกประหลาด ในการใช้การเปรียบเทียบคุณต้องการรถยนต์ที่มีระบบบังคับเลี้ยวและเบรกที่ดี แต่คุณต้องการให้รถทำงานได้ดีบนถนนไม่ใช่แค่ในแทร็กทดสอบที่คุณใช้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.