การอธิบายความแปรปรวนของตัวแบบการถดถอย


13

นี่อาจเป็นคำอธิบายง่ายๆ (ฉันหวังอยู่แล้ว)

ฉันได้ทำการวิเคราะห์การถดถอยใน Matlab โดยใช้กล่องเครื่องมือการถดถอย อย่างไรก็ตามฉันได้เจอการศึกษาที่ระบุสิ่งนี้:

"การใช้การวิเคราะห์การถดถอยมันเป็นไปได้ที่จะสร้างแบบจำลองการทำนายโดยใช้คุณสมบัติสี่เสียงที่อธิบายความแปรปรวน 60%"

ลิงก์ไปยังบทความอยู่ที่นี่หากจำเป็น: บทความ

ฉันไม่แน่ใจ 100% ว่านี่หมายถึงอะไร แต่ฉันหวังว่ามันจะง่าย 60% ก็เป็นสิ่งที่ดีเช่นกัน? ฉันพยายามค้นหาสิ่งนี้ แต่เนื่องจากมีเปอร์เซ็นต์ก่อนคำว่า 'ความแปรปรวน' เสมอจึงเป็นการยากที่จะหาคำตอบ

คำตอบ:


9

ฉันจะพยายามอธิบายเรื่องนี้ด้วยคำศัพท์ง่ายๆ

ตัวแบบการถดถอยมุ่งเน้นไปที่ความสัมพันธ์ระหว่างที่ขึ้นอยู่กับตัวแปรและชุดของอิสระตัวแปร ตัวแปรตามคือผลลัพธ์ที่คุณพยายามทำนายโดยใช้ตัวแปรอิสระหนึ่งตัวหรือมากกว่า

สมมติว่าคุณมีโมเดลดังนี้:

Weight_i = 3.0 + 35 * Height_i + ε

ตอนนี้หนึ่งในคำถามที่ชัดเจนคือ: แบบจำลองนี้ทำงานได้ดีแค่ไหน? กล่าวอีกนัยหนึ่งความสูงของบุคคลทำนายได้อย่างถูกต้อง - หรืออธิบาย - น้ำหนักของบุคคลนั้นอย่างไร

ก่อนที่เราจะตอบคำถามนี้เราต้องเข้าใจความผันผวนของน้ำหนักตัวเราก่อน สิ่งนี้สำคัญเพราะสิ่งที่เราพยายามทำที่นี่คือการอธิบายความผันผวน (น้ำหนัก) ในน้ำหนักของคนต่าง ๆ โดยใช้ความสูงของพวกเขา หากความสูงของผู้คนสามารถอธิบายความแปรปรวนของน้ำหนักนี้ได้เราก็มีแบบจำลองที่ดี

แปรปรวนเป็นตัวชี้วัดที่ดีที่จะนำมาใช้เพื่อการนี้เนื่องจากมาตรการวิธีไกลชุดของตัวเลขที่จะกระจายออกไป (จากค่าเฉลี่ยของพวกเขา)

สิ่งนี้ช่วยให้เราเรียบเรียงคำถามเดิมของเราใหม่: ความสูงของเขา / เธอสามารถอธิบายความแปรปรวนของน้ำหนักได้มากน้อยเพียงใด?

นี่คือที่มาของ“% ความแปรปรวนอธิบาย” มาจาก โดยวิธีการในการวิเคราะห์การถดถอยก็เท่ากับค่าสัมประสิทธิ์สหสัมพันธ์R-Squared

สำหรับรูปแบบข้างต้นเราอาจจะสามารถทำคำสั่งที่ชอบ: โดยใช้การวิเคราะห์การถดถอยมันเป็นไปได้ในการตั้งค่ารูปแบบการทำนายโดยใช้ความสูงของคนที่อธิบายถึง60% ของความแปรปรวนในน้ำหนัก

ทีนี้ 60% ดีแค่ไหน? เป็นการยากที่จะตัดสินอย่างมีเหตุผลเกี่ยวกับเรื่องนี้ แต่ถ้าคุณมีรูปแบบการแข่งขันอื่น ๆ - พูดอีกรูปแบบการถดถอยที่ใช้อายุของบุคคลในการทำนาย / น้ำหนักของเขา - คุณสามารถเปรียบเทียบรูปแบบที่แตกต่างกันขึ้นอยู่กับว่าพวกเขาอธิบายความแปรปรวนมากน้อยเพียงใด (มีคำเตือนบางประการสำหรับสิ่งนี้ให้ดู 'การตีความและการใช้การถดถอย' - Christopher H. Achen http://www.sagepub.in/books/Book4505/automatic/ )


1
นั่นได้ตอบคำถามของฉันเป็นจำนวนมาก ในแง่ของสาเหตุที่ผู้เขียนระบุเช่นนี้มันมีความสำคัญมากฉันไม่รู้ ดังนั้นหากนี่คือค่า R-sqaured และเรากลับไปที่ตัวอย่างของคุณ: บอกว่าเราใช้โมเดลสำหรับ 'อายุ' ที่มีความแปรปรวน 80% จากนั้นและโมเดลสำหรับ 'ความสูง' ที่มีความแปรปรวนเท่ากับ 85 ในการทำนายน้ำหนักของบุคคลฉันคิดว่ารุ่นหลังจะมีความหมายมากขึ้น? ขอบคุณสำหรับลิงค์หนังสือฉันซื้อมันเมื่อคืนนี้เพราะฉันจะใช้การถดถอยค่อนข้างมากในเดือนที่กำลังจะมาถึง
user1574598

1
ใช่คุณสามารถสรุปได้ว่าแบบจำลองหลังดีกว่าในความสามารถในการทำนาย (หรืออธิบาย) น้ำหนักของบุคคล BTW คุณระบุว่า "รุ่นมีความแปรปรวน 80%" แต่ควรเป็น "รุ่นที่อธิบายความแปรปรวนได้ 80%"
Vishal

4

ผู้เขียนอ้างถึงค่าสำหรับรุ่นที่กำหนดโดยสูตรR2

i=1n(y^iy¯)2i=1n(yiy¯)2

โดยที่เป็นค่าที่สังเกตได้ค่ากำลังสองน้อยที่สุดสำหรับจุดข้อมูลและคือค่าเฉลี่ยโดยรวม บางครั้งเราคิดว่าเป็นสัดส่วนของความแปรปรวนที่อธิบายโดยตัวแบบเนื่องจากผลรวมของการสลายตัวกำลังสองทั้งหมดyiy^iithy¯R2

i=1n(yiy¯)2=i=1n(y^iy¯)2+i=1n(yiy^i)2,

คำหลังเป็นข้อผิดพลาดที่เหลือซึ่งไม่ได้รับการพิจารณาโดยแบบจำลอง โดยทั่วไปจะบอกให้เราทราบว่ามากจากการเปลี่ยนแปลงโดยรวมได้รับการ "ดูดซึมเข้าสู่" ค่าติดตั้งR2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.