การถดถอยหลายตัวแปรและหลายตัวแปรแตกต่างกันจริง ๆ หรือไม่? อะไรคือสิ่งที่เปลี่ยนแปลง?
การถดถอยหลายตัวแปรและหลายตัวแปรแตกต่างกันจริง ๆ หรือไม่? อะไรคือสิ่งที่เปลี่ยนแปลง?
คำตอบ:
อย่างรวดเร็วฉันจะพูดว่า: 'หลาย' นำไปใช้กับจำนวนของตัวทำนายที่เข้าสู่แบบจำลอง (หรือเทียบเท่าเมทริกซ์การออกแบบ) ด้วยผลลัพธ์เดียว (การตอบสนอง Y) ในขณะที่ 'หลายตัวแปร' หมายถึงเมทริกซ์ของเวกเตอร์การตอบสนอง จำไม่ได้ว่าผู้เขียนที่เริ่มส่วนเบื้องต้นในการสร้างแบบจำลองหลายตัวแปรกับการพิจารณาว่า แต่ฉันคิดว่ามันเป็นไบรอัน Everitt ในตำราเรียนของเขาR และ S-Plus Companion เพื่อการวิเคราะห์หลายตัวแปร สำหรับการอภิปรายอย่างละเอียดเกี่ยวกับเรื่องนี้ผมจะแนะนำให้ไปดูที่หนังสือเล่มล่าสุดของเขาหลายตัวแปรการสร้างแบบจำลองและการวิเคราะห์หลายตัวแปรสำหรับพฤติกรรมศาสตร์
สำหรับ 'ตัวแปร' ผมจะบอกว่านี้เป็นวิธีการทั่วไปในการอ้างถึงตัวแปรสุ่มใดที่เป็นไปตามการกระจายเป็นที่รู้จักหรือตั้งสมมติฐานเช่นเราพูดถึง variates เกาส์เป็นชุดของการสังเกตมาจากการกระจายปกติ (มีพารามิเตอร์μและσ 2 ) ในแง่ความน่าจะเป็นเรากล่าวว่าเหล่านี้คือบางสุ่มเข้าใจของเอ็กซ์ด้วยความคาดหวังทางคณิตศาสตร์μและประมาณ 95% ของพวกเขาที่คาดว่าจะอยู่ในช่วง[ μ - 2 σ ; μ + 2 σ ]
นี่คือสองตัวอย่างที่เกี่ยวข้องอย่างใกล้ชิดซึ่งแสดงให้เห็นถึงความคิด ตัวอย่างเป็นศูนย์กลางของสหรัฐอเมริกา แต่ความคิดสามารถคาดการณ์ไปยังประเทศอื่น ๆ
ตัวอย่างที่ 1
สมมติว่ามหาวิทยาลัยต้องการที่จะปรับแต่งเกณฑ์การรับเข้าเรียนเพื่อให้พวกเขายอมรับนักศึกษาที่ดีขึ้น นอกจากนี้สมมติว่าเกรดเฉลี่ยของนักเรียน (GPA) เป็นสิ่งที่มหาวิทยาลัยต้องการใช้เป็นตัวชี้วัดประสิทธิภาพสำหรับนักเรียน พวกเขามีเกณฑ์หลายข้อเช่น GPA (HSGPA), SAT SAT (SAT), เพศและอื่น ๆ และต้องการทราบว่าหนึ่งในเกณฑ์เหล่านี้เกี่ยวข้องกับเกรดเฉลี่ย
การแก้ไข: การถดถอยหลายครั้ง
ในบริบทข้างต้นมีตัวแปรตามหนึ่งตัว (GPA) และคุณมีตัวแปรอิสระหลายตัว (HSGPA, SAT, เพศ ฯลฯ ) คุณต้องการค้นหาว่าตัวแปรอิสระตัวใดตัวหนึ่งเป็นตัวทำนายที่ดีสำหรับตัวแปรตามของคุณ คุณจะใช้การถดถอยหลายครั้งเพื่อทำการประเมินนี้
ตัวอย่างที่ 2
แทนที่จะเป็นสถานการณ์ที่กล่าวมาข้างต้นสมมติว่าฝ่ายธุรการต้องการติดตามผลการเรียนของนักเรียนตลอดเวลาและประสงค์จะกำหนดว่าเกณฑ์ใดเกณฑ์หนึ่งของพวกเขาจะผลักดันผลการปฏิบัติงานของนักเรียนข้ามเวลา กล่าวอีกนัยหนึ่งพวกเขามีคะแนนเกรดเฉลี่ยเป็นเวลาสี่ปีที่นักเรียนอยู่ในโรงเรียน (พูด GPA1, GPA2, GPA3, GPA4) และพวกเขาต้องการที่จะรู้ว่าตัวแปรอิสระตัวใดตัวหนึ่งทำนายคะแนน GPA ได้ดีขึ้นทุกปี ปีพื้นฐาน สำนักงานการรับสมัครหวังว่าจะพบว่าตัวแปรอิสระเดียวกันทำนายประสิทธิภาพตลอดทั้งสี่ปีเพื่อให้เกณฑ์การคัดเลือกของพวกเขามั่นใจได้ว่าผลการเรียนของนักเรียนจะสูงอย่างต่อเนื่องตลอดทั้งสี่ปี
วิธีแก้ปัญหา: การถดถอยหลายตัวแปร
ในตัวอย่างที่ 2 เรามีตัวแปรหลายตัว (เช่น GPA1, GPA2, GPA3, GPA4) และตัวแปรอิสระหลายตัว ในสถานการณ์เช่นนี้คุณจะใช้การถดถอยหลายตัวแปร
อ่านเพิ่มเติม:
ฉันคิดว่าข้อมูลเชิงลึกที่สำคัญ (และความแตกต่าง) ที่นี่นอกเหนือจากจำนวนของตัวแปรทั้งสองข้างของสมการคือสำหรับกรณีของการถดถอยหลายตัวแปรเป้าหมายคือการใช้ประโยชน์จากความจริงที่ว่ามีความสัมพันธ์ระหว่างตัวแปรตอบสนอง (หรือโดยทั่วไป) ผล) ตัวอย่างเช่นในการทดลองทางการแพทย์ตัวทำนายอาจเป็นน้ำหนักอายุและเชื้อชาติและตัวแปรผลลัพธ์คือความดันโลหิตและคอเลสเตอรอล ในทางทฤษฎีเราสามารถสร้างแบบจำลอง "การถดถอยแบบหลายจุด" สองแบบแบบหนึ่งความดันโลหิตแบบหนึ่งต่อน้ำหนักอายุและเชื้อชาติและแบบจำลองที่สองที่ควบคุมระดับโคเลสเตอรอลในปัจจัยเดียวกัน อย่างไรก็ตามอีกวิธีหนึ่งเราสามารถสร้างแบบจำลองการถดถอยหลายตัวแปรเดียวที่ทำนายทั้งสองอย่างความดันโลหิตและคอเลสเตอรอลพร้อมกันขึ้นอยู่กับตัวแปรทำนายสามตัว แนวคิดที่ว่าแบบจำลองการถดถอยหลายตัวแปรอาจดีกว่า (คาดการณ์ได้มากกว่า) จนถึงระดับที่สามารถเรียนรู้เพิ่มเติมได้จากความสัมพันธ์ระหว่างความดันโลหิตและคอเลสเตอรอลในผู้ป่วย
ในการถดถอยหลายตัวแปรมีมากกว่าหนึ่งตัวแปรขึ้นอยู่กับความแปรปรวนที่แตกต่างกัน (หรือการกระจาย) ตัวแปรตัวทำนายอาจมากกว่าหนึ่งตัวหรือหลายตัว ดังนั้นมันอาจเป็นการถดถอยหลายครั้งพร้อมเมทริกซ์ของตัวแปรตามเช่นตัวแปรหลายตัว แต่เมื่อเราบอกว่าการถดถอยหลายครั้งเราหมายถึงเพียงหนึ่งตัวแปรขึ้นอยู่กับการกระจายหรือความแปรปรวนเดียว ตัวแปรตัวทำนายมีมากกว่าหนึ่งตัว เพื่อสรุปหลายรายการหมายถึงตัวแปรทำนายมากกว่าหนึ่งตัวแปร แต่หลายตัวแปรหมายถึงตัวแปรตามมากกว่าหนึ่งตัว