ฉันมีความคิดที่ไร้เดียงสาว่าการถดถอยเชิงเส้นนั้นเหมาะสมเมื่อผู้ต้องสงสัยคนหนึ่งเท่านั้นที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรอธิบายและตัวแปรตอบสนอง แต่มีแอพพลิเคชั่นในโลกแห่งความจริงไม่มากนักที่ดูเหมือนจะตรงตามเกณฑ์นี้
นี่ไม่ใช่ความเข้าใจที่ถูกต้องของสิ่งที่ "เชิงเส้น" ใน "การถดถอยเชิงเส้น"
มันไม่ใช่ความสัมพันธ์ระหว่างกับที่สันนิษฐานว่าเป็นรูปแบบเชิงเส้น (แม้ว่าตัวอย่างเบื้องต้นทั้งหมดจะทำให้คุณเข้าใจผิด)xyx
"เส้นตรง" หมายถึงโมเดลที่เป็นเส้นตรงในพารามิเตอร์และความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างและบางตัวสามารถจำลองแบบได้อย่างแน่นอนxyx
มีตัวอย่างที่มีตัวพยากรณ์เดี่ยวที่นี่แต่โมเดล curvilinear นั้นมักจะพอดีกับการถดถอยหลายครั้งโดยที่ฟังก์ชันหลายอย่างของตัวทำนาย (ตัวแปร x ตัวแปรอิสระ) อาจเกิดขึ้นในการถดถอยและสิ่งนี้ทำให้มีความยืดหยุ่นมาก ซึ่งรวมถึงการถดถอยพหุนาม ดูการอภิปรายและตัวอย่างที่นี่
อย่างไรก็ตามถ้าเรายอมให้ความจริงที่ว่าตัวทำนายนั้นสามารถถูกแปลงเพื่อให้เหมาะสมกับความสัมพันธ์ที่โค้งงอ, ความเป็นเส้นตรงในพารามิเตอร์ก็สอดคล้องกับความเป็นเส้นตรงในตัวทำนายที่ถูกเปลี่ยนรูปด้วยเช่นกัน
นอกจากนี้ปัญหาหลายอย่างอยู่ใกล้กับเส้นตรง (อย่างน้อยในช่วงของค่าที่พิจารณา) หรือมีเสียงดังจนความโค้งอ่อน ๆ ไม่สามารถมองเห็นได้และแบบจำลองที่เรียบง่ายหลากหลายรูปแบบสำหรับการเพิ่มหรือลดความสัมพันธ์อาจทำได้ - และในกรณีนั้นตัวเลือกเชิงเส้นอาจมีทั้งเพียงพอและง่ายที่สุดเพื่อให้พอดีและเข้าใจ
แง่มุมของโครงการที่นักสถิติที่มีประสบการณ์กำลังคิดอยู่ว่าพวกเขาอยู่ในรองเท้าของฉันหรือไม่โดยมองหาคำถาม + ข้อมูลที่เหมาะสมกับการถดถอยเชิงเส้น
ครั้งเดียวที่ฉันอาจมองหาปัญหาที่จะนำการถดถอยไปใช้คือเมื่อฉันพยายามหาตัวอย่างที่ดีสำหรับการสอน เมื่อจริง ๆ แล้วในตำแหน่งของการทำงานทางสถิติ (แทนที่จะอธิบายหรือสอนมัน) ฉันเลือกวิธีการที่เหมาะสมกับคำถามที่สนใจ (และลักษณะของข้อมูล) แทนที่จะเลือกข้อมูลให้เหมาะกับวิธีการ
ลองจินตนาการถึงช่างไม้ ช่างไม้ไม่รับโฆษกและพูดว่า "ฉันจะใช้สิ่งนี้กับอะไรได้บ้าง" ค่อนข้างช่างไม้มีปัญหาในการแก้ปัญหาและในการพิจารณาลักษณะของปัญหา ("ฉันกำลังพยายามทำอะไร" และ "ฉันใช้ไม้ชนิดใด?" และอื่น ๆ ... ) อาจเป็นเครื่องมือพิเศษ มีความเกี่ยวข้องมากกว่าคนอื่น บางครั้งเครื่องมือที่มีอยู่อาจ จำกัด หรือแนวทางในการเลือก (ถ้าคุณไม่ได้มี spokeshave คุณอาจจะต้องทำอย่างไรกับสิ่งอื่น ... หรือคุณก็อาจจะต้องไปซื้อ spokeshave ก)
อย่างไรก็ตามสมมติว่าคุณมีนักสถิติพ็อกเก็ตช่วยคุณและคุณพยายามค้นหาปัญหาที่เหมาะสมกับการถดถอยเชิงเส้น จากนั้นพวกเขาอาจแนะนำให้คุณพิจารณาสมมติฐานการถดถอยที่หลากหลายและเมื่อพวกเขาสำคัญ ฉันจะพูดถึงบางสิ่ง
หากคุณสนใจที่จะปรับความสัมพันธ์ระหว่าง y และunivariate (อาจจะถูกแปลง) x ส่วนใหญ่ของสมมติฐานไม่จำเป็นว่าจะต้องเกี่ยวข้องกับคุณ (ทฤษฎีของ Gauss-Markov อาจมีความเกี่ยวข้องกัน) คุณกำลังมองหากรณีที่คุณคิดว่ามีลักษณะเป็นเส้นตรงในสำหรับบางคนรู้จัก - (นั่นคือถือว่าเรารู้ว่ารูปแบบการทำงานของความสัมพันธ์ที่เราต้องการ) . การเขียนเราต้องการอย่างน้อยก็ประมาณจริงg ( x ) g x ∗ = x E ( y | x ∗ ) = a + b x ∗E(y|g(x))g(x)gx∗=xE(y|x∗)=a+bx∗
หากคุณสามารถใช้การถดถอยหลายครั้งแม้ว่าจะไม่ใช่ปัญหาสำคัญโดยเฉพาะเนื่องจากสามารถใช้ (ตัวอย่าง) เส้นโค้งการถดถอยแบบลูกบาศก์เพื่อให้เหมาะกับความสัมพันธ์ทั่วไปได้
ฉันขอแนะนำให้คุณหลีกเลี่ยงข้อมูลเมื่อเวลาผ่านไปเว้นแต่คุณจะเข้าใจปัญหาที่เกิดขึ้นกับการถดถอยแบบลวงตา ติดกับปัญหาหน้าตัด
หากคุณกำลังติดต่อกับเพียงคนเดียวฉันหวังว่าคุณต้องการอย่างต่อเนื่องมากกว่าเด็ดขาดxxxx
คุณไม่ต้องการที่จะมีข้อผิดพลาดในการวัดในเว้นแต่คุณจะสนใจในการปรับความคาดหวังของค่าที่วัดได้x
หากคุณสนใจในการทดสอบสมมติฐานช่วงความเชื่อมั่นหรือช่วงเวลาการคาดเดาสมมติฐานการถดถอยตามปกติอาจมีความสำคัญมากกว่า (แต่มีทางเลือกอื่นที่ไม่ได้ตั้งสมมติฐานเหล่านั้นและในบางกรณีอย่างน้อยสมมติฐานบางข้ออาจไม่ มีความสำคัญเป็นพิเศษอยู่แล้ว)
อย่างน้อยสิ่งหนึ่งที่พยายามจะระวังคือสิ่งที่สมมติฐานเหล่านั้นทำขึ้นเพื่อให้ได้กระบวนการอนุมานที่คุณใช้และความสำคัญของปัญหาที่อาจเกิดขึ้นกับปัญหาเฉพาะของคุณ (เป็นตัวอย่างเมื่อทำการทดสอบสมมติฐานตามปกติ ปกติเป็นข้อสันนิษฐาน แต่ในตัวอย่างขนาดใหญ่ที่การสันนิษฐานอาจไม่สำคัญในทางกลับกันสมมติฐานของความแปรปรวนคงที่อาจมีปัญหามากขึ้น)
มีโพสต์จำนวนมากที่กล่าวถึงข้อสันนิษฐานของการถดถอยและบางโพสต์ที่กล่าวถึงเมื่อพวกเขาจำเป็นต้องทำและจำนวนที่พวกเขาอาจมีความสำคัญและแม้กระทั่งสิ่งที่สั่งให้พิจารณาพวกเขามา