การตัดสินใจระหว่างตัวแบบการถดถอยเชิงเส้นหรือตัวแบบการถดถอยเชิงเส้น


10

เราควรเลือกระหว่างการใช้โมเดลการถดถอยเชิงเส้นหรือแบบจำลองการถดถอยเชิงเส้นอย่างไร

เป้าหมายของฉันคือการทำนาย Y

ในกรณีของชุดข้อมูลและy ที่เรียบง่ายฉันสามารถตัดสินใจได้อย่างง่ายดายว่ารูปแบบการถดถอยควรใช้โดยการพล็อตพล็อตกระจายxy

ในกรณีที่มีหลายตัวแปรเช่นและY ฉันจะตัดสินใจได้อย่างไรว่าจะใช้รูปแบบการถดถอยแบบใด นั่นคือฉันจะตัดสินใจเกี่ยวกับการใช้โมเดลเชิงเส้นอย่างง่ายหรือแบบจำลองเชิงเส้นแบบไม่ได้เช่น quadric, cubic เป็นต้นx1,x2,...xny

มีเทคนิคหรือวิธีการทางสถิติหรือแปลงกราฟิกเพื่ออนุมานและตัดสินใจว่าจะใช้รูปแบบการถดถอยหรือไม่?


"โมเดลที่ไม่ใช่เชิงเส้น" เป็นหมวดหมู่ที่ค่อนข้างกว้าง คุณมีหนึ่งในใจ? เป้าหมายการวิเคราะห์ของคุณคืออะไร?
shadowtalker

ขึ้นอยู่กับเป้าหมายของคุณ คุณกำลังสร้างแบบจำลองการทำนาย / การพยากรณ์หรือไม่?
Aksakal

การทำนายคือเป้าหมายของฉัน
shakthydoss

1
หากคุณอยู่ในรูปแบบ "พล็อตข้อมูล" แต่สำหรับผู้ทำนายหลายคนจะมีการเพิ่มพล็อตตัวแปรซึ่งอาจมีค่าบางอย่าง แต่หากเป้าหมายของคุณคือการคาดการณ์ปัญหาคือคุณกำลังเลือกว่าจะคอมไพล์โดยดูจากข้อมูลดังนั้นมันจะดูดีกว่าข้อมูลที่คุณมีมากกว่าข้อมูลอื่น ๆ (และมีปัญหาอื่น ๆ อีกมากมายที่มาพร้อมกับ วิธีการเลือกรูปแบบ) - เพื่อประเมินความสามารถในการทำนายตัวอย่างอย่างถูกต้องคุณต้องประเมินสิ่งต่าง ๆ ในตัวอย่างที่เก็บไว้ / พิจารณาบางอย่างเช่นการตรวจสอบความถูกต้องข้าม
Glen_b

1
คุณอาจพบว่ามีประโยชน์เกี่ยวกับการสนทนาที่เกี่ยวข้องที่ฉันได้เริ่มเมื่อไม่นาน
Aleksandr Blekh

คำตอบ:


10

นี่คือขอบเขตของสถิติที่เรียกว่าการเลือกแบบจำลอง มีการวิจัยมากมายในพื้นที่นี้และไม่มีคำตอบที่ชัดเจนและง่าย

X1,X2X3X32X1,X2X3X1,X2,X3X32(โมเดลที่ซับซ้อน) ในการสร้างแบบจำลองคุณมี (อย่างน้อย) หนึ่งในเป้าหมายหลักสองข้อต่อไปนี้:

  1. X1YX2,...Xp
  2. YY

หากเป้าหมายของคุณคือหมายเลข 1 ดังนั้นฉันขอแนะนำให้ทดสอบอัตราส่วนความน่าจะเป็น (LRT) LRT จะใช้เมื่อคุณมีแบบจำลองหลายระดับและคุณต้องการที่จะรู้ว่า "ข้อมูลเหล่านี้มีแนวโน้มที่จะมาจากแบบจำลองที่ซับซ้อนมากกว่าแบบจำลองแบบคู่ขนานหรือไม่?" วิธีนี้จะช่วยให้คุณเข้าใจว่าแบบจำลองใดอธิบายความสัมพันธ์ระหว่างข้อมูลของคุณได้ดีขึ้น

k


ได้โปรดคุณช่วย / อธิบายความแตกต่างระหว่างเป้าหมาย (1) และ (2) ให้เด่นชัดขึ้นได้ไหม? ปัจจุบันมีความแตกต่างไม่มาก
ttnphns

@ttnphns ฉันได้เพิ่มคำอธิบายสั้น ๆ ของสองเป้าหมาย
TrynnaDoStat

@TrynnaDoStat เพียงแค่สับสนที่นี่โดยคำสั่งเลือกรูปแบบการทำนายงานที่ดีที่สุด โดยรุ่นที่ดีที่สุดคุณหมายถึงการเลือกระหว่างโมเดลเชิงเส้น (แบบปิด) และแบบจำลองที่ซับซ้อน .... ใช่ไหม เพราะสิ่งที่ฉันรู้คือ k-fold CV แบบปล่อยครั้งเดียวจะถูกใช้เพื่อตรวจสอบประสิทธิภาพของแบบจำลองในข้อมูลที่มองไม่เห็น พวกเขาไม่ได้ใช้สำหรับการเลือกรูปแบบ ฉันสับสนที่นี่
tushaR

1

เมื่อฉัน google สำหรับ "แบบจำลองเชิงเส้นหรือแบบเชิงเส้นสำหรับการถดถอย" ฉันได้รับลิงก์บางอย่างซึ่งนำไปสู่หนังสือเล่มนี้: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf หนังสือเล่มนี้ไม่น่าสนใจและฉันไม่ ไม่น่าเชื่อถือ 100% (ด้วยเหตุผลบางอย่าง)

ฉันพบบทความนี้ด้วย: http://hunch.net/?p=524หัวข้อ: เกือบทุกปัญหาธรรมชาติต้องใช้แบบไม่เชิงเส้น

ฉันยังพบคำถามที่คล้ายกันพร้อมคำอธิบายที่ดีงาม: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

จากประสบการณ์ของฉันเมื่อคุณไม่รู้ว่ารุ่นใดใช้ให้ใช้ทั้งสองและลองใช้คุณสมบัติอื่น


0

เมื่อคุณระบุตัวแบบเชิงเส้นโดยทั่วไปจะง่ายกว่าตัวแบบที่ไม่ใช่เชิงเส้นซึ่งหมายความว่ามันทำงานได้เร็วขึ้น (การสร้างและการทำนาย) ง่ายต่อการตีความและอธิบายและมักจะตรงไปข้างหน้าในการวัดความผิดพลาด ดังนั้นเป้าหมายคือการค้นหาว่าข้อสันนิษฐานของการถดถอยแบบเส้นตรงถือกับข้อมูลของคุณหรือไม่ (ถ้าคุณไม่สนับสนุนเส้นตรงจากนั้นลองใช้แบบไม่เชิงเส้น) โดยปกติแล้วคุณจะทำซ้ำพล็อตตัวแปรเดียวของคุณพร้อมกับตัวแปรทั้งหมดทีละตัวโดยคงค่าตัวแปรอื่น ๆ ทั้งหมดให้คงที่

อย่างไรก็ตามที่สำคัญกว่านั้นคือคุณต้องการทราบว่าคุณสามารถใช้การแปลงแบบโต้ตอบหรือตัวแปรดัมมี่เพื่อย้ายข้อมูลของคุณไปยังพื้นที่เชิงเส้นได้ไหม หากคุณสามารถตรวจสอบสมมติฐานหรือถ้าคุณรู้ว่าข้อมูลของคุณดีพอที่จะนำการเปลี่ยนแปลงหรือดัดแปลงที่ได้แรงบันดาลใจมาหรือแจ้งให้ทราบอย่างชาญฉลาดคุณต้องการดำเนินการแปลงนั้นและใช้การถดถอยเชิงเส้น เมื่อคุณมีส่วนที่เหลือคุณสามารถพล็อตค่ากับค่าที่คาดการณ์ไว้หรือตัวแปรอิสระเพื่อตัดสินใจเพิ่มเติมว่าคุณต้องการไปยังวิธีที่ไม่ใช่เชิงเส้นหรือไม่

มีรายละเอียดที่ดีเยี่ยมของสมมติฐานของการถดถอยเชิงเส้นเป็นที่นี่ที่ดยุค สมมติฐานหลักสี่ข้อถูกระบุไว้และแต่ละอันถูกแบ่งย่อยลงในเอฟเฟ็กต์ของโมเดลวิธีการวินิจฉัยในข้อมูลและวิธีที่เป็นไปได้ในการ "แก้ไข" (เช่นแปลงหรือเพิ่ม) ข้อมูลเพื่อให้มีการสันนิษฐาน นี่คือข้อความที่ตัดตอนมาเล็กน้อยจากด้านบนสรุปข้อสมมติฐานสี่ข้อที่กล่าวถึง แต่คุณควรไปที่นั่นและอ่านรายละเอียด

มีสมมติฐานหลักสี่ข้อที่ปรับการใช้โมเดลการถดถอยเชิงเส้นเพื่อวัตถุประสงค์ในการอนุมานหรือการทำนาย:

(i) ลิเนียริตี้และความไวของความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ:

(a) ค่าที่คาดหวังของตัวแปรตามเป็นฟังก์ชันเส้นตรงของตัวแปรอิสระแต่ละตัวซึ่งถือค่าคงที่อื่น ๆ

(b) ความชันของบรรทัดนั้นไม่ได้ขึ้นอยู่กับค่าของตัวแปรอื่น ๆ

(c) ผลกระทบของตัวแปรอิสระต่าง ๆ ที่มีต่อค่าที่คาดหวังของตัวแปรที่ต้องพึ่งพานั้นคือสารเติมแต่ง

(ii) ความเป็นอิสระทางสถิติของข้อผิดพลาด (โดยเฉพาะไม่มีความสัมพันธ์ระหว่าง> ข้อผิดพลาดติดต่อกันในกรณีของข้อมูลอนุกรมเวลา)

(iii) homoscedasticity (ความแปรปรวนคงที่) ของข้อผิดพลาด

(a) กับเวลา (ในกรณีของข้อมูลอนุกรมเวลา)

(b) กับการคาดการณ์

(c) กับตัวแปรอิสระใด ๆ

(iv) ความปกติของการกระจายข้อผิดพลาด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.