เกณฑ์และการตัดสินใจสำหรับความไม่เป็นเส้นตรงในแบบจำลองทางสถิติคืออะไร


10

ฉันหวังว่าคำถามทั่วไปต่อไปนี้จะสมเหตุสมผล โปรดทราบว่าสำหรับวัตถุประสงค์ของคำถามนี้โดยเฉพาะฉันไม่สนใจเหตุผลทางทฤษฎี (โดเมนหัวเรื่อง) สำหรับการแนะนำที่ไม่ใช่เชิงเส้น ดังนั้นฉันจะกำหนดคำถามแบบเต็มดังนี้:

กรอบตรรกะคืออะไร( เกณฑ์และหากเป็นไปได้กระบวนการตัดสินใจ ) สำหรับการนำเสนอแบบไม่เป็นเชิงเส้นในแบบจำลองเชิงสถิติด้วยเหตุผลนอกเหนือจากเชิงทฤษฎี (โดเมนเรื่อง)? เช่นเคยทรัพยากรและการอ้างอิงที่เกี่ยวข้องก็ยินดีต้อนรับเช่นกัน

คำตอบ:


7

กระบวนการสร้างแบบจำลองเกี่ยวข้องกับผู้สร้างแบบจำลองตัดสินใจหลายอย่าง หนึ่งในการตัดสินใจเกี่ยวกับการเลือกที่แตกต่างกันในหมู่ชั้นเรียนของแบบจำลองในการสำรวจ มีหลายรุ่นของโมเดลที่สามารถพิจารณาได้; ตัวอย่างเช่นรุ่น ARIMA, รุ่น ARDL, รุ่นแหล่งที่มาหลายแห่งของข้อผิดพลาด State-Space, รุ่น LSTAR, รุ่น Min-Max เพื่อตั้งชื่อ แต่เพียงเล็กน้อย แน่นอนว่าบางรุ่นของคลาสนั้นกว้างกว่ารุ่นอื่นและไม่ธรรมดาที่จะพบว่าบางรุ่นของคลาสนั้นเป็นคลาสย่อยของผู้อื่น

จากลักษณะของคำถามเราสามารถมุ่งเน้นไปที่โมเดลสองคลาสเท่านั้น แบบจำลองเชิงเส้นและรูปแบบที่ไม่ใช่เชิงเส้น

ด้วยภาพข้างบนในใจฉันจะเริ่มตอบคำถามของ OPs เมื่อมันมีประโยชน์ที่จะนำโมเดลที่ไม่ใช่เชิงเส้นมาใช้และหากมีกรอบตรรกะสำหรับการทำเช่นนั้น - จากมุมมองเชิงสถิติและระเบียบวิธี

สิ่งแรกที่ควรสังเกตคือโมเดลเชิงเส้นเป็นซับคลาสย่อยของโมเดลที่ไม่ใช่เชิงเส้น กล่าวอีกนัยหนึ่งแบบจำลองเชิงเส้นเป็นกรณีพิเศษของแบบจำลองเชิงเส้น มีข้อยกเว้นบางประการสำหรับข้อความนั้น แต่สำหรับจุดประสงค์ในปัจจุบันเราจะไม่สูญเสียมากนักโดยการยอมรับเพื่อทำให้เรื่องง่ายขึ้น

โดยทั่วไปแล้วตัวสร้างโมเดลจะเลือกคลาสของโมเดลและดำเนินการเลือกโมเดลจากภายในคลาสนั้นโดยใช้วิธีการบางอย่าง ตัวอย่างง่าย ๆ คือเมื่อเราตัดสินใจสร้างแบบจำลองอนุกรมเวลาเป็นกระบวนการ ARIMA จากนั้นทำตามวิธีการของ Box-Jenkins เพื่อเลือกรูปแบบจากหมู่คลาสของแบบจำลอง ARIMA การทำงานในรูปแบบนี้ด้วยวิธีการที่เกี่ยวข้องกับครอบครัวของนางแบบเป็นเรื่องของความจำเป็นในทางปฏิบัติ

ผลที่ตามมาของการตัดสินใจสร้างแบบจำลองที่ไม่ใช่เชิงเส้นคือปัญหาการเลือกแบบจำลองจะยิ่งใหญ่กว่า (ต้องพิจารณาแบบจำลองให้มากขึ้นและต้องเผชิญกับการตัดสินใจที่มากขึ้น) เมื่อเปรียบเทียบกับการเลือกจากชุดแบบจำลองเชิงเส้นขนาดเล็กกว่า ปัญหาในทางปฏิบัติที่มือ ยิ่งไปกว่านั้นอาจมีวิธีการที่ไม่ได้รับการพัฒนาอย่างเต็มที่ (รู้จัก, ยอมรับ, เข้าใจ, ง่ายต่อการสื่อสาร) เพื่อใช้ในการเลือกจากตระกูลที่ไม่ใช่แบบเชิงเส้นบางตระกูล ยิ่งไปกว่านั้นข้อเสียเปรียบอีกประการของการสร้างแบบจำลองที่ไม่ใช่เชิงเส้นคือแบบจำลองเชิงเส้นนั้นใช้งานง่ายกว่าและคุณสมบัติความน่าจะเป็นที่รู้จักกันดีกว่า ( Teräsvirta, Tjøstheimและ Granger (2010 )

ที่กล่าวว่า OP ขอพื้นที่ทางสถิติสำหรับแนวทางการตัดสินใจมากกว่าการปฏิบัติหรือทฤษฎีโดเมนดังนั้นฉันต้องดำเนินการต่อไป

ก่อนที่จะใคร่ครวญถึงวิธีจัดการกับการเลือกตัวแบบที่ไม่ใช่เชิงเส้นที่จะทำงานด้วยเราต้องตัดสินใจในขั้นต้นว่าจะทำงานกับตัวแบบเชิงเส้นหรือตัวแบบที่ไม่ใช่เชิงเส้นแทน การตัดสินใจ! วิธีการเลือกนี้?

จากการอุทธรณ์ไปยังGranger และ Terasvirta (1993)ฉันใช้การโต้แย้งต่อไปนี้ซึ่งมีสองประเด็นหลักในการตอบคำถามสองข้อต่อไปนี้

ถาม: เมื่อใดจะมีประโยชน์ในการสร้างแบบจำลองที่ไม่ใช่เชิงเส้น? ในระยะสั้นอาจเป็นประโยชน์ในการสร้างแบบจำลองที่ไม่ใช่เชิงเส้นเมื่อชั้นของแบบจำลองเชิงเส้นได้รับการพิจารณาแล้วและถือว่าไม่เพียงพอที่จะอธิบายลักษณะความสัมพันธ์ภายใต้การตรวจสอบ ขั้นตอนการสร้างแบบจำลองที่ไม่ใช่เชิงเส้น (กระบวนการตัดสินใจ) สามารถกล่าวได้ว่าง่ายไปสู่ทั่วไปในแง่ที่ว่ามันเป็นไปจากเชิงเส้นถึงไม่ใช่เชิงเส้น

ถาม: มีเหตุผลทางสถิติที่สามารถนำมาใช้ในการสร้างโมเดลที่ไม่ใช่เชิงเส้นได้หรือไม่? หากมีใครตัดสินใจที่จะสร้างแบบจำลองที่ไม่ใช่เชิงเส้นโดยอิงจากผลลัพธ์ของการทดสอบความเป็นเชิงเส้นฉันจะบอกว่าใช่มี หากการทดสอบเชิงเส้นแสดงให้เห็นว่าไม่มีความสัมพันธ์เชิงเส้นที่มีนัยสำคัญในความสัมพันธ์ดังนั้นไม่แนะนำให้สร้างแบบจำลองเชิงเส้น การทดสอบควรนำหน้าการตัดสินใจสร้าง

ฉันจะชี้ประเด็นเหล่านี้ออกมาโดยอ้างอิงโดยตรงกับ Granger และ Terasvirta (1993):

ก่อนที่จะสร้างแบบจำลองที่ไม่เชิงเส้นขอแนะนำให้ดูว่าจริง ๆ แล้วตัวแบบเชิงเส้นจะแสดงลักษณะของความสัมพันธ์ [เศรษฐกิจ] ภายใต้การวิเคราะห์ หากเป็นกรณีนี้จะมีทฤษฎีทางสถิติมากกว่าสำหรับการสร้างแบบจำลองที่สมเหตุสมผลกว่าถ้าแบบจำลองไม่เชิงเส้นมีความเหมาะสม นอกจากนี้การได้รับการพยากรณ์ที่ดีที่สุดสำหรับช่วงเวลาล่วงหน้ามากกว่าหนึ่งช่วงเวลานั้นจะง่ายกว่ามากหากตัวแบบเป็นแบบเชิงเส้น มันอาจเกิดขึ้นอย่างน้อยเมื่ออนุกรมเวลาสั้นนักวิจัยประเมินโมเดลที่ไม่เป็นเชิงเส้นได้สำเร็จแม้ว่าความสัมพันธ์ที่แท้จริงระหว่างตัวแปรจะเป็นเส้นตรง อันตรายของการสร้างแบบจำลองที่ซับซ้อนโดยไม่จำเป็นนั้นเป็นจริง แต่สามารถลดลงได้ด้วยการทดสอบลิเนียริตี้

ในหนังสือเล่มล่าสุดTeräsvirta, Tjøstheimและ Granger (2010) ได้รับคำแนะนำแบบเดียวกันซึ่งตอนนี้ฉันพูด:

จากมุมมองของภาคปฏิบัติมันมีประโยชน์ [ดังนั้น] เพื่อทดสอบความเป็นเชิงเส้นก่อนที่จะพยายามประเมินโมเดลที่ไม่เชิงเส้นที่ซับซ้อนมากขึ้น ในหลายกรณีการทดสอบมีความจำเป็นอย่างยิ่งจากมุมมองทางสถิติ จำนวนโมเดลที่ไม่ใช่เชิงเส้นที่ได้รับความนิยมจำนวนมากไม่ได้ระบุไว้ภายใต้ลิเนียริตี้ หากแบบจำลองจริงที่สร้างข้อมูลเป็นแบบเส้นตรงและแบบจำลองไม่เชิงเส้นหนึ่งมีความสนใจในรังแบบจำลองเชิงเส้นนี้พารามิเตอร์ของแบบจำลองแบบไม่เชิงเส้นไม่สามารถประมาณได้อย่างสม่ำเสมอ ดังนั้นการทดสอบความเป็นเชิงเส้นต้องนำหน้าแบบจำลองเชิงเส้นและการประมาณค่าใด ๆ

ขอยกตัวอย่างด้วย

ในบริบทของการสร้างแบบจำลองวงจรธุรกิจตัวอย่างของการใช้เหตุผลเชิงสถิติเพื่อแสดงให้เห็นถึงการสร้างแบบจำลองที่ไม่ใช่เชิงเส้นอาจมีดังต่อไปนี้ เนื่องจากแบบจำลองเชิงเส้นเชิงเส้น univariate หรือเวกเตอร์ autoregressive ไม่สามารถสร้างอนุกรมเวลาแบบอสมมาตรได้ดังนั้นวิธีการสร้างแบบจำลองที่ไม่เป็นเชิงเส้นซึ่งสามารถจัดการกับความไม่สมดุลของข้อมูลได้นั้นเป็นสิ่งที่ควรพิจารณา รุ่นขยายตัวของตัวอย่างนี้เกี่ยวกับข้อมูลreversibilityสามารถพบได้ในตง (1993)

ขอโทษถ้าฉันจดจ่อกับโมเดลซีรี่ย์เวลามากเกินไป อย่างไรก็ตามฉันแน่ใจว่าแนวคิดบางอย่างสามารถนำไปใช้ในการตั้งค่าอื่น ๆ ได้เช่นกัน


2
แกรมคำตอบของคุณนั้นยอดเยี่ยมและในขณะที่คำตอบอื่น ๆ ก็ยอดเยี่ยมเช่นกันคุณเป็นคนที่ใกล้เคียงที่สุดกับสิ่งที่ฉันกำลังมองหา (มินิเวอร์ชันถ้าคุณต้องการ) +1 และยอมรับ ฉันซาบซึ้งอย่างยิ่งที่คุณพยายามเตรียมคำตอบของคุณ ฉันแน่ใจว่าฉันจะตรวจสอบมันมากกว่าหนึ่งครั้งเช่นเดียวกับการอ้างอิง ฉันคิดว่าหนังสือของดร. ฮาร์เรลล์เกี่ยวกับกลยุทธ์การถดถอยยังมีกรอบบางส่วนที่ฉันควรจะมี ยังไงก็ตามความคิดของฉันเกี่ยวกับกรอบสถิติเชิงใจได้แรงบันดาลใจจากหนังสือที่ยอดเยี่ยมของ Lisa Harlow "สาระสำคัญของการคิดหลายตัวแปร" ซึ่งฉันมีความสุขที่ได้อ่าน
Aleksandr Blekh

12

ปัญหาที่เกิดขึ้นมากเกินไปคือการตัดสินใจว่าจะคาดหวังว่าจะเกิดปัญหาเรื่องเส้นตรงเชิงเส้นหรือไม่เช่นนั้นจะอนุญาตให้ความสัมพันธ์ไม่เป็นเชิงเส้นตามขนาดตัวอย่างที่อนุญาต กระบวนการส่วนใหญ่ในชีววิทยาสังคมศาสตร์และสาขาอื่น ๆ นั้นไม่เชิงเส้น สถานการณ์เดียวที่ฉันคาดว่าความสัมพันธ์เชิงเส้นคือ:

  1. กลศาสตร์ของนิวตัน
  2. การทำนายจากวัดได้ในเวลาก่อนหน้าYYY

ตัวอย่างหลังประกอบด้วยกรณีที่มีตัวแปรที่ขึ้นต่อกันที่วัดที่พื้นฐาน (เวลาศูนย์)Y

ฉันไม่ค่อยเห็นความสัมพันธ์ที่มีอยู่ทุกที่ในชุดข้อมูลขนาดใหญ่

การตัดสินใจที่จะรวมความไม่เชิงเส้นในตัวแบบการถดถอยนั้นไม่ได้มาจากหลักการทางสถิติระดับโลก แต่มาจากการทำงานของโลก ข้อยกเว้นอย่างหนึ่งคือเมื่อเลือกกรอบงานสถิติที่ดีที่สุดย่อยและต้องมีการแนะนำความไม่เป็นเชิงเส้นหรือเงื่อนไขการโต้ตอบเพื่อชดเชยการเลือกกรอบงานที่ไม่ดี บางครั้งอาจจำเป็นต้องใช้เงื่อนไขของการโต้ตอบเพื่อชดเชยผลกระทบหลักภายใต้การสร้างแบบจำลอง (ตัวอย่างเช่นสมมติว่าเป็นเส้นตรง) อาจต้องใช้เอฟเฟ็กต์หลักเพิ่มเติมเพื่อชดเชยการสูญเสียข้อมูลที่เกิดจากการสร้างโมเดลภายใต้เอฟเฟกต์หลักอื่น ๆ

บางครั้งนักวิจัยรู้สึกเจ็บปวดเมื่อพิจารณาว่าจะรวมตัวแปรบางตัวในขณะที่พวกเขาสนับสนุนโฮสต์ของตัวแปรอื่น ๆ หรือไม่โดยบังคับให้พวกเขาทำหน้าที่เป็นเส้นตรง จากประสบการณ์ของฉันสมมติฐานเชิงเส้นตรงเป็นหนึ่งในข้อสันนิษฐานที่มีการละเมิดมากที่สุด


2
+1 ดร. ฮาร์เรลล์ขอบคุณสำหรับคำตอบที่มีค่าของคุณ ฉันเข้าใจประเด็นของคุณ แต่ฉันยังอยากรู้เกี่ยวกับ (และที่เป็นจริงสาระสำคัญของคำถามของฉัน) สถานการณ์เมื่อนักวิจัยหรือนักวิทยาศาสตร์ข้อมูลที่มีที่จะแนะนำเพิ่มเติมส่วนประกอบที่ไม่ใช่เชิงเส้นเนื่องจากทฤษฎีทางสถิติหรือประเด็นต่างๆ (รวมถึงสถิติข้อมูลวิธีการ ฯลฯ .) ไม่ใช่ทฤษฎีโดเมน จะขอบคุณความเข้าใจของคุณเกี่ยวกับเรื่องนี้
Aleksandr Blekh

5
ลิเนียริตี้เป็นเส้นตรงขึ้นอยู่กับข้อมูล (หรือมากกว่า) บนกระบวนการมากกว่า กระบวนการส่วนใหญ่ในเขตข้อมูลส่วนใหญ่เป็นเส้นตรงเมื่อตรวจสอบในช่วงแคบ ๆ พอ (นั่นคือเหตุผลที่แคลคูลัสมีประโยชน์อย่างกว้างขวาง) และไม่เชิงเส้นในช่วงที่กว้างพอ (รวมถึงกระบวนการทางกล) แม้ว่ามันจะถูกต้องที่จะแนะนำว่าเกือบทุกอย่างอาจปรากฏขึ้นแบบไม่เชิงเส้นเมื่อมีตัวอย่างขนาดใหญ่เพียงพอ แต่อาจเป็นวิธีที่เป็นกรอบมากขึ้นในการวางกรอบปัญหาจะอยู่ในรูปแบบของการตัดสินใจเมื่อมีประโยชน์ในการนำรูปแบบเชิงเส้น
whuber

2
@whuber: ขอบคุณสำหรับความคิดเห็นของคุณ มีประโยชน์มาก. ตอนนี้ฉันเข้าใจดีขึ้นเกี่ยวกับ (ไม่) เป็นเส้นตรงจากสองมุมมอง : ทฤษฎี (โดเมนเรื่อง)และเป็นศูนย์กลางข้อมูล ฉันยังคงอยากรู้เกี่ยวกับสถิติและ / หรือระเบียบวิธีการในมุมมองของการแนะนำที่ไม่เป็นเชิงเส้นเพิ่มเติมเนื่องจากสถิติสมมติฐาน , ปัญหา (เช่นโพสต์ EDA) หรือลักษณะที่คล้ายกัน ดังนั้นนอกเหนือจากการกำหนดกรอบการแนะนำของคุณฉันยังสนใจในกรอบการตัดสินใจว่าเมื่อใดที่จะมีประโยชน์ในการนำรูปแบบที่ไม่ใช่เชิงเส้นมาใช้
Aleksandr Blekh

1
"กระบวนการส่วนใหญ่ในเขตข้อมูลส่วนใหญ่เป็นแบบเชิงเส้นเมื่อตรวจสอบในช่วงแคบ ๆ พอ (นั่นคือเหตุผลที่แคลคูลัสมีประโยชน์อย่างกว้างขวาง) และไม่เชิงเส้นในช่วงกว้างพอ" ในขณะที่ทุกคนที่เรียนวิชาแคลคูลัส การเปิดตาให้ลึกซึ้งสำหรับฉัน ขอบคุณ Dr. @whuber +1
mugen

3
@Aleksandr Blekh คุณกำลังมองหาพูดทดสอบทางสถิติหรือพล็อตที่เหลือที่จะให้เหตุผลทางสถิติ (เมื่อเทียบกับเหตุผลที่มาจากทฤษฎีพื้นฐาน) เพื่อปรับใช้แบบจำลองเชิงเส้นไม่ใช่?
mugen

4

เมื่อสร้างแบบจำลองฉันมักจะลองใช้ตัวแปรสองตัวพร้อมกับส่วนประกอบเชิงเส้น ตัวอย่างเช่นเมื่อสร้างแบบจำลองการถดถอยอย่างง่ายฉันจะขว้างเป็นสี่เหลี่ยมจัตุรัส หากมีความสำคัญ อาจเป็นกรณีสำหรับรุ่นที่ไม่ใช่เชิงเส้น สัญชาตญาณคือการขยายตัวของเทย์เลอร์ หากคุณมีฟังก์ชันเชิงเส้นอนุพันธ์อันดับแรกเท่านั้นที่ต้องไม่ใช่ศูนย์ สำหรับฟังก์ชันที่ไม่ใช่เชิงเส้นอนุพันธ์อันดับสูงกว่าจะไม่ใช่ศูนย์y i = α + β x i + γ x 2 i + ε i γ

yi=α+βxi+εi
yi=α+βxi+γxi2+εi
γ

ฉันมักจะลองใช้คุณสมบัติผู้สมัครที่ไม่สมมาตร: ถ้ามีความสำคัญฉันจึงพิจารณา สำรวจข้อกำหนดที่ไม่สมดุล

yi=α+βmax(0,xi)+γmin(0,xi)+εi
γβ

บางครั้งฉันมีค่าพิเศษหรือแถบในข้อมูลของฉัน หรือฮิสโทแกรมของตัวแปรอธิบายมีจุดบกพร่องและจุดผัน ดังนั้นฉันลองเส้นโค้งเชิงเส้นรอบจุดพิเศษหรือภูมิภาคเหล่านี้ ที่ง่ายเส้นโค้งเส้นตรงจะเป็น: นี้จะแนะนำเนินเขาที่แตกต่างกันสำหรับก่อนและหลังจุด a คุณสามารถมีหลายทางลาดสำหรับตัวแปรเดียวกันในภูมิภาคที่แตกต่างกัน หากเส้นโค้งเชิงเส้นของฉันมีความสำคัญฉันก็เล่นกับจุดที่เป็นปมและใช้มันหรือคิดแบบจำลองที่ไม่เชิงเส้น

xa=min(x,a)
xa+=max(x,a)
xx=a

นี่ไม่ใช่วิธีการที่เป็นระบบ แต่เป็นเพียงหนึ่งในสิ่งที่ฉันทำอยู่เสมอ


1
+1 ข้อมูลเชิงลึกที่น่าสนใจ ขอบคุณสำหรับการแบ่งปัน - เป็นเรื่องดีที่จะรู้ สิ่งที่ฉันชอบที่จะมี (หรือแม้กระทั่งเตรียมความพร้อม) เป็นกรอบ / กระบวนการทำงานที่สอดคล้องกันของแนวทาง (ขนาดใหญ่และขนาดเล็ก) ที่คล้ายกันโดยมีเหตุผลพื้นฐาน คุณคิดว่าการสร้างกรอบดังกล่าวจะเป็น 1) เป็นไปได้และ 2) มีคุณค่าสำหรับคนอื่น ๆ ?
Aleksandr Blekh

1
@AleksandrBlekh ฉันไม่คิดว่ามันเป็นไปได้ที่จะสร้างกรอบสากล ทั่วไปมากที่สุดในซีรีส์เวลาคือ Box-Jenkins
Aksakal

4
การทดสอบทางสถิติสำหรับการเลือกแบบจำลองจะบิดเบือนการประมาณการและโดยเฉพาะอย่างยิ่งข้อผิดพลาดมาตรฐาน
Frank Harrell

1
@ssdecontrol อาร์กิวเมนต์การขยายตัวของเทย์เลอร์ยังทำให้ฉันระวังที่จะไม่ใช้คำสั่งพหุนามที่ต่ำกว่า ตัวอย่างเช่นหากข้อกำหนดของผู้สมัครคือคุณต้องมีความเห็นที่ชัดเจนเกี่ยวกับรูปร่างของแบบจำลองของคุณ yi=β2xi2+εi
Aksakal

2
@ssdecontrol: ดูVenables (1998), "Exegeses ในแบบจำลองเชิงเส้น", การประชุมผู้ใช้ S-Plus, Washington DCสำหรับข้อมูลเพิ่มเติมเกี่ยวกับการแก้ปัญหาซีรี่ส์เทย์เลอร์
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.