อนุกรมเวลาสั้น ๆ มีค่าสำหรับการสร้างแบบจำลองหรือไม่?


14

นี่คือบริบทบางอย่าง ฉันสนใจที่จะพิจารณาว่าตัวแปรสภาพแวดล้อมสองตัว (อุณหภูมิระดับสารอาหาร) ส่งผลต่อค่าเฉลี่ยของตัวแปรตอบสนองในช่วง 11 ปีอย่างไร ภายในแต่ละปีมีข้อมูลจากที่ตั้งมากกว่า 100k แห่ง

เป้าหมายคือเพื่อตรวจสอบว่าในช่วง 11 ปีที่ผ่านมาค่าเฉลี่ยของตัวแปรตอบสนองตอบสนองต่อการเปลี่ยนแปลงของตัวแปรสภาพแวดล้อม (เช่นอุณหภูมิที่อบอุ่น + สารอาหารมากกว่าจะ = การตอบสนองมากขึ้น)

น่าเสียดายเนื่องจากการตอบสนองคือค่าเฉลี่ย (โดยไม่ได้ดูค่าเฉลี่ยการเปลี่ยนแปลงระหว่างปีปกติจะล้นสัญญาณ) การถดถอยจะเป็น 11 จุดข้อมูล (1 ค่าเฉลี่ยต่อปี) โดยมีตัวแปรอธิบาย 2 ตัว สำหรับฉันแม้แต่การถดถอยเชิงบวกเชิงเส้นก็ยากที่จะพิจารณาว่ามีความหมายเนื่องจากชุดข้อมูลนั้นมีขนาดเล็กมาก (ไม่ตรงกับคะแนน / ตัวแปร 40 คะแนนเว้นแต่ว่าความสัมพันธ์นั้นแข็งแกร่งมาก)

ฉันถูกต้องที่จะทำให้สมมติฐานนี้หรือไม่? ใครช่วยเสนอความคิด / มุมมองอื่น ๆ ที่ฉันอาจหายไป?

PS: บางประการ: ไม่มีวิธีรับข้อมูลเพิ่มเติมโดยไม่ต้องรอปีเพิ่มเติม ดังนั้นข้อมูลที่มีอยู่คือสิ่งที่เราต้องทำงานด้วย


คุณได้ลองพล็อตข้อมูลหรือไม่ ฉันจะบอกว่าความแข็งแกร่งของสหสัมพันธ์ระหว่างตัวแปรด้านสิ่งแวดล้อมและตัวแปรตอบสนองของคุณจะส่งผลต่อคำตอบ
rm999

" ภายในแต่ละปีมีข้อมูลจากที่ตั้งมากกว่า 100k " คุณสังเกตสถานที่ทั้งหมดหรือเพียงแค่ค่าเฉลี่ยตามสถานที่เหล่านั้นหรือไม่ ถ้าใช่ yo สามารถไปหาโมเดลข้อมูลพาเนลตามที่ @crayola แนะนำในบริบทเชิงเส้น แม้ว่าแบบจำลองระบบนิเวศพิเศษบางอย่างที่ @GaBorgulya กล่าวถึงอาจต้องการข้อมูลที่น้อยกว่ามากสำหรับพารามิเตอร์ในการปรับเทียบแทนที่จะประเมิน
Dmitrij Celov

คำตอบ:


8

จุดข้อมูลจำนวนน้อย จำกัด ประเภทของรูปแบบที่คุณอาจพอดีกับข้อมูลของคุณ อย่างไรก็ตามมันไม่ได้หมายความว่ามันจะไม่มีเหตุผลที่จะเริ่มสร้างแบบจำลอง ด้วยข้อมูลเพียงเล็กน้อยคุณจะสามารถตรวจสอบการเชื่อมโยงได้หากเอฟเฟกต์นั้นแข็งแกร่งและการกระจายอ่อนแอ

เป็นอีกคำถามหนึ่งที่รูปแบบที่เหมาะสมกับข้อมูลของคุณ คุณใช้คำว่า 'การถดถอย' ในชื่อเรื่อง แบบจำลองควรสะท้อนถึงสิ่งที่คุณรู้เกี่ยวกับปรากฏการณ์ สิ่งนี้ดูเหมือนจะเป็นการตั้งค่าระบบนิเวศดังนั้นปีก่อนหน้าอาจมีอิทธิพลเช่นกัน


4

ฉันเคยเห็นชุดข้อมูลระบบนิเวศที่มีน้อยกว่า 11 คะแนนดังนั้นฉันจะบอกว่าถ้าคุณระมัดระวังมากคุณสามารถสรุปข้อ จำกัด ด้วยข้อมูลที่ จำกัด ของคุณได้

คุณสามารถทำการวิเคราะห์พลังงานเพื่อกำหนดขนาดของเอฟเฟกต์ที่คุณสามารถตรวจพบได้โดยกำหนดพารามิเตอร์ของการออกแบบการทดลองของคุณ

คุณอาจไม่จำเป็นต้องเปลี่ยนรูปแบบเพิ่มเติมต่อปีหากคุณทำการวิเคราะห์อย่างรอบคอบ


4
ระมัดระวังด้วยพลังที่สังเกตได้: nottinghamtrent.academia.edu/ThomBaguley/Paper/212458/…
GaBorgulya

4

การสร้างแบบจำลองข้อมูลพื้นฐาน (โดยเฉพาะอย่างยิ่งสำหรับอนุกรมเวลา) ถือว่าคุณได้รวบรวมข้อมูลที่ความถี่เพียงพอที่เพียงพอในการจับภาพปรากฏการณ์ที่น่าสนใจ ตัวอย่างที่ง่ายที่สุดสำหรับคลื่นไซน์ - หากคุณกำลังรวบรวมข้อมูลที่ความถี่ n * pi โดยที่ n เป็นจำนวนเต็มคุณจะไม่เห็นอะไรเลยนอกจากค่าศูนย์และพลาดรูปแบบไซน์ทั้งหมด มีบทความเกี่ยวกับทฤษฎีการสุ่มตัวอย่างที่กล่าวถึงความถี่ในการรวบรวมข้อมูล


3

ฉันไม่แน่ใจว่าฉันเข้าใจบิตนี้: "โชคไม่ดีเนื่องจากการตอบสนองคือค่าเฉลี่ย (โดยไม่ได้ดูที่ค่าเฉลี่ยการเปลี่ยนแปลงระหว่างปีปกติเพียงอย่างเดียวจะทำให้สัญญาณล้น)"

ด้วยการสร้างแบบจำลองอย่างระมัดระวังดูเหมือนว่าคุณจะได้รับมากจากการสร้างแบบจำลองนี้เป็นข้อมูลแผง ขึ้นอยู่กับขอบเขตเชิงพื้นที่ของข้อมูลของคุณอาจมีความแตกต่างใหญ่ในอุณหภูมิที่จุดข้อมูลของคุณถูกเปิดเผยภายในปีใดก็ตาม ค่าเฉลี่ยการเปลี่ยนแปลงทั้งหมดเหล่านี้ดูเหมือนว่ามีราคาแพง


3

ฉันจะบอกว่าความถูกต้องของการทดสอบนั้นมีส่วนเกี่ยวข้องกับจำนวนของจุดข้อมูลน้อยลงและอื่น ๆ ที่เกี่ยวกับความถูกต้องของสมมติฐานที่คุณมีรูปแบบที่ถูกต้อง

ตัวอย่างเช่นการวิเคราะห์การถดถอยที่ใช้ในการสร้างเส้นโค้งมาตรฐานอาจขึ้นอยู่กับเพียง 3 มาตรฐาน (ต่ำ, med และสูง) แต่ผลที่ได้คือสูงเนื่องจากมีหลักฐานที่แข็งแกร่งว่าการตอบสนองเป็นเส้นตรงระหว่างจุด

ในทางกลับกันแม้การถดถอยด้วยจุดข้อมูล 1000s จะมีข้อบกพร่องหากใช้โมเดลที่ไม่ถูกต้องกับข้อมูล

ในกรณีแรกการเปลี่ยนแปลงใด ๆ ระหว่างการทำนายโมเดลและข้อมูลจริงเกิดจากข้อผิดพลาดแบบสุ่ม ในกรณีที่สองการเปลี่ยนแปลงบางอย่างระหว่างการทำนายตัวแบบและข้อมูลจริงเกิดจากอคติจากการเลือกตัวแบบที่ไม่ถูกต้อง


1

จำนวนการสังเกตที่ต้องการเพื่อระบุตัวแบบขึ้นอยู่กับอัตราส่วนของสัญญาณต่อสัญญาณรบกวนในข้อมูลและรูปแบบของแบบจำลอง หากฉันได้รับตัวเลข 1,2,3,4,5 ฉันจะคาดเดา 6,7,8, .... การระบุตัวตนแบบจำลองของ Box-Jenkins เป็นแนวทางในการกำหนดคำศัพท์พื้นฐานทั่วไปเหมือนกับการทดสอบสำหรับ " หน่วยสืบราชการลับเชิงตัวเลข "ที่เรามอบให้กับเด็ก ๆ หากสัญญาณมีความแรงเราจำเป็นต้องมีการสังเกตการณ์น้อยลงและในทางกลับกัน หากความถี่ที่สังเกตเห็นเป็นไปได้ว่า "โครงสร้างตามฤดูกาล" ที่เป็นไปได้แล้วเราจำเป็นต้องทำซ้ำของปรากฏการณ์นี้เช่นอย่างน้อย 3 ฤดูกาล (ยิ่งกว่า) เป็นกฎของหัวแม่มือที่จะสกัด (ระบุสิ่งนี้จากสถิติเชิงพรรณนาขั้นพื้นฐาน


-1

บางทีคุณอาจลองจัดการอนุกรมเวลาของคุณเป็นระบบสมการเชิงเส้นและแก้มันด้วยการกำจัดเกาส์ แน่นอนว่าในกรณีนี้คุณจำเป็นต้อง จำกัด ข้อมูลที่มี แต่นี่เป็นราคาเดียวที่คุณต้องจ่าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.