เมื่อใดที่ฉันจะหยุดมองหานางแบบ?

ฉันกำลังมองหาแบบจำลองระหว่างการสะสมพลังงานและสภาพอากาศ ฉันมีราคา MWatt ที่ซื้อระหว่างประเทศในยุโรปและมีค่ามากมายในสภาพอากาศ (ไฟล์ Grib) แต่ละชั่วโมงในระยะเวลา 5 ปี (2554-2558)

ราคา / วัน

นี่คือต่อวันเป็นเวลาหนึ่งปี ฉันมีสิ่งนี้ต่อชั่วโมงใน 5 ปี

ตัวอย่างของสภาพอากาศ

3Dscatterplot ในเคลวินเป็นเวลาหนึ่งชั่วโมง ฉันมี 1,000 ค่าต่อข้อมูลต่อชั่วโมงและ 200 ข้อมูลเช่น klevin, ลม, geopential ฯลฯ

ฉันพยายามที่จะคาดการณ์ราคาเฉลี่ยต่อชั่วโมงของ Mwatt

ข้อมูลของฉันบนอากาศมีความหนาแน่นสูงมากค่ามากกว่า 10,000 ค่า / ชั่วโมงและมีความสัมพันธ์สูง มันเป็นปัญหาของข้อมูลขนาดใหญ่ระยะสั้น

ฉันได้ลองใช้วิธี Lasso, Ridge และ SVR ด้วยราคาเฉลี่ยของ MWatt ตามผลลัพธ์และข้อมูลสภาพอากาศของฉันเป็นรายได้ ฉันใช้ข้อมูลการฝึกอบรม 70% และทดสอบ 30% หากข้อมูลการทดสอบของฉันไม่ได้คาดการณ์ (ที่ใดที่หนึ่งในข้อมูลการฝึกอบรมของฉัน) ฉันมีการคาดการณ์ที่ดี (R² = 0.89) แต่ฉันต้องการคาดการณ์ข้อมูลของฉัน

ดังนั้นหากข้อมูลการทดสอบตามลำดับหลังจากข้อมูลการฝึกอบรมของฉันจะไม่คาดการณ์อะไรเลย (R² = 0.05) ฉันคิดว่ามันเป็นเรื่องปกติเพราะมันเป็นเวลาที่เซเรียอา และมีความสัมพันธ์อัตโนมัติมากมาย

ฉันคิดว่าฉันต้องใช้โมเดลเวลาของซีรี่ย์เช่น ARIMA ฉันคำนวณลำดับของวิธีการ (ชุดคำสั่งอยู่กับที่) และฉันทดสอบ แต่มันไม่ทำงาน ฉันหมายความว่าการคาดการณ์มีค่าr²จาก 0.05 การทำนายของฉันในข้อมูลการทดสอบไม่ได้อยู่ที่ข้อมูลการทดสอบของฉัน ฉันลองใช้วิธี ARIMAX กับสภาพอากาศของฉันในฐานะผู้ถอยหลัง ใส่มันไม่ได้เพิ่มข้อมูลใด ๆ

ACF / PCF ข้อมูลทดสอบ / ฝึกอบรม

ดังนั้นฉันจึงทำการตัดตามฤดูกาลต่อวันและต่อสัปดาห์

วัน

สัปดาห์กับแนวโน้มของครั้งแรก

และฉันจะได้สิ่งนี้ถ้าฉันสามารถทำนายแนวโน้มของราคาหุ้นของฉันได้:

สีฟ้าคือคำทำนายของฉันและสีแดงคือมูลค่าที่แท้จริง

ฉันจะทำถดถอยด้วยค่าเฉลี่ยของสภาพอากาศเป็นรายได้และแนวโน้มของราคาหุ้นเป็นผล แต่ตอนนี้ฉันยังไม่พบความสัมพันธ์ใด ๆ

แต่ถ้าไม่มีปฏิสัมพันธ์ฉันจะรู้ได้อย่างไรว่าไม่มีอะไร? อาจเป็นได้ว่าฉันไม่พบมัน

— เอล Josso
แหล่งที่มา

คำถามของคุณกว้างเกินไปที่จะตอบได้ คุณกำลังสร้างโมเดลอะไร "ใช้งานไม่ได้" อะไร การถดถอยและ ARIMA เป็นรูปแบบที่แตกต่างกันอย่างสิ้นเชิงดังนั้นคุณทำอะไรอยู่ ..

— ทิม

ฉันกำลังสร้างแบบจำลองวิวัฒนาการของราคา และฉันได้R²น้อยกว่า 0.2 ในการพยากรณ์ของฉัน

— El Josso

แล้วปัญหาตรงนี้คืออะไร? คุณช่วยอธิบายรายละเอียดเกี่ยวกับข้อมูลของคุณแบบจำลองใดที่คุณลองคุณมีปัญหาอะไรบ้างและที่สำคัญที่สุด: คุณมีคำถามอะไร คุณกำหนด "วิวัฒนาการของราคา" ได้อย่างไร ดังที่ฉันได้กล่าวไปแล้วคำถามของคุณนั้นคลุมเครือเกินไปและกว้างเกินไปและผู้สมัครจะถูกปิดเหมือนไม่มีคำตอบ

— ทิม

ฉันจำเป็นต้องเพิ่มกราฟิกหรือไม่?

— El Josso

คุณสามารถช่วยได้ (ในหลาย ๆ กรณี) :)

— ทิม

คุณอาจสนใจในโดเมนวิทยาศาสตร์ที่เป็นทางการที่เรียกว่า "กลไกการคำนวณ" ในบทความโดย James Crutchfield และ David Feldman พวกเขาวางโปรแกรมกลศาสตร์การคำนวณ - เท่าที่ฉันเข้าใจ - เมื่อแยกขอบเขตระหว่าง (1) ความไม่แน่นอนที่กำหนดขึ้นและต้นทุนข้อมูลของความสัมพันธ์เชิงลบที่กำหนดขึ้นมา (2) สุ่ม ความไม่แน่นอนและค่าใช้จ่ายด้านข้อมูลของการแจกแจงความน่าจะเป็นแบบอนุมานและ (3) ความไม่แน่นอนของค่านิยมและผลจากการเป็นข้อมูลที่ไม่ดี

To answer your question directly (albeit also quite broadly, since you asked a broad question), how we know when we have learned either "enough," or "all we can" from data is an open domain of research. The former will necessarily be contingent upon one's needs as a researcher and actor in the world (e.g., given how much time? how much processing power? how much memory, how much urgency, etc.).

I'm not up on this field, or even deep with this particular article, but they're some cool thinkers. :)

Crutchfield, J. P. and Feldman, D. P. (2003). Regularities unseen, randomness observed: Levels of entropy convergence. Chaos, 13(1):25–54.

— Alexis
แหล่งที่มา

Not sure if this' answered OP question, but I like this perspective.

— horaceT

It's not really what i was looking for but it's a good article.

— el Josso