การสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อทำนายผลผลิตพืชจากข้อมูลสิ่งแวดล้อม


10

ฉันมีชุดข้อมูลที่มีข้อมูลเกี่ยวกับอุณหภูมิการตกตะกอนและผลผลิตถั่วเหลืองสำหรับฟาร์มเป็นเวลา 10 ปี (2005 - 2014) ฉันต้องการที่จะทำนายผลตอบแทนสำหรับปี 2015 จากข้อมูลนี้

โปรดทราบว่าชุดข้อมูลมีค่ารายวันสำหรับอุณหภูมิและปริมาณน้ำฝน แต่มีเพียง 1 ค่าต่อปีสำหรับผลผลิตเนื่องจากการเก็บเกี่ยวพืชผลเกิดขึ้นเมื่อสิ้นสุดฤดูกาลเพาะปลูก

ฉันต้องการสร้างแบบจำลองการถดถอยหรือแบบจำลองการเรียนรู้ด้วยเครื่องอื่น ๆ เพื่อคาดการณ์ผลตอบแทนปี 2558 โดยยึดตามรูปแบบการถดถอย / แบบจำลองอื่น ๆ ที่ได้จากการศึกษาความสัมพันธ์ระหว่างอัตราผลตอบแทนกับอุณหภูมิและปริมาณน้ำฝนในปีก่อนหน้า

ฉันคุ้นเคยกับการเรียนรู้ด้วยเครื่องโดยใช้ Scikit-Learn อย่างไรก็ตามไม่แน่ใจว่าจะแสดงปัญหานี้อย่างไร ส่วนที่ยุ่งยากนี่คืออุณหภูมิและปริมาณน้ำฝนเป็นรายวัน แต่ผลผลิตเพียง 1 ค่าต่อปี

ฉันจะเข้าใกล้สิ่งนี้ได้อย่างไร


แม้ฉันพยายามสร้างแบบจำลองเพื่อทำนายผลผลิตของพืช คุณช่วยแบ่งปันรายละเอียดเกี่ยวกับวิธีการที่คุณติดตามได้ไหม?
Nitz

คุณได้รับคำตอบที่สมบูรณ์หรือไม่ ถ้าไม่โปรดแจ้งให้เราทราบและฉันยินดีที่จะเขียนคำตอบโดยละเอียดเกี่ยวกับวิธีการดำเนินการเกี่ยวกับเรื่องนี้เพราะฉันทำงานในโดเมนเดียวกัน
89_Simple

@ Crop89 นั่นคงจะยอดเยี่ยมมาก! คอยที่จะตอบคำถามของคุณ
308827

คุณคิดออกไหม ฉันกำลังเผชิญกับปัญหาเดียวกัน คุณช่วยแบ่งปันรายละเอียดได้ไหม? ขอบคุณมาก
หวง

คำตอบ:


3

สำหรับผู้เริ่มต้นคุณสามารถทำนายอัตราผลตอบแทนสำหรับปีที่จะมาถึงจากข้อมูลรายวันสำหรับปีที่แล้ว คุณสามารถประมาณพารามิเตอร์โมเดลได้โดยพิจารณาข้อมูลในแต่ละปีเป็น "จุด" จากนั้นตรวจสอบโมเดลโดยใช้การตรวจสอบความถูกต้องข้าม คุณสามารถขยายโมเดลนี้โดยพิจารณามากกว่าปีที่ผ่านมา แต่มองย้อนกลับไปไกลเกินไปและคุณจะมีปัญหาในการตรวจสอบโมเดลและความพอดีของคุณ


ขอบคุณ @Emre ความสับสนของฉันคือฉันจะปฏิบัติต่อข้อมูลที่มีค่าทั้งปีเป็น 1 จุดได้อย่างไร ไม่แต่ละแถวของข้อมูล (แสดงถึงหนึ่งวัน) เป็นตัวอย่างในระบบการตั้งชื่อเรียนรู้ scikit? ฉันจะปฏิบัติต่อทั้งปีเป็นตัวอย่างเดียวแทนที่จะเป็น 365 ได้อย่างไร
user308827

1
ผมไม่ได้อยู่เฉพาะของ sklearn แต่เนื่องจากคุณถามว่าคุณต้องการที่จะใช้sklearn.cross_validationวิธีการด้วย "ป้าย" ในชื่อเช่นsklearn.cross_validation.LabelKFold
Emre

ขอบคุณ @Emre ดังนั้นความคิดคือการกำหนดป้ายกำกับให้แต่ละปีใช่มั้ย
308827

ใช่ @ user308827
Emre

ขอบคุณอีกครั้ง @Emre โปรดดูคำถามติดตาม: datascience.stackexchange.com/questions/9612/…
user308827


1

คุณมีจุดข้อมูล 10 จุดสำหรับแต่ละจุดข้อมูลที่มี 365 (อุณหภูมิสำหรับแต่ละวัน) + 365 (เร่งรัดสำหรับแต่ละวัน) มิติข้อมูล เป็นการดีที่ฉันจะลดขนาดด้วยวิธีการเรียนรู้ของเครื่องเช่น PCA จากนั้นใช้วิธีการเรียนรู้ของเครื่องเพื่อสร้างแบบจำลองการทำนาย อย่างไรก็ตามเนื่องจากชุดข้อมูลขนาดเล็กฉันไม่คิดว่าเทคนิคการเรียนรู้ของเครื่องเหมาะสมกับปัญหาของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.