การวิเคราะห์เชิงสำรวจของข้อผิดพลาดการพยากรณ์เชิงพื้นที่


13

ข้อมูล:ฉันทำงานเมื่อเร็ว ๆ นี้ในการวิเคราะห์คุณสมบัติสุ่มของเขตข้อมูลเชิงพื้นที่ของข้อผิดพลาดการคาดการณ์การผลิตพลังงานลม อย่างเป็นทางการอาจกล่าวได้ว่าเป็นกระบวนการ จัดทำดัชนีสองครั้งในเวลา (ด้วยและ ) และหนึ่งครั้งในอวกาศ ( ) โดยที่เป็นจำนวนของการมองไปข้างหน้าครั้ง (เท่ากับบางสิ่งรอบตัว , สุ่มตัวอย่างอย่างสม่ำเสมอ),คือจำนวน "เวลาคาดการณ์" (เช่นเวลาที่มีการออกการคาดการณ์ประมาณ 30,000 ในกรณีของฉันสุ่มตัวอย่างเป็นประจำ) และ thpH24Tn

(ϵt+h|tp)t=1,T;h=1,,H,p=p1,,pn
thpH24Tnเป็นจำนวนตำแหน่งเชิงพื้นที่ (ไม่ gridded ประมาณ 300 ในกรณีของฉัน) เนื่องจากนี่เป็นกระบวนการเกี่ยวกับสภาพอากาศฉันจึงมีการพยากรณ์อากาศการวิเคราะห์การวัดทางอุตุนิยมวิทยามากมายที่สามารถใช้ได้

คำถาม:คุณสามารถอธิบายการวิเคราะห์เชิงสำรวจให้ฉันฟังได้หรือไม่ว่าคุณจะทำกับข้อมูลประเภทนี้เพื่อทำความเข้าใจธรรมชาติของโครงสร้างการพึ่งพาซึ่งกันและกัน (ซึ่งอาจไม่ใช่เชิงเส้น) ของกระบวนการเพื่อเสนอแบบจำลองที่ดี


นี่เป็นคำถามที่น่าสนใจมาก เป็นไปได้ที่จะเล่นอย่างน้อยกับชุดย่อยของข้อมูลที่ไม่ระบุชื่อหรือไม่? และวิธีการพยากรณ์ถูกสร้างขึ้นรูปแบบใดที่ใช้?
mpiktas

1
@mpiktas ขอบคุณคุณสามารถสร้างมันขึ้นมาด้วยการสร้างแบบจำลอง AR ที่เหมาะสม (หนึ่งสำหรับฟาร์มกังหันลมแต่ละแห่ง) มันจะไม่เปลี่ยนปัญหามากนัก ขออภัยมีปัญหาความไว้วางใจมากเกินไปกับข้อมูลเหล่านี้ไม่สามารถให้อะไรคุณได้แม้แต่นิรนาม ...
robin girard

คำตอบ:


6

สำหรับฉันแล้วดูเหมือนว่าคุณมีข้อมูลเพียงพอที่จะสร้างแบบจำลองการพึ่งพาอิทธิพลของกาลอวกาศและอิทธิพลทางอุตุนิยมวิทยาของทั้งอคติของข้อผิดพลาดการคาดการณ์

สำหรับการสำรวจอคติฉันจะทำ scatterplots, heatmaps หรือ hexbin จำนวนมาก สำหรับการสำรวจความแปรปรวนฉันจะยกกำลังสองข้อผิดพลาดดั้งเดิมจากนั้นทำ scatterplots, heatmaps หรือ hexbin อีกครั้ง แน่นอนว่านี่ไม่ใช่เรื่องไร้ประโยชน์อย่างสิ้นเชิงถ้าคุณมีอคติมากมาย แต่ก็อาจช่วยให้เห็นรูปแบบของ heteroskedasticity ที่ได้รับอิทธิพลจาก covariate

เพื่อนร่วมงานของผมได้ techreport ดีว่ารายละเอียดวิธีการที่มีความยืดหยุ่นมากสำหรับกระชับชนิดเหล่านี้ของแบบจำลอง (ยังช่วยให้การสร้างแบบจำลองของช่วงเวลาที่สูงขึ้นถ้าจำเป็น) ที่ยังมีดีR-implementation gamboostLSSขึ้นอยู่กับmboost: Mayr, อันเดรีย; Fenske, Nora; Hofner, Benjamin; Kneib, Thomas และ Schmid, Matthias (2010): GAMLSS สำหรับข้อมูลมิติสูง - วิธีการที่ยืดหยุ่นตามการส่งเสริม . สมมติว่าคุณมีการเข้าถึงเครื่องที่มีจำนวนมากของแรม (ชุดข้อมูลของคุณน่าจะเป็นบิ๊ก), คุณสามารถที่จะประเมินทุกชนิดของผลกระทบ semiparametric (เช่นประมาณพื้นผิวเรียบสำหรับผลกระทบเชิงพื้นที่หรือผลกระทบร่วมกันของและhthผลิตภัณฑ์เทนเซอร์เส้นโค้งสำหรับผลกระทบเชิงพื้นที่หรือปฏิสัมพันธ์ที่ราบรื่นของผลกระทบทางอุตุนิยมวิทยา ฯลฯ .. ) สำหรับช่วงเวลาที่แตกต่างกันและดำเนินการเลือกคำในเวลาเดียวกันเพื่อให้ได้แบบจำลองที่สามารถอธิบายและตีความ ความหวังจะเป็นไปได้ว่าคำศัพท์ในแบบจำลองนี้มีความเพียงพอที่จะอธิบายโครงสร้างความสัมพันธ์เชิงพื้นที่ของข้อผิดพลาดการคาดการณ์ แต่คุณควรตรวจสอบส่วนที่เหลือของแบบจำลองเหล่านี้เพื่อหาค่าความสัมพันธ์แบบอัตโนมัต


+1 ขอบคุณ Fabians คุณพูดถูกปัญหาไม่ใช่ว่าฉันมีข้อมูลไม่เพียงพอ โปรดทราบว่าคำถามของฉันโดยเฉพาะเกี่ยวกับโครงสร้างการพึ่งพาซึ่งกันและกัน Scatterplots, heatmaps และ hexbin plot เป็นเครื่องมือที่ดีถ้าใช้เพื่อจุดประสงค์ที่ดี ฉันคิดว่ารูปแบบสารเติมแต่งทั่วไปยังมีประสิทธิภาพมากด้วยกระดาษมหัศจรรย์ของ Brillinger ซึ่งให้คำแนะนำที่ดีเกี่ยวกับวิธีใช้ GAM
robin girard

5

ในที่สุดเรา (เพื่อนร่วมงานและฉัน) ในที่สุดก็เขียนบทความเกี่ยวกับเรื่องนั้น เพื่อสรุปสิ่งที่เราเสนอวิธีแก้ปัญหาสองวิธีในการหาปริมาณและให้ข้อสรุปทางสถิติของการแพร่กระจาย (spatio-temporal) ของข้อผิดพลาดในเดนมาร์กและตามเวลาที่มองไปข้างหน้า

  • ในอันแรกเราคำนวณความสัมพันธ์ระหว่างฟาร์มกังหันลมทุกคู่และสำหรับทุกคู่ของการมองล่วงหน้า (นี่คือฟังก์ชั่นของตัวแปร 4 ตัว) เมื่อคู่ได้รับการแก้ไขเราแสดงให้เห็นว่าฟังก์ชั่นสหสัมพันธ์มีค่าสูงสุดในพื้นที่พร้อมกับดูล่วงหน้าเราบอกว่านี่เป็นการขยายพันธุ์! มาตราส่วนชั่วคราวที่เกี่ยวข้องกับฟาร์มกังหันลมหนึ่งคู่นั้นได้รับจากความล่าช้าชั่วขณะสำหรับสิ่งที่ได้รับสูงสุดในท้องถิ่นนี้ พล็อตติ้งสำหรับฟาร์มกังหันลมทุกคู่จะมีค่าสหสัมพันธ์สูงสุดความล่าช้าชั่วขณะที่อนุญาตให้ได้รับและเวกเตอร์เชิงพื้นที่ที่เชื่อมกับฟาร์มกังหันลมให้ด้านขวาของรูปที่ 1

รูปที่ 1

สิ่งนี้สามารถใช้เพื่อคำนวณเวกเตอร์การแพร่กระจายทั่วโลกนั่นคือค่าเฉลี่ยเชิงพื้นที่ของความเร็วการแพร่กระจายระหว่างคู่ ส่วนนี้จะปรากฏที่ด้านซ้ายของรูปที่ 1 และคาดเดาว่าการเผยแพร่ข้อผิดพลาดคือทิศตะวันออกตะวันออกใน Denamrk (โอเคที่ไม่แปลกใจเลย :)) นอกจากนี้เรายังวิเคราะห์เงื่อนไขนี้กับสถานการณ์ทางอุตุนิยมวิทยาที่แตกต่างกันเพื่อแสดงความสัมพันธ์ระหว่างการแพร่กระจายและลม (ความเร็วทิศทาง)

  • คนที่สองคือ orthogonal (ในประโยค :)) กับคนแรก สำหรับแต่ละเวลาเราติดตั้งรูปแบบคลื่น plannar spatio กาล (พร้อมพื้นที่และมองไปข้างหน้าครั้ง) การขยายพันธุ์ด้วยความเร็วคงที่ สิ่งนี้ให้ความเร็วการแพร่กระจายหนึ่งครั้งต่อเวลาที่คาดการณ์ (และการวัดคุณภาพของความพอดีที่ได้จากแบบจำลองคลื่นระนาบ) จากนั้นคุณสามารถคำนวณสถิติเกี่ยวกับความเร็วเหล่านั้นได้ในที่สุดก็ จำกัด เฉพาะกรณีที่คลื่นระนาบพอดี ผลลัพธ์จะเห็นในรูปที่ 2t R 2ttR2

รูปที่ 2

ในกรณีที่สองเราสังเกตว่าความเร็วการแพร่กระจายทางโลกชั่วคราวมีความคล้ายกันกับที่ได้จากค่าเฉลี่ยเชิงพื้นที่ในกรณีแรก หากคุณต้องการที่จะดูที่ผลงานชิ้นนี้อย่างจริงจังมากขึ้นกระดาษเป็นที่นี่


+1 ขอบคุณสำหรับการแบ่งปัน (ขออภัยที่ฉันพลาดคำถามเมื่อมันปรากฏขึ้นในตอนแรก) คุณคิดว่าจะพล็อตกราฟิคแบบผันแปรตามเวลาที่ดูล่วงหน้าหรือไม่? สิ่งที่มีประสิทธิภาพมากที่สุดจะไม่เป็นเมฆรูปแปรทิศทางแบบเรียบแบบดั้งเดิม ให้ใช้พล็อตสองมิติของความหนาแน่นเมฆรูปแปรแทน จากนั้นคุณสามารถสร้างข้าม variograms ของผู้ที่จะสำรวจความสัมพันธ์ชั่วขณะ ผลการเผยแพร่ของคุณควรจะปรากฏขึ้นจากการวิเคราะห์โดยอัตโนมัติ
whuber

@whuber ขอบคุณสำหรับความคิดเห็นฉันแทบจะไม่เชื่อว่าคุณพลาดคำถามมากกว่า 2 หรือ 3 ข้อในเว็บไซต์นี้ :) ความคิดของคุณเกี่ยวกับ variogramm ดูเหมือนว่าจะเชื่อมโยงกัน (ฉันไม่ค่อยได้ใช้กับการใช้ variogram ฉันมักจะเชื่อว่าทุกอย่างที่สามารถกำหนดได้ด้วย variogram นั้นมีประโยชน์เทียบเท่ากับ covariances ... ) ฉันจะคิดถึงมัน
robin girard

คุณถูกต้องว่าในหลาย ๆ แอปพลิเคชันโควาเรียสนั้นเทียบเท่ากับ variograms อย่างไรก็ตามกลุ่มเมฆรูปแปรให้ทั้งภาพและแนวคิดเสริมที่ทำงานด้วยฟังก์ชั่นความแปรปรวนร่วมไม่ได้เสนอ - มันเหมือนกับการมองไปที่ scatterplots แทนที่จะเป็นเมทริกซ์สหสัมพันธ์: บางครั้งคุณสามารถเห็นรูปแบบที่ตัวเลขไม่ชัดเจน .
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.