ฉันมีข้อมูลสำหรับเครือข่ายสถานีตรวจอากาศทั่วสหรัฐอเมริกา สิ่งนี้ทำให้ฉันมีกรอบข้อมูลที่ประกอบด้วยวันที่ละติจูดลองจิจูดและค่าที่วัดได้บางส่วน สมมติว่ามีการรวบรวมข้อมูลวันละครั้งและขับเคลื่อนด้วยสภาพอากาศระดับภูมิภาค (ไม่เราจะไม่เข้าร่วมการสนทนานั้น)
ฉันต้องการแสดงให้เห็นชัดเจนว่าค่าที่วัดได้พร้อมกันนั้นมีความสัมพันธ์กันตลอดเวลาและพื้นที่อย่างไร เป้าหมายของฉันคือการแสดงให้เห็นถึงความเป็นเนื้อเดียวกันในภูมิภาค (หรือไม่มีในนั้น) ของค่าที่จะถูกตรวจสอบ
ชุดข้อมูล
เริ่มต้นด้วยฉันเอากลุ่มของสถานีในแมสซาชูเซตส์และเมน ฉันเลือกไซต์ตามละติจูดและลองจิจูดจากไฟล์ดัชนีที่มีอยู่ในไซต์ FTP ของ NOAA
ทันทีที่คุณเห็นปัญหาหนึ่ง: มีเว็บไซต์จำนวนมากที่มีตัวระบุที่คล้ายกันหรือใกล้เคียงกันมาก FWIW ฉันระบุว่าพวกเขาใช้ทั้งรหัส USAF และ WBAN เมื่อมองลึกลงไปที่เมทาดาทาฉันเห็นว่าพวกเขามีพิกัดและระดับความสูงต่างกันและข้อมูลหยุดที่ไซต์หนึ่งจากนั้นเริ่มที่อีกไซต์หนึ่ง ดังนั้นเนื่องจากฉันไม่รู้อะไรเลยฉันจึงต้องปฏิบัติต่อพวกเขาเป็นสถานีแยก ซึ่งหมายความว่าข้อมูลมีคู่สถานีที่ใกล้กันมาก
การวิเคราะห์เบื้องต้น
ฉันพยายามจัดกลุ่มข้อมูลตามเดือนปฏิทินจากนั้นคำนวณการถดถอยกำลังสองน้อยสุดธรรมดาระหว่างข้อมูลที่แตกต่างกัน จากนั้นฉันวางแผนความสัมพันธ์ระหว่างคู่ทั้งหมดเป็นเส้นเชื่อมต่อสถานี (ด้านล่าง) สีเส้นแสดงค่า R2 จาก OLS พอดี จากนั้นตัวเลขแสดงให้เห็นว่าจุดข้อมูล 30+ จุดตั้งแต่เดือนมกราคมกุมภาพันธ์เป็นต้นไปมีความสัมพันธ์กันอย่างไรระหว่างสถานีต่างๆในพื้นที่ที่น่าสนใจ
ฉันได้เขียนโค้ดที่สำคัญเพื่อที่ค่าเฉลี่ยรายวันจะถูกคำนวณเฉพาะในกรณีที่มีจุดข้อมูลทุก 6 ชั่วโมงดังนั้นข้อมูลควรเปรียบเทียบได้ในทุกไซต์
ปัญหาที่เกิดขึ้น
น่าเสียดายที่มีข้อมูลมากเกินไปที่จะเข้าใจในหนึ่งพล็อต ไม่สามารถแก้ไขได้ด้วยการลดขนาดของเส้น
เครือข่ายดูเหมือนจะซับซ้อนเกินไปดังนั้นฉันคิดว่าฉันต้องหาวิธีที่จะลดความซับซ้อนหรือใช้เคอร์เนลเชิงพื้นที่บางประเภท
ฉันไม่แน่ใจว่าสิ่งที่เป็นตัวชี้วัดที่เหมาะสมที่สุดในการแสดงความสัมพันธ์ แต่สำหรับผู้ชมที่ตั้งใจ (ไม่ใช่ด้านเทคนิค) สัมประสิทธิ์สหสัมพันธ์จาก OLS อาจเป็นวิธีที่ง่ายที่สุดในการอธิบาย ฉันอาจต้องนำเสนอข้อมูลอื่น ๆ เช่นข้อผิดพลาดการไล่ระดับสีหรือมาตรฐานเช่นกัน
คำถาม
ฉันเรียนรู้วิธีการของฉันในฟิลด์นี้และ R ในเวลาเดียวกันและจะขอบคุณคำแนะนำเกี่ยวกับ:
- ชื่อทางการของสิ่งที่ฉันพยายามจะทำคืออะไร มีคำศัพท์ที่เป็นประโยชน์ที่จะให้ฉันค้นหางานเขียนเพิ่มเติมหรือไม่ การค้นหาของฉันกำลังวาดช่องว่างสำหรับสิ่งที่ต้องเป็นแอปพลิเคชันทั่วไป
- มีวิธีการที่เหมาะสมกว่าหรือไม่ในการแสดงความสัมพันธ์ระหว่างชุดข้อมูลหลายชุดที่คั่นด้วยช่องว่าง
- ... โดยเฉพาะวิธีการที่ง่ายต่อการแสดงผลลัพธ์จากการมองเห็น?
- สิ่งเหล่านี้ถูกนำไปใช้ใน R หรือไม่?
- วิธีการใด ๆ เหล่านี้ให้ยืมตัวเองเพื่อระบบอัตโนมัติ?