รูปแบบข้อมูลใดที่ดีที่สุดสำหรับการกระจายข้อมูลแบบเปิด


15

ข้อดีและข้อเสียของรูปแบบข้อมูลที่แตกต่างกัน (ประสิทธิภาพขนาดไฟล์ ฯลฯ ) เมื่อพิจารณาการกระจายข้อมูลแบบเปิดคืออะไร

องค์กรของเราต้องการเผยแพร่ข้อมูลเป็นข้อมูลเปิด อย่างไรก็ตามไม่มีความคิดที่ชัดเจนว่ารูปแบบข้อมูลใดที่จะใช้ แน่นอนยิ่งรูปแบบข้อมูล 'เปิด' มากเท่าไหร่ก็ยิ่งใช้งานได้ง่ายขึ้นเท่านั้น

รูปแบบข้อมูลใดที่ 'เปิด' มากที่สุดและใช้งานได้มากที่สุดสำหรับการกระจายข้อมูลเปิดเมื่อพิจารณาประเภทต่อไปนี้:

  • ข้อมูลแรสเตอร์ (ฉันคิดว่า: GeoTIFF, Erdas ลองนึกภาพ IMG?)
  • ข้อมูลเวกเตอร์ (ฉันคิดว่า: GML, CSV, ESRI Shapefile, DXF?)
  • ข้อมูลตาราง (ฉันคิดว่า: CSV?)
  • ข้อมูล 3D (ฉันคิดว่า: CityGML?)
  • จุด 3 มิติ / LIDAR (ฉันคิดว่า: LAS?)
  • ฉันลืมบางสิ่งที่นี่หรือไม่

นอกจากนี้หากมีเอกสารเกี่ยวกับรูปแบบข้อมูลเปิดฉันสนใจมากหากคุณต้องการแบ่งปัน


2
สำหรับเวกเตอร์คุณอาจพิจารณา geojson และ kml
neuhausr

1
คุณเห็นลิงค์นี้หรือไม่ gis.stackexchange.com/questions/61744/…

4
คุณต้องแยกความแตกต่างระหว่างรูปแบบการแลกเปลี่ยนข้อมูลและรูปแบบการจัดเก็บข้อมูล ตัวอย่างเช่น geojson เป็นรูปแบบการแลกเปลี่ยนข้อมูลที่ยอดเยี่ยม แต่เป็นรูปแบบการจัดเก็บข้อมูล ฉันสมมติว่าคุณมีความกังวลกับรูปแบบการกระจายข้อมูล (เช่นการแลกเปลี่ยนข้อมูล) ถูกต้องหรือไม่
Devdatta Tengshe

@DevdattaTengshe: จุดดี! สำหรับตอนนี้ความตั้งใจที่จะเผยแพร่ข้อมูลในรูปแบบการแลกเปลี่ยนที่สะดวกที่สุด
Mark Verschuur

ขอบคุณทุกคนสำหรับความคิดเห็น นอกจากนี้เคล็ดลับเกี่ยวกับประเภทไฟล์ที่จะใช้กับขนาดไฟล์จะเป็นประโยชน์อย่างมาก
Mark Verschuur

คำตอบ:


5

เมืองของความคิดริเริ่มข้อมูลที่เปิดเวียนนา ( http://data.wien.gv.at ) ใช้ Geoserver เพื่อให้สามารถเข้าถึงแรสเตอร์และเวกเตอร์ข้อมูลภูมิศาสตร์ผ่าน Geoserver WMS และ WFSบริการ สิ่งนี้มีข้อดีหลายประการ: ผู้ใช้สามารถดาวน์โหลดข้อมูลในรูปแบบที่แตกต่างกันสำหรับการใช้งานออฟไลน์ (เช่น geojson, KML หรือ zipped Shapefiles) หรือใช้บริการสดโดยฝังไว้ในแผนที่ออนไลน์หรือโครงการ GIS


นี่คือสิ่งที่เราทำที่นี่: maps.gcc.tas.gov.au/data ไม่มีเหตุผลใดที่คุณไม่สามารถใช้ GeoServer สำหรับตารางที่ไม่ใช่เชิงพื้นที่ได้เช่นกัน
Alex Leith

5

สำหรับ csv แบบตาราง Excel มีความซับซ้อนมากเกินไปและไม่สามารถเข้าถึงได้โดยสิ้นเชิง ไม่สามารถเข้าถึงการเข้าถึงและ PDF เป็นตบหน้า

สำหรับ geospatial ใช้ geojson มันเป็นข้อความที่ได้รับการสนับสนุนเป็นอย่างดีและไม่มีข้อ จำกัด ทางเทคนิคที่มีเพียงรูปแบบที่ใช้งานได้เท่านั้น (shapefile) นอกจากนี้หากคุณมีเหตุผลที่ดีมากควรอยู่ใน WGS84 โปรดทราบว่าผู้ใช้ส่วนใหญ่จะอยู่ในสถานะอื่นและจะไม่ต้องการระนาบสถานะ


5

ฉันชอบNetCDFสำหรับข้อมูลต่อเนื่อง / อาเรย์ (เช่น rasters) ข้อดีสำหรับ NetCDF คือ:

  • NetCDF อธิบายตนเอง (กล่าวคือมีคำจำกัดความของข้อมูลผ่านส่วนหัวของไฟล์) ดังนั้นคุณไม่จำเป็นต้องจัดหาไฟล์ข้อมูลเมตารอง
  • NetCDF4 อนุญาตให้จัดเก็บข้อมูล n-มิติ (โดยใช้รูปแบบข้อมูล HDF5 บนดิสก์ซึ่งเป็นโบนัสเพราะจะช่วยให้ไฟล์มีขนาดใหญ่เท่าที่ระบบปฏิบัติการของคุณสามารถจัดการได้) สิ่งนี้มาพร้อมกับการบีบอัดข้อมูลที่สมเหตุสมผลและการเข้าถึงข้อมูลอย่างรวดเร็ว โปรดทราบว่า NetCDF3 ไม่สนับสนุนข้อมูล n-มิติและมีข้อ จำกัด ขนาดไฟล์ประมาณ 2GB บนระบบ 32 บิต
  • NetCDF เป็นรูปแบบเปิดดังนั้นการเข้าถึงข้อมูลโดยทั่วไปไม่ใช่ปัญหาเช่นกันผ่านทางห้องสมุดทั่วไป ตัวอย่างเช่นในงูหลามมันง่ายพอที่จะอ่านจากสกิปซี่ในส่วนของข้อมูล:
from scipy.io import netcdf
f = netcdf.netcdf_file('source.nc')
print(nc.dimensions) #take a look at the dimensions of the data
print(nc.variables)  #A dictionary containing all the variables
nc.variables["some_data"].dimensions #The dimensions this variable is in, e.g. lat, lon
out_array = nc.variables["some_data"].data
f.close() #and we're done

ข้อเสียเพียงอย่างเดียวของ NetCDF4 ที่ฉันเห็นคือการสนับสนุนที่ไม่ยอดเยี่ยมในแพ็คเกจ GIS มาตรฐานเช่น ArcGIS และ QGIS (แม้ว่าฉันจะรักที่จะได้รับการแก้ไข!)

แก้ไขแพ็คเกจอื่น ๆ ที่รองรับ NetCDF

ภาษาการเขียนโปรแกรมมาตรฐานบางภาษาที่รองรับ NetCDF (แม้ว่าจะยุติธรรมสิ่งใดก็ตามที่สามารถอ่าน HDF สามารถอ่าน NetCDF4):

สำหรับผู้ใช้คณิตศาสตร์และสถิติคุณมี:

โดยเฉพาะใน GIS:

  • GDALจะแปลงข้อมูลให้คุณ
  • FMEเช่นเดียวกัน
  • ArcGISรองรับ NetCDF (แม้ว่าจะไม่ใช่ระดับการสนับสนุนที่ดีที่สุดในประสบการณ์ของฉัน)
  • มีปลั๊กอิน QGISในการพัฒนา

ถ้าคุณต้องการดูไฟล์ NetCDF อย่างรวดเร็วฉันจะใช้ Panoply ข้ามแพลตฟอร์มจาก NASA และถ้าคุณกำลังสนใจในการเพิ่มเติม UCAR Unidata มีรายชื่อของซอฟต์แวร์


NetCDF เป็นตัวเลือกที่น่ากลัวจริงๆแล้วมันไม่มีการรองรับนอกไพ ธ อน อาจมีการสนับสนุนที่ดี แต่ tiffs, png และ jpeg มีการสนับสนุนในทุกภาษาอย่างแท้จริง
Calvin

2
ฉันไม่เห็นด้วยอย่างยิ่ง ฉันได้แก้ไขคำตอบของฉันด้านบนเพื่อแสดงรายการแพคเกจอย่างรวดเร็วที่รองรับ NetCDF จากประสบการณ์ของฉันมันเป็นรูปแบบของทางเลือกสำหรับข้อมูลทางวิทยาศาสตร์หลายมิติ (เช่นดาราศาสตร์และอุตุนิยมวิทยา) PNG และ TIFF ไม่เลวสำหรับการกระจายข้อมูลแรสเตอร์และการดูข้อมูลนั้นเป็นเรื่องง่าย ไม่เคยใช้ JPEG เพื่อเผยแพร่ข้อมูลทางวิทยาศาสตร์ (แม้ว่าคุณจะส่งแผนที่ให้ใครบางคนมันก็ใช้งานได้ดีอย่างสมบูรณ์)
om_henners

4

ฉันจะพูดว่า:

  • Shapefiles หรือ GML สำหรับข้อมูลเวกเตอร์
  • .obj-Files สำหรับโมเดล 3 มิติ
  • .xyz (CSV ง่าย ๆ ) สำหรับ cloud clouds point
  • CSV สำหรับข้อมูลแบบตาราง
  • GeoTIFF สำหรับข้อมูลแรสเตอร์

รูปแบบเหล่านี้สามารถอ่านได้อย่างง่ายดายโดยซอฟต์แวร์โอเพนซอร์ซและสามารถแปลงเป็นรูปแบบอื่น ๆ ที่จำเป็นสำหรับการใช้งานเฉพาะได้อย่างง่ายดาย

+1 เมื่อเปิดข้อมูล!


2
ฉันจะสนใจที่จะทราบว่าเหตุใดคุณจึงแนะนำ Shapefiles และ GML สำหรับข้อมูลเวกเตอร์ ทั้งคู่เป็นรูปแบบที่แย่มาก การประหยัดเพียงอย่างเดียวของ GML คือเป็นรูปแบบ OGC
Devdatta Tengshe

1
Shapefiles สามารถอ่านได้ในแอปพลิเคชั่นมากมายและสามารถเปลี่ยนเป็นสิ่งที่แตกต่างกันโดยไม่มีปัญหา คุณจะแนะนำอะไร
til_b

3
หลีกเลี่ยง shapefiles ทำงานได้ แต่มีข้อ จำกัด ทางเทคนิคที่ร้ายแรง
nickves

1
ดังนั้นคุณแนะนำอะไรที่ไม่มีข้อ จำกัด ทางเทคนิคของ shapefiles?
til_b

2
@til_b GeoTIFF เป็นรูปแบบที่ดีจากมุมมองของการ 'เปิด' อย่างไรก็ตามสำหรับการจัดเก็บ (หรือเสนอเป็นการดาวน์โหลด) มันแย่มากเพราะไฟล์อาจมีขนาดใหญ่มาก คุณรู้รูปแบบแรสเตอร์แบบเปิดที่มีการบีบอัดแบบไม่สูญเสียหรือไม่?
Mark Verschuur

1

คำถามเดียวกันนี้เกิดขึ้นจริงที่ opendata.SE: รูปแบบที่มีประโยชน์มากที่สุดในการปล่อยข้อมูลเชิงพื้นที่เป็นอย่างไร

ดังนั้นหวังว่าฉันจะไม่ละเมิดนโยบายใด ๆ ในการอ้างอิงคำตอบของฉันที่นั่น:

ประสบการณ์ของฉันการสร้างแผนที่จากชุดข้อมูลของรัฐบาลค่อนข้างน้อย:

สำหรับข้อมูลจุด CSV ดีที่สุดโดยมีคอลัมน์ "lat" และ "lon" ง่ายมากที่จะทำงานกับเครื่องมือที่หลากหลายรวมถึงเครื่องมือแก้ไขข้อความสเปรดชีต ฯลฯ มีข้อเสียสองประการ:

  1. GDAL ต้องการ.vrtไฟล์ที่แสดงร่วม
  2. การตั้งชื่อlatและlonคอลัมน์ไม่ได้มาตรฐานอย่างสมบูรณ์ เครื่องมือหลายอย่างนั้นค่อนข้างเสรีในสิ่งที่พวกเขายอมรับ

สำหรับเส้นและรูปหลายเหลี่ยมในลำดับที่ต้องการลดลง:

  1. GeoJSON ใช้งานง่ายและความสามารถในการแก้ไขในโปรแกรมแก้ไขข้อความหรือด้วย geojson.ioเป็นโบนัสจริงถ้าคุณต้องการค้นหา / แทนที่ให้ลบวัตถุแปลก ๆ หรือคัดลอกและวางจากไฟล์หนึ่งไปยังอีกไฟล์หนึ่ง ประโยชน์อีกอย่างคือผู้พัฒนาที่ไม่ใช่ GIS สามารถเข้าใจได้ ปัญหาเดียวที่ฉันพบคือเมื่อมีคนให้ข้อมูลว่า MultiPoint แทนที่จะเป็น Point
  2. shapefile ได้รับการสนับสนุนอย่างกว้างขวาง แต่มีสองจุดที่ไม่สะดวก อย่างแรกมันคือชุดของไฟล์ดังนั้นคุณต้องผ่าน. zip และแตกมัน ประการที่สองชื่อฟิลด์ถูก จำกัด ที่ 10 อักขระ เป็นการยากที่จะแก้ไขสำหรับคนที่ไม่ใช่ GIS โดยเฉลี่ยของคุณ
  3. KML / KMZ สิ่งเหล่านี้มักจะมี cruft ที่ไม่เกี่ยวข้องจำนวนมาก (การใส่สไตล์ไอคอนและอื่น ๆ ) และคุณลักษณะบางครั้งจะถูกเข้ารหัสเป็นตาราง HTML ขนาดเล็กซึ่งยากต่อการใช้งานจริง ๆ อย่างน้อยคุณก็สามารถแก้ไขได้อย่างง่ายดายด้วยเครื่องมือของ Google

แม้ว่าคำตอบที่ดีที่สุดน่าจะเป็น "ทั้งหมด" ทำทุกคนที่ชอบและปล่อยข้อมูลใน CSV (ถ้าจุด), GeoJSON, บีบอัด Shapefile และ KMZ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.