คำถามติดแท็ก big-data

2
ปรับปรุง Python Code สำหรับ Big Data
ฉันมีรหัส Python ที่ออกแบบมาเพื่อใช้ชี้ shapefiles ผ่านเวิร์กโฟลว์ต่อไปนี้: ผสานจุด รวมคะแนนเข้าด้วยกันเช่นจุดใด ๆ ที่อยู่ในระยะ 1 เมตรจากกันกลายเป็นจุดเดียว สร้างเลเยอร์คุณสมบัติโดยเลือกจุดที่มี z <10 คะแนนบัฟเฟอร์ รูปหลายเหลี่ยมถึงความละเอียด 1 เมตร จัดประเภทใหม่โดยที่ 1 - 9 = 1; NoData = 0 แต่ละรูปร่างไฟล์มีประมาณ 250,000 ถึง 350,000 จุดครอบคลุม ~ 5x7 กม. ข้อมูลจุดที่ใช้เป็นอินพุตเป็นตัวแทนของตำแหน่งต้นไม้ แต่ละจุด (เช่นต้นไม้) มีค่า "z" ที่เกี่ยวข้องซึ่งแสดงถึงรัศมีมงกุฎและใช้ในกระบวนการบัฟเฟอร์ ความตั้งใจของฉันคือการใช้เอาต์พุตไบนารีสุดท้ายในกระบวนการแยกต่างหากเพื่อสร้างแรสเตอร์ที่อธิบายถึงหลังคาครอบ ฉันทดสอบกับรูปร่างสี่ไฟล์และสร้างแรสเตอร์ 700MB และใช้เวลา 35 นาที (โปรเซสเซอร์ i5 และ …

2
แฮ็คที่ดีที่สุดสำหรับการนำเข้าชุดข้อมูลขนาดใหญ่ไปยัง PostGIS คืออะไร
ฉันต้องนำเข้า Shapefiles ขนาดใหญ่ (มากกว่า 1 ล้านบันทึก) ลงใน PostGIS และฉันสงสัยว่าวิธีที่ดีที่สุดในการทำเช่นนั้น ในคำถามของฉันฉันใช้คำว่า "แฮ็ค" แทนที่จะเป็นเครื่องมือโดยมีจุดประสงค์เพราะฉันคิดว่านี่ไม่ใช่เรื่องของเครื่องมือใด แต่เป็นชุดของขั้นตอนหรือการตั้งค่าที่จะใช้ จนถึงตอนนี้ผมได้ลองน้ำลายปลั๊กอิน (QGIS) ที่shp2pgsqlเครื่องมือ PostGIS และ GDAL ogr2ogrเครื่องมือ คุณสามารถดูรีวิวฉบับเต็มของฉันในนี้โพสต์ จนถึงตอนนี้ฉันพบว่าพวกเขาไม่ตอบสนองจริงๆเมื่อจัดการกับชุดข้อมูลขนาดใหญ่ ฉันสงสัยว่าใครบางคนประสบปัญหาที่คล้ายกันและถ้าคุณสามารถแบ่งปันบางสิ่งเกี่ยวกับวิธีการ

1
ฉันจะใช้อาร์เรย์ NumPy เพื่อเพิ่มประสิทธิภาพการประมวลผลข้อมูลขนาดใหญ่ได้อย่างไร
ฉันสนใจที่จะเรียนรู้วิธีการใช้อาร์เรย์ NumPy เพื่อเพิ่มประสิทธิภาพการประมวลผลทางภูมิศาสตร์ งานส่วนใหญ่ของฉันเกี่ยวข้องกับ "ข้อมูลขนาดใหญ่" ซึ่งการประมวลผลทางภูมิศาสตร์มักใช้เวลาหลายวันเพื่อทำงานบางอย่างให้สำเร็จ จำเป็นต้องพูดฉันสนใจมากในการเพิ่มประสิทธิภาพการปฏิบัติเหล่านี้ ArcGIS 10.1 มีฟังก์ชั่น NumPy จำนวนมากที่สามารถเข้าถึงได้ผ่านทาง arcpy รวมไปถึง: NumPyArrayToFeatureClass (arcpy.da) RasterToNumPyArray (arcpy) TableToNumPyArray (arcpy.da) ตัวอย่างเช่นสมมติว่าฉันต้องการเพิ่มประสิทธิภาพการประมวลผลเวิร์กโฟลว์เข้มข้นต่อไปนี้โดยใช้อาร์เรย์ NumPy: แนวคิดทั่วไปที่นี่คือมีจุดจำนวนมากที่ใช้เวกเตอร์ที่เคลื่อนที่ผ่านทั้งการดำเนินการตามเวกเตอร์และแรสเตอร์ทำให้เกิดชุดข้อมูลแรสเตอร์เลขฐานสองจำนวนเต็ม ฉันจะรวมอาร์เรย์ NumPy เพื่อเพิ่มประสิทธิภาพเวิร์กโฟลว์ประเภทนี้ได้อย่างไร

2
วิธีการปรับการประมวลผลแบบมัลติคอร์ให้เหมาะสมใน ArcGIS
ฉันสนใจที่จะเรียนรู้วิธีการใช้ประโยชน์จากพลังการประมวลผลแบบมัลติคอร์ที่มีอยู่ในคอมพิวเตอร์เดสก์ท็อป อาร์คระบุว่าพื้นหลังการประมวลผลทางภูมิศาสตร์ช่วยให้ผู้ใช้สามารถใช้หลายคอร์อย่างไรก็ตามงานจำเป็นต้องรอให้งานก่อนหน้าเสร็จสิ้น มีใครพัฒนาวิธีการประมวลผลทางภูมิศาสตร์แบบขนานหรือแบบมัลติเธรดใน Arc / Python หรือไม่? มีปัญหาคอขวดของฮาร์ดแวร์ที่ป้องกันการประมวลผลแบบมัลติคอร์ในแต่ละงานหรือไม่? ฉันพบตัวอย่างที่น่าสนใจใน Stackoverflow ที่ดึงดูดความสนใจของฉันแม้ว่าจะไม่ใช่ตัวอย่างของกระบวนการทางภูมิศาสตร์: from multiprocessing import Pool import numpy numToFactor = 976 def isFactor(x): result = None div = (numToFactor / x) if div*x == numToFactor: result = (x,div) return result if __name__ == '__main__': pool = Pool(processes=4) possibleFactors = range(1,int(numpy.floor(numpy.sqrt(numToFactor)))+1) print …

3
วิธีที่ดีที่สุดในการคลิปไฟล์ ECW แรสเตอร์ขนาดใหญ่?
ฉันพยายามคลิป ECW ขนาดใหญ่ (รายละเอียดด้านล่าง) แต่ไฟล์แรสเตอร์มีขนาดใหญ่เกินไปที่จะประมวลผลทั้งหมด รายละเอียดบางส่วนของ ECW ด้านล่าง ไดร์เวอร์: ECW / ERDAS เวฟที่บีบอัด (SDK 5.0) ขนาดไฟล์: 50gb ขนาดคือ 450000, 565081 ขนาดพิกเซล: 0.15 0.15 COLORSPACE = RGB COMPRESSION_RATE_TARGET = 9 VERSION = 2 จำนวนวง: 4 พื้นที่ที่ฉันต้องการคลิปมีขนาดประมาณ 1/5 ของไฟล์ต้นฉบับ นี่คือวิธีที่ฉันได้ลองโดยไม่ประสบความสำเร็จ: ใช้ Arcgis เพื่อบันทึก ecw เป็นรูปแบบ / รูปแบบอื่น ๆ ... (ฉันเลิกไปอย่างรวดเร็ว) Qgis ใช้แล้วและเครื่องมือ …
9 raster  gdal  clip  ecw  big-data 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.