คำถามติดแท็ก large-datasets

2
กำลังมองหาทางออกที่เร็วที่สุดสำหรับการวิเคราะห์จุดในรูปหลายเหลี่ยม 200 ล้านจุด [ปิด]
ฉันมี CSV ที่มีการสังเกต 200 ล้านครั้งด้วยรูปแบบต่อไปนี้: id,x1,y1,x2,y2,day,color 1,"-105.4652334","39.2586939","-105.4321296","39.2236632","Monday","Black" 2,"-105.3224523","39.1323299","-105.4439944","39.3352235","Tuesday","Green" 3,"-104.4233452","39.0234355","-105.4643990","39.1223435","Wednesday","Blue" สำหรับแต่ละชุดพิกัด (x1 / y1 และ x2 / y2) ฉันต้องการมอบหมาย US Census Tract หรือ Census Block ที่มันอยู่ภายใน (ฉันดาวน์โหลด Cfile tract TIGER ในรูปไฟล์ที่นี่: ftp://ftp2.census.gov/ geo / tiger / TIGER2011 / TRACT / tl_2011_08_tract.zip ) ดังนั้นฉันต้องดำเนินการจุดในรูปหลายเหลี่ยมสองครั้งสำหรับการสังเกตแต่ละครั้ง สิ่งสำคัญคือการแข่งขันจะต้องแม่นยำมาก วิธีที่เร็วที่สุดในการทำเช่นนี้รวมถึงเวลาในการเรียนรู้ซอฟต์แวร์คืออะไร? ฉันเข้าถึงคอมพิวเตอร์ที่มีหน่วยความจำ 48GB - ในกรณีที่อาจมีข้อ จำกัด ที่เกี่ยวข้อง …


3
การวัดความแตกต่างระหว่างการผสานและผนวกเข้ากับ ArcGIS Desktop?
บ่อยครั้งที่ฉันพบว่าตัวเองอยู่ในสถานการณ์ที่ฉันไม่สนใจว่าเครื่องมือของฉันจะสร้างคลาสฟีเจอร์ใหม่หรือไม่ แต่ฉันก็ต้องใส่ใจว่าจะต้องใช้เวลานานแค่ไหนในการรวมชุดข้อมูลขนาดใหญ่ทั้งหมดของฉัน ใช้เวลานานกว่าในการสร้างคลาสคุณลักษณะใหม่โดยใช้เครื่องมือผสานแทนที่จะเป็นเครื่องมือต่อท้ายหรือผสานและผนวกเข้าด้วยกันเป็นหลักในแง่ของประสิทธิภาพหรือไม่

4
วิธีพูดคุยชายฝั่ง
ฉันมีชุดข้อมูลขนาดใหญ่ที่แสดงถึงแนวชายฝั่งของโลก ฉันไม่ทราบความละเอียดที่แน่นอน แต่ฉันบอกว่ามันอยู่ในพื้นที่ใกล้เคียงของ 5-10m ลองนึกภาพชุดของจุดที่เป็นตัวแทนของแนวชายฝั่งขรุขระ ที่ความละเอียด 1 ม. เราเห็นรายละเอียดทั้งหมดและต้องการจุดข้อมูล 50 จุดเพื่อแสดงชายฝั่งอย่างถูกต้องอย่างไรก็ตามที่ความละเอียด 10 กม. ชายฝั่งดูเหมือนเส้นตรงและเราต้องการเพียง 2 จุดเท่านั้น ฉันกำลังเขียนแอปพลิเคชันการแมปที่จะต้องใช้ข้อมูลในการปรับขนาดจากความละเอียด "ดาวเคราะห์เต็มดวง" ถึงความละเอียด "ถนน" ฉันต้องการความช่วยเหลือในการลดความละเอียดของจุดข้อมูลของฉันและจากนั้นจำนวนข้อมูลสำหรับการแก้ปัญหาที่กว้างขึ้น ฉันได้อ่านเกี่ยวกับ Vector-Tiling แล้วและคิดว่านี่จะเป็นคำตอบที่ดีที่สุด (ฉันทำอะไรแบบนี้อยู่แล้ว) อย่างไรก็ตามที่ความละเอียดต่ำชุดข้อมูลของฉันยังคงมีความหมายมาก เวลาซึ่งความละเอียดสูงนั้นรวดเร็วเนื่องจากชุดข้อมูล 'ประสิทธิผล' มีขนาดเล็ก (ชุดย่อยทั้งหมด) ฉันกำลังพยายามหาวิธีที่จะใช้ชุดข้อมูลขนาดใหญ่ของฉันและลดขนาดของชุดข้อมูลเพื่อให้ข้อมูลไทล์ของมุมมองดาวเคราะห์เต็มของฉันมีขนาดที่สามารถจัดการได้ ฉันจะสร้างชุดย่อยย่อยไทล์จากชุดข้อมูลขนาดใหญ่ที่สมบูรณ์ได้อย่างไร ฉันยินดีที่จะใช้เครื่องมือ แต่ฉันควรทำด้วยตัวเองในความพยายามที่จะเรียนรู้วิธีการใช้งาน

1
ทรัพยากรการประมวลผลของกลุ่มจำเป็นสำหรับ DEM 50 Gb หรือไม่
สำหรับ "วัตถุประสงค์การเช่า" ฉันต้องระบุทรัพยากรการคำนวณที่ฉันต้องการจากศูนย์คอมพิวเตอร์ที่มหาวิทยาลัยของฉัน ฉันมีความคิดน้อยมากว่าจะขออะไร เมื่อพิจารณาข้อมูลด้านล่างคุณอาจแนะนำอะไร นี่คือคลัสเตอร์การคำนวณ: "เซิร์ฟเวอร์สิบเบลดกับแต่ละเบลดประกอบด้วย 2 Quad Core Intel Xeon 2.33 Ghz ซีพียูที่มีหน่วยความจำ 16 GB รวม 80 CPUs และ 160 GB หน่วยความจำบัญชีบนระบบดิสก์ 2 TB Linux 64 บิต " ด้วยการบีบอัดข้อมูลแบบไม่สูญเสียข้อมูลดั้งเดิมคือไฟล์ขนาด 50GB หนึ่งไฟล์ ในบางช่วงเวลาฉันจะทำงานกับหลาย ๆ ไฟล์ (สูงสุดสิบไฟล์) ขนาด 50GB ฉันจะใช้ GDAL, Python scripting และ C ++ scripting หากได้รับอนุญาตฉันจะใช้ซอฟต์แวร์เช่น Grass GIS …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.