Geocoding และการประมวลผลขนาดใหญ่ใน ESRI

ตกลงดังนั้นฉันเดาว่าแบบสอบถาม / แบบสอบถามแบบไม่เป็นทางการเกี่ยวกับชุดข้อมูลที่คุณใช้ในโลก ESRI ของคุณมีขนาดใหญ่เท่าไร ...

ฉันกำลังสร้างและบำรุงรักษาชุดข้อมูลโจเซฟที่ฉันต้องดำเนินการลงไปจนถึงระดับบ้านแต่ละหลัง ระดับพัสดุ แต่ที่อยู่ทางไปรษณีย์หลายรายการต่อพัสดุสำหรับระบบของเรา ในหลาย ๆ ที่ที่ฉันใช้ที่อยู่ตามทฤษฎีซึ่งคำนวณจากเครือข่ายถนนหรือข้อมูล USPS AMS / AIS ดังนั้นรายชื่อที่อยู่ของฉันมีประมาณ 13.5 ล้านที่อยู่และเพิ่มขึ้นทุกเดือนหรือทุกไตรมาส

มีใครออกไปบ้างในขณะนี้ที่ยังคงรักษาระบบที่อยู่ / ข้อมูลการค้นหาที่เหมาะสมซึ่งมีขนาดใหญ่ในชุดข้อมูลต่อเนื่อง

ฉันชอบที่จะร่วมมือหรือพูดคุยเพิ่มเติมเกี่ยวกับวิธีที่คนอื่นจัดการชุดข้อมูลขนาดใหญ่เช่นนี้ ฉันเห็นปัญหาที่ดูเหมือนว่าซอฟต์แวร์ ESRI จะระเบิดเมื่อฉันพยายามทำงานต่าง ๆ เช่นการตัดหรือการรวมเชิงพื้นที่ ESRI บอกว่าพวกเขาไม่เห็นปัญหาประเภทนี้ แต่ฉันมีปัญหาเหล่านี้ตั้งแต่กลับมาที่ 9.3.1 ดังนั้นฉันจึงไม่สามารถเป็นคนแรก / คนเดียวที่ทำสิ่งนี้เนื่องจากฉันสามารถสร้างมันขึ้นมาใหม่ในหลาย ๆ เครื่องได้

แพลตฟอร์มของฉันตอนนี้คือ ESRI ArcGIS 10 บนเดสก์ท็อปพูดคุยกับ ArcSDE 9.3.1-sp1 บนแบ็กเอนด์ SQL2008 โดยใช้วัตถุเชิงพื้นที่ GEOMETRY ดังนั้นฉันไม่ได้ทำอะไรแปลกใหม่จริงๆ แต่ฉันก็ยังดูเหมือนว่าในบางพื้นที่ฉันอาจจะผลักซองจดหมาย

[เพิ่มเติม]

สิ่งที่ฉันสนใจรู้คือสิ่งที่คนอื่นกำลังทำเพื่อเพิ่มประสิทธิภาพกระบวนการที่มีการจัดการกับชุดข้อมูลเหล่านี้ ฉันกำลังจะเพิ่ม upwords มากกว่าหนึ่งล้านระเบียนต่อเดือนไปข้างหน้าและในขณะที่ Geocoding ฯลฯ ไม่ได้เป็นปัญหาเมื่อคุณเริ่มใช้กระบวนการอื่น ๆ และเชื่อมโยงข้อมูลเพื่อการวิเคราะห์เพิ่มเติมที่คุณเริ่มจัดการกับการรวมที่ซับซ้อน เอาท์พุทข้อมูลจาก Intersects / Overlays / Identities โดยใช้ Only_FID และคุณจะได้โต๊ะกลางบาง ๆ ที่จะเข้าร่วมด้วย แต่เมื่อคุณเริ่มพยายามแบ่งและพิชิตการสร้างตารางนั้นคุณจะเริ่มพบกับปัญหาที่คุณต้องแบ่งแหล่งข้อมูลของคุณออกเป็นพื้นที่ทำงาน แต่จากนั้นคุณมี IDS ซ้ำที่คุณไม่สามารถรวมกลับคืนได้ ดังนั้นคุณจะเหลือข้อมูลขนาดเล็กที่คุณไม่สามารถนำกลับมาทำใหม่ได้อย่างง่ายดาย

คิดเกี่ยวกับตัวเลือกที่ทำลายข้อมูลลงไปในระดับเขตโดยเขตจากนั้นใช้มุมมองเชิงพื้นที่เพื่อเข้าร่วมกลับมารวมกัน ฯลฯ ... เพียงแค่อยากรู้ว่าผู้ใช้รายอื่นกำลังมองหาปัญหาชนิดเดียวกันในขนาดใหญ่ แต่ในขนาดเล็ก รอยเท้า.

arcgis-10.0 enterprise-geodatabase arcgis-9.3

— D.E.Wright
แหล่งที่มา

60 ล้านที่อยู่ทางภูมิศาสตร์ใน Oracle Spatial (11g) ArcSDE และมองเห็นได้ใน ArcGIS และ Web App (ภายใน) มันไม่ได้เกี่ยวกับที่อยู่ที่ระบุพิกัดทางภูมิศาสตร์ แต่เลือน (ที่อยู่ไม่ตรงกัน) นี้เป็นคำแนะนำที่ดีscdhec.gov/gis/presentations/ESRI_Conference_08/tws/workshops/...

— Mapperz

ฉันเห็นด้วยว่าการเข้ารหัสภูมิศาสตร์ไม่เคยเป็นปัญหา ปัญหาของฉันจะเกิดขึ้นเมื่อคุณมีชุดข้อมูลขนาดใหญ่ที่คุณต้องมีกระบวนการต่อเนื่องที่กระบวนการอื่นกลายเป็นเรื่องยากมาก ฟังก์ชั่น / งานเช่น Intersects, Spatial-Joins เป็นต้นซึ่งคุณจะต้องเข้าร่วมกับข้อมูลอื่น ๆ ในสภาพแวดล้อมที่เป็นมาตรฐานสูงสำหรับการสร้างแบบจำลอง

— DEWright

มีการจัดทำดัชนีข้อมูลพื้นที่ของคุณหรือไม่ ตามเอกสารนั้น SQL Server ใช้ดัชนี B-Tree ลองโหลดข้อมูลลงในฐานข้อมูล PostGIS ด้วยดัชนี GIST และเปรียบเทียบประสิทธิภาพ สิ่งนี้จะบอกคุณว่าเป็นปัญหาของ SQL Server หรือไม่

— ฌอน

ไม่มีปัญหากับเรื่องแบบนั้น แต่สิ่งที่ฉันเห็นโดยรวมคือเมื่อคุณจัดการกับประเด็นมากมายและการทำฟังก์ชั่นที่ใช้งานได้ยาวนานคุณมองหาวิธีที่จะปรับให้เหมาะสม และฉันสงสัยว่าผู้ใช้รายใหญ่รายอื่นกำลังทำอะไรอยู่

— DEWright

หากคำถามคือว่าปลายเปิดมันควรจะใช้ถ้อยคำใหม่และสร้างชุมชนวิกิ

— ฌอน

เนื่องจากเป็นคำถามปลายเปิด (เก่า) ฉันจะให้คำตอบปลายเปิดแก่คุณ: การใช้ฐานข้อมูลอย่างเหมาะสมสามารถประหยัดเวลาได้มาก วิธีที่ชัดเจนในการทำบางสิ่งไม่จำเป็นต้องเร็วที่สุดเช่นเมื่อเร็ว ๆ นี้เมื่อฉันต้องการลบแถวจำนวนมากออกจาก Oracle กลับกลายเป็นว่าเพิ่งส่ง: delete from TABLE1 where ID = 123สำหรับแต่ละคุณลักษณะช้าอย่างไม่น่าเชื่อและมีบางสิ่งที่ Oracle สามารถทำได้ เพื่อทำให้คำสั่งของขนาดเร็วขึ้น

ดังนั้นโดยทั่วไปหากคุณพบปัญหาเฉพาะที่เป็นปัญหาคอขวดให้ถามคำถามเฉพาะที่เกี่ยวข้องกับปัญหาคอขวดนั้นกับผู้เชี่ยวชาญ ดังนั้นสำหรับฝั่ง ArcGIS ที่อาจเป็นที่นี่ (หรือฟอรัม ESRI หรือการสนับสนุน ESRI ของคุณ) แต่สำหรับปัญหาด้านฐานข้อมูล (และสิ่งต่าง ๆ จะเร็วขึ้นถ้าคุณทำตรงนั้น) คุณต้องการถามที่http : //www.stackoverflow.com

— GIS-โจนาธาน
แหล่งที่มา

ไม่เปิดมากจบ; แต่มองหาวิธีที่ดีกว่าทางทฤษฎีเพื่อจัดการกับหัวข้อนี้ เส้นทางล่าสุดของฉันทำให้ฉันสร้างตรรกะการค้นหาคลุมเครือเพื่อพูดคุยกับ SQL2008 DB ของฉันเอง การลบการพึ่งพาเอ็นจิ้น ESRI เพื่อพึ่งพาดัชนีที่ได้รับการปรับอย่างดีเพื่อลองและทำให้สิ่งนี้เร็วขึ้น เนื่องจากเราไม่สามารถรู้ได้มากพอเกี่ยวกับเรื่องภายในของ BING หรือเอ็นจิ้นของ Google เราจึงสามารถสันนิษฐานได้ว่าพวกเขาจะใช้ตรรกะที่มีความละเอียด

— DEWright

คุณสามารถคิดออกไม่น้อยที่อยู่เบื้องหลังฉากของ Google จากเอกสารงานวิจัยของพวกเขา - research.google.com/pubs/papers.html

— GIS-โจนาธาน