SQL ช่วยให้คุณคงอยู่และทำธุรกรรมความสัมพันธ์ที่แตกต่างกันมากมายและพร้อมเสมอสำหรับการใช้งานที่แตกต่างกันหลายอย่าง โดยพื้นฐานแล้วเป็นแหล่งแห่งความจริงหรือสถานที่ที่ควรไป มีหัวมากกว่าแน่นอน อย่างไรก็ตามการวิเคราะห์บางอย่างอาจมีความซับซ้อนมากและต้องการการดำเนินการตามจำนวนที่กำหนดซึ่งสามารถเปลี่ยนแม้แต่ชุดข้อมูลขนาดเล็กให้กลายเป็นชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็ว ฉันมีกระบวนการข้อมูลที่มีมากกว่า 2000 แบบสอบถามที่ประมวลผลเทราไบต์ในเวลาน้อยกว่า 5 นาทีและสามารถทำคะแนนพันล้านเรคคอร์ดสำหรับแบบจำลองการทำนายในตอนท้ายและไพ ธ อนและ numpy ให้คะแนนของชุดข้อมูลในเวลา 10 เท่าเป็นที่เก็บข้อมูลเชิงสัมพันธ์ ให้บริการจนถึงเลเยอร์การนำเสนอ
จุดเพิ่มเติมถ้าทำเช่นนี้ในคลาวด์ให้แน่ใจว่าคุณมีอินสแตนซ์แบบไดนามิกที่สามารถปรับขนาดหน่วยความจำ ด้วย SQL มันคือทั้งหมดที่เกี่ยวกับการมีดิสก์และการคำนวณเพียงพอที่จะทำให้เสร็จในเวลาที่เหมาะสม
ฉันเห็นหลายวิธีที่พวกเขาสามารถทำงานร่วมกันได้ งานด้านวิทยาศาสตร์ข้อมูลจำนวนมากเป็นสิ่งที่ Pandas ถูกออกแบบมาให้ทำ งานด้านวิทยาศาสตร์ข้อมูลบางงานเป็นสิ่งที่ RDB ได้รับการออกแบบมาให้ทำ ใช้ทั้งในยอดคงเหลือ
มันเป็นเรื่องของเครื่องมือที่เหมาะสมในการทำงานที่ถูกต้อง