Python มีเครื่องมือที่ดีมากสำหรับการทำงานกับข้อมูลขนาดใหญ่:
numpy
อาร์เรย์ memmory-mapped ของ Numpy ช่วยให้คุณเข้าถึงไฟล์ที่บันทึกไว้ในดิสก์ราวกับว่าเป็นอาร์เรย์ เฉพาะส่วนต่าง ๆ ของอาเรย์ที่คุณกำลังทำงานด้วยจำเป็นต้องโหลดเข้าสู่หน่วยความจำ มันสามารถใช้งานได้เหมือนกันกับอาเรย์ทั่วไป
h5py และ pytables
ทั้งสองไลบรารีให้การเข้าถึงไฟล์ HDF5 ไฟล์เหล่านี้อนุญาตให้เข้าถึงเพียงส่วนหนึ่งของข้อมูล นอกจากนี้ต้องขอบคุณห้องสมุดพื้นฐานที่ใช้ในการเข้าถึงข้อมูลการดำเนินการทางคณิตศาสตร์และการจัดการข้อมูลอื่น ๆ สามารถทำได้โดยไม่ต้องโหลดลงในโครงสร้างข้อมูลหลาม ไฟล์ขนาดใหญ่ที่มีโครงสร้างสูงเป็นไปได้ซึ่งมีขนาดใหญ่กว่า 5 TB นอกจากนี้ยังช่วยให้การบีบอัดข้อมูลราบรื่นและไม่มีการสูญเสีย
ฐานข้อมูล
มีฐานข้อมูลหลายประเภทที่ให้คุณจัดเก็บชุดข้อมูลขนาดใหญ่และโหลดเฉพาะส่วนที่คุณต้องการ ฐานข้อมูลจำนวนมากอนุญาตให้คุณทำการปรับเปลี่ยนโดยไม่ต้องโหลดข้อมูลลงในโครงสร้างข้อมูลหลามเลย
หมีแพนด้า
ทำให้สามารถเข้าถึงข้อมูลประเภทต่าง ๆ ได้ในระดับสูงขึ้นรวมถึงข้อมูล HDF5, ไฟล์ csv, ฐานข้อมูลหรือแม้แต่เว็บไซต์ สำหรับข้อมูลขนาดใหญ่จะให้การล้อมรอบการเข้าถึงไฟล์ HDF5 ที่ทำให้การวิเคราะห์ชุดข้อมูลขนาดใหญ่ทำได้ง่ายขึ้น
mpi4py
นี่เป็นเครื่องมือสำหรับรันโค้ดไพ ธ อนของคุณในแบบกระจายข้ามโปรเซสเซอร์หลายตัวหรือแม้แต่คอมพิวเตอร์หลายเครื่อง สิ่งนี้ช่วยให้คุณสามารถทำงานกับส่วนต่าง ๆ ของข้อมูลของคุณได้พร้อมกัน
dask
มันมีเวอร์ชันของอาร์เรย์ numpy ปกติที่รองรับการทำงานของ numpy ปกติจำนวนมากในลักษณะมัลติคอร์ที่สามารถทำงานกับข้อมูลที่มีขนาดใหญ่เกินไปที่จะใส่ลงในหน่วยความจำ
เปลวไฟ
เครื่องมือที่ออกแบบมาสำหรับข้อมูลขนาดใหญ่โดยเฉพาะ โดยทั่วไปแล้วมันเป็น wrapper รอบ ๆ ไลบรารีด้านบนซึ่งมีอินเตอร์เฟสที่สอดคล้องกับความหลากหลายของวิธีการเก็บข้อมูลจำนวนมาก (เช่น HDF5 หรือฐานข้อมูล) และเครื่องมือเพื่อให้ง่ายต่อการจัดการดำเนินการทางคณิตศาสตร์และวิเคราะห์ข้อมูลที่ ใหญ่เกินไปที่จะใส่ในหน่วยความจำ