ฉันมีชุดข้อมูลขนาดใหญ่มากและฉันไม่สามารถอ่านชุดข้อมูลทั้งหมดได้ฉันจึงคิดว่าจะอ่านข้อมูลเพียงชุดเดียวเพื่อฝึก แต่ฉันไม่รู้ว่าจะทำอย่างไร ความคิดใด ๆ จะได้รับการชื่นชม
ฉันมีชุดข้อมูลขนาดใหญ่มากและฉันไม่สามารถอ่านชุดข้อมูลทั้งหมดได้ฉันจึงคิดว่าจะอ่านข้อมูลเพียงชุดเดียวเพื่อฝึก แต่ฉันไม่รู้ว่าจะทำอย่างไร ความคิดใด ๆ จะได้รับการชื่นชม
คำตอบ:
หากคุณต้องการอ่านเฉพาะ 999,999 แถวแรก (ไม่ใช่ส่วนหัว):
read_csv(..., nrows=999999)
หากคุณต้องการอ่านเฉพาะแถว 1,000,000 ... 1,999,999
read_csv(..., skiprows=1000000, nrows=999999)
nrows : int, default ไม่มีจำนวนแถวของไฟล์ที่จะอ่าน มีประโยชน์สำหรับการอ่านไฟล์ขนาดใหญ่ *
Skiprows : รายการเหมือนหรือเลขจำนวนเต็มแถวที่จะข้าม (0 ดัชนี) หรือจำนวนแถวที่จะข้าม (int) ที่จุดเริ่มต้นของไฟล์
และสำหรับไฟล์ขนาดใหญ่คุณอาจต้องการใช้ chunksize:
chunksize : int ค่าเริ่มต้นไม่มีส่งคืนวัตถุ TextFileReader สำหรับการทำซ้ำ
nstart=,nend=...
และยังจะไม่เหมือนอินเตอร์เฟซเป็น คุณต้องทำเลขคณิตในskiprows = nend - nrows
LIMIT nstart, skiprows
: /
header=n/list
chunksize
เป็นความเจ็บปวดเล็กน้อยคุณต้องจัดการกับชิ้นส่วนที่มีขนาดไม่เท่ากัน นอกจากนี้ยังจัดสรรอาร์เรย์ / ดาต้าเฟรมของคุณล่วงหน้าด้วยขนาดคงที่ที่คุณรู้ว่าคุณต้องการอย่าทำการต่อ / ผนวกแบบไดนามิกเมื่อใดก็ตามที่คุณสามารถหลีกเลี่ยงได้