ฉันจะกรองบรรทัดเมื่อโหลดในฟังก์ชัน Pandas read_csv ได้อย่างไร

Question 1

ฉันจะกรองบรรทัดของ CSV ที่จะโหลดลงในหน่วยความจำโดยใช้แพนด้าได้อย่างไร ดูเหมือนว่าเป็นตัวเลือกที่ควรหาread_csvนี้ดูเหมือนว่าตัวเลือกที่หนึ่งควรหาในฉันพลาดอะไรไปรึเปล่า?

ตัวอย่าง: เรามี CSV พร้อมคอลัมน์การประทับเวลาและเราต้องการโหลดเฉพาะบรรทัดที่มีการประทับเวลามากกว่าค่าคงที่ที่กำหนด

Question 2

ไม่มีตัวเลือกในการกรองแถวก่อนโหลดไฟล์ CSV ลงในวัตถุแพนด้า

คุณสามารถโหลดไฟล์แล้วกรองโดยใช้df[df['field'] > constant]หรือหากคุณมีไฟล์ขนาดใหญ่มากและคุณกังวลว่าหน่วยความจำจะหมดให้ใช้ตัววนซ้ำและใช้ตัวกรองเมื่อคุณเชื่อมต่อส่วนต่างๆของไฟล์เช่น:

import pandas as pd
iter_csv = pd.read_csv('file.csv', iterator=True, chunksize=1000)
df = pd.concat([chunk[chunk['field'] > constant] for chunk in iter_csv])

คุณสามารถปรับเปลี่ยนchunksizeให้เหมาะสมกับหน่วยความจำที่คุณมีได้ ดูที่นี่สำหรับรายละเอียดเพิ่มเติม

Question 3

read_csvผมไม่ได้หาวิธีที่ตรงไปข้างหน้าจะทำมันในบริบทของ อย่างไรก็ตามread_csvส่งคืน DataFrame ซึ่งสามารถกรองได้โดยการเลือกแถวตามเวกเตอร์บูลีนdf[bool_vec]:

filtered = df[(df['timestamp'] > targettime)]

นี่คือการเลือกแถวทั้งหมดใน df (สมมติว่า df เป็น DataFrame ใด ๆ เช่นผลลัพธ์ของการread_csvโทรซึ่งอย่างน้อยก็มีคอลัมน์วันที่และเวลาtimestamp) ซึ่งค่าในtimestampคอลัมน์นั้นมากกว่าค่าของ targettime คำถามที่คล้ายกัน

Question 4

หากช่วงที่กรองอยู่ติดกัน (ตามปกติแล้วจะเป็นตัวกรองเวลา (ตราประทับ)) วิธีแก้ปัญหาที่เร็วที่สุดคือการฮาร์ดโค้ดช่วงของแถว เพียงรวมskiprows=range(1, start_row)กับnrows=end_rowพารามิเตอร์ จากนั้นการนำเข้าจะใช้เวลาไม่กี่วินาทีซึ่งโซลูชันที่ยอมรับจะใช้เวลาไม่กี่นาที การทดลองเพียงไม่กี่ครั้งในครั้งแรกstart_rowไม่ใช่ต้นทุนที่มากเนื่องจากประหยัดเวลาในการนำเข้า range(1,..)ขอให้สังเกตเราเก็บไว้แถวส่วนหัวโดยใช้

Question 5

อีกทางเลือกหนึ่งสำหรับคำตอบที่ยอมรับคือการใช้ read_csv () กับ StringIO ซึ่งได้มาจากการกรองไฟล์อินพุต

with open(<file>) as f:
    text = "\n".join([line for line in f if <condition>])

df = pd.read_csv(StringIO(text))

วิธีแก้ปัญหานี้มักจะเร็วกว่าคำตอบที่ยอมรับเมื่อเงื่อนไขการกรองยังคงรักษาเส้นไว้เพียงเล็กน้อย

Question 6

หากคุณใช้ linux คุณสามารถใช้ grep

# to import either on Python2 or Python3
import pandas as pd
from time import time # not needed just for timing
try:
    from StringIO import StringIO
except ImportError:
    from io import StringIO


def zgrep_data(f, string):
    '''grep multiple items f is filepath, string is what you are filtering for'''

    grep = 'grep' # change to zgrep for gzipped files
    print('{} for {} from {}'.format(grep,string,f))
    start_time = time()
    if string == '':
        out = subprocess.check_output([grep, string, f])
        grep_data = StringIO(out)
        data = pd.read_csv(grep_data, sep=',', header=0)

    else:
        # read only the first row to get the columns. May need to change depending on 
        # how the data is stored
        columns = pd.read_csv(f, sep=',', nrows=1, header=None).values.tolist()[0]    

        out = subprocess.check_output([grep, string, f])
        grep_data = StringIO(out)

        data = pd.read_csv(grep_data, sep=',', names=columns, header=None)

    print('{} finished for {} - {} seconds'.format(grep,f,time()-start_time))
    return data

Question 7

คุณสามารถระบุnrowsพารามิเตอร์

import pandas as pd df = pd.read_csv('file.csv', nrows=100)

รหัสนี้ทำงานได้ดีในเวอร์ชัน 0.20.3