วิธีขี้เกียจสำหรับอ่านไฟล์ขนาดใหญ่ใน Python?

290

ฉันมีไฟล์ขนาดใหญ่มาก 4GB และเมื่อฉันพยายามอ่านมันคอมพิวเตอร์ของฉันค้าง ดังนั้นฉันต้องการที่จะอ่านทีละชิ้นและหลังจากการประมวลผลแต่ละชิ้นเก็บชิ้นส่วนที่ดำเนินการเป็นไฟล์อื่นและอ่านชิ้นต่อไป

มีวิธีการกับyieldชิ้นส่วนเหล่านี้หรือไม่?

ฉันชอบที่จะมีวิธีการขี้เกียจ

python file-io generator

— Pratik Deoghare
แหล่งที่มา

424

หากต้องการเขียนฟังก์ชันขี้เกียจเพียงใช้yield:

def read_in_chunks(file_object, chunk_size=1024):
    """Lazy function (generator) to read a file piece by piece.
    Default chunk size: 1k."""
    while True:
        data = file_object.read(chunk_size)
        if not data:
            break
        yield data


with open('really_big_file.dat') as f:
    for piece in read_in_chunks(f):
        process_data(piece)

ตัวเลือกอื่นจะใช้iterและฟังก์ชั่นผู้ช่วย:

f = open('really_big_file.dat')
def read1k():
    return f.read(1024)

for piece in iter(read1k, ''):
    process_data(piece)

หากไฟล์เป็นแบบไลน์อ็อบเจ็กต์ไฟล์จะเป็นตัวสร้างเส้นขี้เกียจอยู่แล้ว:

for line in open('really_big_file.dat'):
    process_data(line)

— nosklo
แหล่งที่มา

ดังนั้นเส้นf = open('really_big_file.dat')จึงเป็นเพียงตัวชี้โดยไม่มีการใช้หน่วยความจำใด ๆ (ฉันหมายถึงหน่วยความจำที่ใช้เหมือนกันโดยไม่คำนึงถึงขนาดของไฟล์?) จะมีผลต่อประสิทธิภาพการทำงานอย่างไรหากฉันใช้ urllib.readline () แทนที่จะเป็น f.readline ()

— sumid

4

แนวปฏิบัติที่ดีในการใช้ open ('really_big_file.dat', 'rb') สำหรับการใช้งานร่วมกับ Windows ที่ท้าทาย Posix โดยใช้เพื่อนร่วมงาน

— Tal Weiss

6

ไม่มีrbในขณะที่ @Tal Weiss พูดถึง; และไม่มีfile.close()คำสั่ง (สามารถใช้ with open('really_big_file.dat', 'rb') as f:เพื่อให้บรรลุเหมือนกันดูที่นี่สำหรับการใช้งานที่กระชับอื่น

— cod3monk3y

4

@ cod3monk3y: ข้อความและไฟล์ไบนารีต่างกัน ทั้งสองประเภทมีประโยชน์ แต่ในกรณีที่แตกต่างกัน โหมดเริ่มต้น (ข้อความ) อาจมีประโยชน์ที่นี่นั่น'rb'คือจะไม่หายไป

— jfs

2

@ jf-sebastian: จริง OP ไม่ได้ระบุว่าเขากำลังอ่านข้อมูลที่เป็นข้อความหรือไบนารี แต่ถ้าเขาใช้ python 2.7 บนWindowsและกำลังอ่านข้อมูลไบนารี่มันก็คุ้มค่าที่จะสังเกตว่าถ้าเขาลืม'b'ข้อมูลของเขาอาจจะเสียหายมาก จากเอกสาร -

Python on Windows makes a distinction between text and binary files; [...] it’ll corrupt binary data like that in JPEG or EXE files. Be very careful to use binary mode when reading and writing such files.

— cod3monk3y

41

หากคอมพิวเตอร์ของคุณระบบปฏิบัติการและ python เป็น 64- บิตคุณสามารถใช้โมดูล mmapเพื่อแมปเนื้อหาของไฟล์ในหน่วยความจำและเข้าถึงด้วยดัชนีและชิ้นส่วน นี่คือตัวอย่างจากเอกสาร:

import mmap
with open("hello.txt", "r+") as f:
    # memory-map the file, size 0 means whole file
    map = mmap.mmap(f.fileno(), 0)
    # read content via standard file methods
    print map.readline()  # prints "Hello Python!"
    # read content via slice notation
    print map[:5]  # prints "Hello"
    # update content using slice notation;
    # note that new content must have same size
    map[6:] = " world!\n"
    # ... and read again using standard file methods
    map.seek(0)
    print map.readline()  # prints "Hello  world!"
    # close the map
    map.close()

หากคอมพิวเตอร์ของคุณระบบปฏิบัติการหรือ python เป็นแบบ 32 บิตไฟล์ขนาดใหญ่ mmap-ing สามารถสำรองพื้นที่ส่วนใหญ่ของพื้นที่ที่อยู่ของคุณและอดอาหารโปรแกรมหน่วยความจำของคุณ

— ชุมชน
แหล่งที่มา

7

สิ่งนี้ควรจะทำงานอย่างไร จะเกิดอะไรขึ้นถ้าฉันมีไฟล์ 32GB จะเกิดอะไรขึ้นถ้าฉันใช้ VM พร้อม RAM 256MB การแม็พไฟล์ขนาดใหญ่เช่นนี้ไม่เคยเป็นเรื่องดีเลย

— Savino Sguera

4

คำตอบนี้สมควรได้รับ -12 คะแนน นี่จะฆ่าทุกคนที่ใช้ไฟล์ขนาดใหญ่

— Phyo Arkar Lwin

23

สิ่งนี้สามารถทำงานกับ Python 64- บิตได้แม้สำหรับไฟล์ขนาดใหญ่ แม้ว่าไฟล์นั้นจะถูกแมปหน่วยความจำ แต่ก็ไม่ได้อ่านไปยังหน่วยความจำดังนั้นจำนวนหน่วยความจำกายภาพอาจมีขนาดเล็กกว่าขนาดไฟล์มาก

— pts

1

@SavinoSguera ขนาดของหน่วยความจำกายภาพมีความสำคัญกับไฟล์ mmaping หรือไม่?

— Nick T

17

@ V3ss0n: ฉันพยายามไฟล์ mmap 32GB บน Python 64 บิตแล้ว ใช้งานได้ (ฉันมี RAM น้อยกว่า 32GB): ฉันสามารถเข้าถึงจุดเริ่มต้นตรงกลางและจุดสิ้นสุดของไฟล์โดยใช้ทั้งลำดับและอินเทอร์เฟซไฟล์

— jfs

37

file.readlines() ใช้อาร์กิวเมนต์ที่เป็นตัวเลือกขนาดซึ่งประมาณจำนวนบรรทัดที่อ่านในบรรทัดที่ส่งคืน

bigfile = open('bigfilename','r')
tmp_lines = bigfile.readlines(BUF_SIZE)
while tmp_lines:
    process([line for line in tmp_lines])
    tmp_lines = bigfile.readlines(BUF_SIZE)

— Anshul
แหล่งที่มา

1

มันเป็นความคิดที่ดีมากโดยเฉพาะอย่างยิ่งเมื่อรวมกับค่าเริ่มต้นเพื่อแยกข้อมูลขนาดใหญ่เป็นขนาดเล็ก

— Frank Wang

4

ฉันจะแนะนำให้ใช้ไม่ได้.read() .readlines()หากไฟล์เป็นแบบไบนารี่จะไม่มีการแบ่งบรรทัด

— Myers Carpenter

1

ถ้าไฟล์เป็นสตริงขนาดใหญ่?

— MattSom

28

มีคำตอบที่ดีอยู่แล้วจำนวนมาก แต่หากไฟล์ทั้งหมดของคุณอยู่ในบรรทัดเดียวและคุณยังต้องการประมวลผล "แถว" (ตรงข้ามกับบล็อกขนาดคงที่) คำตอบเหล่านี้จะไม่ช่วยคุณ

99% ของเวลาเป็นไปได้ที่จะประมวลผลไฟล์แบบทีละบรรทัด จากนั้นตามคำแนะนำในคำตอบนี้คุณสามารถใช้วัตถุไฟล์เป็นเครื่องมือสร้างสันหลังยาว:

with open('big.csv') as f:
    for line in f:
        process(line)

แต่ผมเคยวิ่งเข้ามากใหญ่มาก (เกือบ) ไฟล์บรรทัดเดียวที่คั่นแถวในความเป็นจริงไม่ได้แต่'\n''|'

การอ่านทีละบรรทัดไม่ใช่ตัวเลือก แต่ฉันยังต้องดำเนินการทีละบรรทัด
การแปลง'|'ไป'\n'ก่อนการประมวลผลนั้นไม่เป็นไปตามคำถามเช่นกันเนื่องจากบางฟิลด์ของ csv นี้มีอยู่'\n'(อินพุตผู้ใช้แบบข้อความอิสระ)
การใช้ห้องสมุด CSV ก็ยังตัดออกไปเพราะความจริงที่ว่าอย่างน้อยในรุ่นแรกของ lib ที่มันเป็น hardcoded อ่านบรรทัดการป้อนข้อมูลโดยสาย

สำหรับสถานการณ์ประเภทนี้ฉันได้สร้างตัวอย่างต่อไปนี้:

def rows(f, chunksize=1024, sep='|'):
    """
    Read a file where the row separator is '|' lazily.

    Usage:

    >>> with open('big.csv') as f:
    >>>     for r in rows(f):
    >>>         process(row)
    """
    curr_row = ''
    while True:
        chunk = f.read(chunksize)
        if chunk == '': # End of file
            yield curr_row
            break
        while True:
            i = chunk.find(sep)
            if i == -1:
                break
            yield curr_row + chunk[:i]
            curr_row = ''
            chunk = chunk[i+1:]
        curr_row += chunk

ฉันสามารถใช้มันได้สำเร็จเพื่อแก้ปัญหาของฉัน มันได้รับการทดสอบอย่างกว้างขวางด้วยขนาดก้อนต่างๆ

ชุดทดสอบสำหรับผู้ที่ต้องการโน้มน้าวใจตัวเอง

test_file = 'test_file'

def cleanup(func):
    def wrapper(*args, **kwargs):
        func(*args, **kwargs)
        os.unlink(test_file)
    return wrapper

@cleanup
def test_empty(chunksize=1024):
    with open(test_file, 'w') as f:
        f.write('')
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 1

@cleanup
def test_1_char_2_rows(chunksize=1024):
    with open(test_file, 'w') as f:
        f.write('|')
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 2

@cleanup
def test_1_char(chunksize=1024):
    with open(test_file, 'w') as f:
        f.write('a')
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 1

@cleanup
def test_1025_chars_1_row(chunksize=1024):
    with open(test_file, 'w') as f:
        for i in range(1025):
            f.write('a')
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 1

@cleanup
def test_1024_chars_2_rows(chunksize=1024):
    with open(test_file, 'w') as f:
        for i in range(1023):
            f.write('a')
        f.write('|')
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 2

@cleanup
def test_1025_chars_1026_rows(chunksize=1024):
    with open(test_file, 'w') as f:
        for i in range(1025):
            f.write('|')
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 1026

@cleanup
def test_2048_chars_2_rows(chunksize=1024):
    with open(test_file, 'w') as f:
        for i in range(1022):
            f.write('a')
        f.write('|')
        f.write('a')
        # -- end of 1st chunk --
        for i in range(1024):
            f.write('a')
        # -- end of 2nd chunk
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 2

@cleanup
def test_2049_chars_2_rows(chunksize=1024):
    with open(test_file, 'w') as f:
        for i in range(1022):
            f.write('a')
        f.write('|')
        f.write('a')
        # -- end of 1st chunk --
        for i in range(1024):
            f.write('a')
        # -- end of 2nd chunk
        f.write('a')
    with open(test_file) as f:
        assert len(list(rows(f, chunksize=chunksize))) == 2

if __name__ == '__main__':
    for chunksize in [1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024]:
        test_empty(chunksize)
        test_1_char_2_rows(chunksize)
        test_1_char(chunksize)
        test_1025_chars_1_row(chunksize)
        test_1024_chars_2_rows(chunksize)
        test_1025_chars_1026_rows(chunksize)
        test_2048_chars_2_rows(chunksize)
        test_2049_chars_2_rows(chunksize)

— user48678
แหล่งที่มา

11

f = ... # file-like object, i.e. supporting read(size) function and 
        # returning empty string '' when there is nothing to read

def chunked(file, chunk_size):
    return iter(lambda: file.read(chunk_size), '')

for data in chunked(f, 65536):
    # process the data

อัปเดต: วิธีการอธิบายที่ดีที่สุดในhttps://stackoverflow.com/a/4566523/38592

— Myroslav
แหล่งที่มา

วิธีนี้ใช้งานได้ดีสำหรับ blobs แต่อาจไม่ดีสำหรับเนื้อหาที่คั่นด้วยเส้น (เช่น CSV, HTML, ฯลฯ ซึ่งการประมวลผลต้องได้รับการจัดการทีละบรรทัด)

— cgseller

7

อ้างถึงเอกสารทางการของ python https://docs.python.org/zh-cn/3/library/functions.html?#iter

บางทีวิธีนี้อาจจะเป็น pythonic มากกว่านี้:

from functools import partial

"""A file object returned by open() is a iterator with
read method which could specify current read's block size"""
with open('mydata.db', 'r') as f_in:

    part_read = partial(f_in.read, 1024*1024)
    iterator = iter(part_read, b'')

    for index, block in enumerate(iterator, start=1):
        block = process_block(block)    # process block data
        with open(f'{index}.txt', 'w') as f_out:
            f_out.write(block)

— บรูซ
แหล่งที่มา

3

ฉันคิดว่าเราสามารถเขียนดังนี้:

def read_file(path, block_size=1024): 
    with open(path, 'rb') as f: 
        while True: 
            piece = f.read(block_size) 
            if piece: 
                yield piece 
            else: 
                return

for piece in read_file(path):
    process_piece(piece)

— TonyCoolZhu
แหล่งที่มา

2

ฉันไม่ได้รับอนุญาตให้แสดงความคิดเห็นเนื่องจากชื่อเสียงที่ต่ำของฉัน แต่โซลูชัน SilentGhosts น่าจะง่ายกว่ามากกับ file.readlines ([sizehint])

วิธีการไฟล์หลาม

แก้ไข: SilentGhost ถูกต้อง แต่ควรจะดีกว่า:

s = "" 
for i in xrange(100): 
   s += file.next()

— sinzi
แหล่งที่มา

โอเคขอโทษคุณพูดถูก แต่บางทีวิธีนี้จะทำให้คุณมีความสุข;): s = "" สำหรับ i ใน xrange (100): s + = file.next ()

— sinzi

1

-1: โซลูชันที่แย่มากนี่หมายถึงการสร้างสตริงใหม่ในหน่วยความจำแต่ละบรรทัดและคัดลอกข้อมูลไฟล์ทั้งหมดที่อ่านไปยังสตริงใหม่ ประสิทธิภาพและหน่วยความจำที่แย่ที่สุด

— nosklo

ทำไมมันจะคัดลอกข้อมูลไฟล์ทั้งหมดไปยังสตริงใหม่ จากเอกสารไพ ธ อน: เพื่อให้การวนลูปเป็นวิธีที่มีประสิทธิภาพมากที่สุดในการวนลูปบนบรรทัดของไฟล์ (การดำเนินการทั่วไป) เมธอดถัดไป () ใช้บัฟเฟอร์การอ่านล่วงหน้าล่วงหน้าที่ซ่อนอยู่

— sinzi

3

@sinzi: "s + =" หรือสตริงที่ต่อกันสร้างสำเนาใหม่ของสตริงในแต่ละครั้งเนื่องจากสตริงไม่เปลี่ยนรูปดังนั้นคุณจึงสร้างสตริงใหม่

— nosklo

1

@ nosklo: เหล่านี้คือรายละเอียดของการใช้งานความเข้าใจของรายการสามารถนำมาใช้ในสถานที่ของมัน

— SilentGhost

1

ฉันอยู่ในสถานการณ์ที่ค่อนข้างคล้ายกัน ไม่ชัดเจนว่าคุณรู้ขนาดก้อนเป็นไบต์หรือไม่ ฉันมักจะทำไม่ได้ แต่ทราบจำนวนของบันทึก (บรรทัด) ที่จำเป็น:

def get_line():
     with open('4gb_file') as file:
         for i in file:
             yield i

lines_required = 100
gen = get_line()
chunk = [i for i, j in zip(gen, range(lines_required))]

อัปเดต : ขอบคุณ nosklo นี่คือสิ่งที่ฉันหมายถึง มันเกือบจะทำงานได้ยกเว้นว่ามันจะเสียบรรทัด 'ระหว่าง' ชิ้น

chunk = [next(gen) for i in range(lines_required)]

เคล็ดลับไม่มีการสูญเสียบรรทัดใด ๆ แต่ก็ดูไม่ดีมาก

— SilentGhost
แหล่งที่มา

1

รหัสหลอกคืออะไร? มันจะไม่ทำงาน นอกจากนี้ยังสับสนโดยไม่จำเป็นคุณควรกำหนดจำนวนบรรทัดพารามิเตอร์เสริมให้กับฟังก์ชั่น get_line

— nosklo

0

หากต้องการประมวลผลทีละบรรทัดนี่เป็นโซลูชันที่หรูหรา:

  def stream_lines(file_name):
    file = open(file_name)
    while True:
      line = file.readline()
      if not line:
        file.close()
        break
      yield line

ตราบใดที่ไม่มีบรรทัดว่าง

— crizCraig
แหล่งที่มา

6

นี่เป็นเพียงสิ่งที่ซับซ้อนมากเกินไปน้อยกว่าและช้ากว่าสิ่งที่openให้คุณอยู่แล้ว ไฟล์ที่เป็นอยู่แล้ว iterator ที่มากกว่าเส้น

— abarnert

-2

คุณสามารถใช้รหัสต่อไปนี้

file_obj = open('big_file')

open () ส่งคืนวัตถุไฟล์

จากนั้นใช้ os.stat เพื่อรับขนาด

file_size = os.stat('big_file').st_size

for i in range( file_size/1024):
    print file_obj.read(1024)

— Shrikant
แหล่งที่มา

จะไม่อ่านไฟล์ทั้งหมดหากขนาดไม่ใช่ทวีคูณของ 1024

— kmaork