ใช้อาร์เรย์ numpy ในหน่วยความจำแบบแบ่งใช้สำหรับการประมวลผลหลายขั้นตอน


112

ฉันต้องการใช้อาร์เรย์ numpy ในหน่วยความจำที่ใช้ร่วมกันเพื่อใช้กับโมดูลมัลติโปรเซสเซอร์ ความยากคือการใช้มันเหมือนกับอาร์เรย์ numpy ไม่ใช่แค่อาร์เรย์ ctypes

from multiprocessing import Process, Array
import scipy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    arr = Array('d', unshared_arr)
    print "Originally, the first two elements of arr = %s"%(arr[:2])

    # Create, start, and finish the child processes
    p = Process(target=f, args=(arr,))
    p.start()
    p.join()

    # Printing out the changed values
    print "Now, the first two elements of arr = %s"%arr[:2]

สิ่งนี้สร้างผลลัพธ์เช่น:

Originally, the first two elements of arr = [0.3518653236697369, 0.517794725524976]
Now, the first two elements of arr = [-0.3518653236697369, 0.517794725524976]

อาร์เรย์สามารถเข้าถึงได้ในลักษณะ ctypes เช่นarr[i]เหมาะสม อย่างไรก็ตามมันไม่ใช่อาร์เรย์ numpy และฉันไม่สามารถดำเนินการเช่น-1*arrหรือarr.sum(). ฉันคิดว่าวิธีแก้ปัญหาคือการแปลงอาร์เรย์ ctypes เป็นอาร์เรย์ numpy อย่างไรก็ตาม (นอกจากจะไม่สามารถทำงานนี้ได้) ฉันไม่เชื่อว่ามันจะถูกแชร์อีกต่อไป

ดูเหมือนว่าจะมีวิธีแก้ปัญหามาตรฐานสำหรับปัญหาที่พบบ่อย


1
มันไม่เหมือนกับอันนี้? stackoverflow.com/questions/5033799/…
pygabriel

1
ไม่ใช่คำถามเดียวกัน คำถามที่เชื่อมโยงถามเกี่ยวกับมากกว่าsubprocess multiprocessing
Andrew

คำตอบ:


83

เพื่อเพิ่มในคำตอบของ @ unutbu (ไม่มีแล้ว) และคำตอบของ @Henry Gomersall คุณสามารถใช้shared_arr.get_lock()เพื่อซิงโครไนซ์การเข้าถึงเมื่อจำเป็น:

shared_arr = mp.Array(ctypes.c_double, N)
# ...
def f(i): # could be anything numpy accepts as an index such another numpy array
    with shared_arr.get_lock(): # synchronize access
        arr = np.frombuffer(shared_arr.get_obj()) # no data copying
        arr[i] = -arr[i]

ตัวอย่าง

import ctypes
import logging
import multiprocessing as mp

from contextlib import closing

import numpy as np

info = mp.get_logger().info

def main():
    logger = mp.log_to_stderr()
    logger.setLevel(logging.INFO)

    # create shared array
    N, M = 100, 11
    shared_arr = mp.Array(ctypes.c_double, N)
    arr = tonumpyarray(shared_arr)

    # fill with random values
    arr[:] = np.random.uniform(size=N)
    arr_orig = arr.copy()

    # write to arr from different processes
    with closing(mp.Pool(initializer=init, initargs=(shared_arr,))) as p:
        # many processes access the same slice
        stop_f = N // 10
        p.map_async(f, [slice(stop_f)]*M)

        # many processes access different slices of the same array
        assert M % 2 # odd
        step = N // 10
        p.map_async(g, [slice(i, i + step) for i in range(stop_f, N, step)])
    p.join()
    assert np.allclose(((-1)**M)*tonumpyarray(shared_arr), arr_orig)

def init(shared_arr_):
    global shared_arr
    shared_arr = shared_arr_ # must be inherited, not passed as an argument

def tonumpyarray(mp_arr):
    return np.frombuffer(mp_arr.get_obj())

def f(i):
    """synchronized."""
    with shared_arr.get_lock(): # synchronize access
        g(i)

def g(i):
    """no synchronization."""
    info("start %s" % (i,))
    arr = tonumpyarray(shared_arr)
    arr[i] = -1 * arr[i]
    info("end   %s" % (i,))

if __name__ == '__main__':
    mp.freeze_support()
    main()

หากคุณไม่ต้องการการเข้าถึงแบบซิงโครไนซ์หรือสร้างการล็อกของคุณเองก็mp.Array()ไม่จำเป็น คุณสามารถใช้mp.sharedctypes.RawArrayในกรณีนี้


2
สวยตอบโจทย์! ถ้าฉันต้องการมีอาร์เรย์ที่ใช้ร่วมกันมากกว่าหนึ่งอาร์เรย์แต่ละชุดสามารถล็อคแยกกันได้ แต่ด้วยจำนวนอาร์เรย์ที่กำหนดในรันไทม์นั่นเป็นส่วนขยายที่ตรงไปตรงมาของสิ่งที่คุณทำที่นี่หรือไม่?
Andrew

3
@Andrew: อาร์เรย์ที่ใช้ร่วมกันควรถูกสร้างขึ้นก่อนที่กระบวนการย่อยจะถูกสร้าง
jfs

จุดที่ดีเกี่ยวกับลำดับการดำเนินการ นั่นคือสิ่งที่ฉันคิดไว้: สร้างอาร์เรย์ที่ใช้ร่วมกันตามจำนวนที่ผู้ใช้ระบุจากนั้นสร้างกระบวนการย่อยสองสามกระบวนการ ตรงไปตรงมาหรือไม่?
Andrew

1
@Chicony: คุณไม่สามารถเปลี่ยนขนาดของ Array ได้ คิดว่าเป็นบล็อกหน่วยความจำที่ใช้ร่วมกันซึ่งต้องได้รับการจัดสรรก่อนที่กระบวนการย่อยจะเริ่มต้น คุณไม่จำเป็นต้องใช้หน่วยความจำทั้งหมดเช่นคุณสามารถส่งผ่านcountไปnumpy.frombuffer()ได้ คุณสามารถลองทำในระดับที่ต่ำกว่าโดยใช้mmapหรือบางอย่างเช่นposix_ipcโดยตรงเพื่อปรับขนาดได้ (อาจเกี่ยวข้องกับการคัดลอกขณะปรับขนาด) อะนาล็อก RawArray (หรือมองหาไลบรารีที่มีอยู่) หรือถ้างานของคุณอนุญาต: คัดลอกข้อมูลเป็นส่วน ๆ (ถ้าคุณไม่ต้องการทั้งหมดพร้อมกัน) "วิธีปรับขนาดหน่วยความจำที่ใช้ร่วมกัน" เป็นคำถามแยกต่างหากที่ดี
jfs

1
@umopapisdn: Pool()กำหนดจำนวนกระบวนการ (จำนวนแกน CPU ที่มีอยู่จะถูกใช้โดยค่าเริ่มต้น) Mคือจำนวนครั้งที่f()เรียกใช้ฟังก์ชัน
jfs

21

Arrayวัตถุมีget_obj()วิธีการที่เกี่ยวข้องกับมันซึ่งจะส่งกลับอาร์เรย์ ctypes ที่นำเสนออินเตอร์เฟซบัฟเฟอร์ ฉันคิดว่าสิ่งต่อไปนี้น่าจะใช้ได้ ...

from multiprocessing import Process, Array
import scipy
import numpy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    a = Array('d', unshared_arr)
    print "Originally, the first two elements of arr = %s"%(a[:2])

    # Create, start, and finish the child process
    p = Process(target=f, args=(a,))
    p.start()
    p.join()

    # Print out the changed values
    print "Now, the first two elements of arr = %s"%a[:2]

    b = numpy.frombuffer(a.get_obj())

    b[0] = 10.0
    print a[0]

เมื่อเรียกใช้สิ่งนี้จะพิมพ์องค์ประกอบแรกของaตอนนี้ที่เป็น 10.0 ซึ่งแสดงaและbเป็นเพียงสองมุมมองในหน่วยความจำเดียวกัน

เพื่อให้แน่ใจว่ายังปลอดภัยสำหรับมัลติโปรเซสเซอร์ฉันเชื่อว่าคุณจะต้องใช้acquireและreleaseวิธีการที่มีอยู่ในArrayวัตถุaและในตัวล็อคเพื่อให้แน่ใจว่าทั้งหมดเข้าถึงได้อย่างปลอดภัย (แม้ว่าฉันจะไม่ใช่ผู้เชี่ยวชาญด้าน โมดูลมัลติโปรเซสเซอร์)


มันจะไม่ทำงานหากไม่มีการซิงโครไนซ์ตามที่ @unutbu แสดงในคำตอบของเขา (ตอนนี้ถูกลบไปแล้ว)
jfs

1
หากคุณต้องการเข้าถึงการประมวลผลหลังอาร์เรย์ก็สามารถทำได้อย่างหมดจดโดยไม่ต้องกังวลเกี่ยวกับปัญหาการทำงานพร้อมกันและการล็อก?
Henry Gomersall

ในกรณีนี้คุณไม่จำเป็นต้องmp.Arrayใช้
jfs

1
รหัสประมวลผลอาจต้องใช้อาร์เรย์ที่ถูกล็อก แต่การตีความข้อมูลหลังการประมวลผลอาจไม่จำเป็น ฉันเดาว่านี่มาจากความเข้าใจว่าปัญหาคืออะไรกันแน่ เห็นได้ชัดว่าการเข้าถึงข้อมูลที่แชร์พร้อมกันนั้นจะต้องมีการป้องกันซึ่งฉันคิดว่ามันชัดเจน!
Henry Gomersall

16

แม้ว่าคำตอบที่ได้จะดีอยู่แล้ว แต่ก็มีวิธีแก้ปัญหานี้ที่ง่ายกว่ามากหากตรงตามเงื่อนไขสองประการ:

  1. คุณใช้ระบบปฏิบัติการที่รองรับ POSIX (เช่น Linux, Mac OSX) และ
  2. กระบวนการย่อยของคุณต้องการการเข้าถึงอาร์เรย์ที่แชร์แบบอ่านอย่างเดียว

ในกรณีนี้คุณไม่จำเป็นต้องซอกับการสร้างตัวแปรที่แชร์อย่างชัดเจนเนื่องจากกระบวนการย่อยจะถูกสร้างขึ้นโดยใช้ส้อม ลูกที่ถูกแยกจะแบ่งปันพื้นที่หน่วยความจำของผู้ปกครองโดยอัตโนมัติ ในบริบทของการประมวลผลหลายขั้นตอนของ Python หมายความว่ามันจะแชร์ตัวแปรระดับโมดูลทั้งหมด โปรดทราบว่าสิ่งนี้ไม่ถือเป็นข้อโต้แย้งที่คุณส่งผ่านไปยังกระบวนการย่อยของคุณอย่างชัดเจนหรือไปยังฟังก์ชันที่คุณเรียกใช้multiprocessing.Poolหรือมากกว่านั้น

ตัวอย่างง่ายๆ:

import multiprocessing
import numpy as np

# will hold the (implicitly mem-shared) data
data_array = None

# child worker function
def job_handler(num):
    # built-in id() returns unique memory ID of a variable
    return id(data_array), np.sum(data_array)

def launch_jobs(data, num_jobs=5, num_worker=4):
    global data_array
    data_array = data

    pool = multiprocessing.Pool(num_worker)
    return pool.map(job_handler, range(num_jobs))

# create some random data and execute the child jobs
mem_ids, sumvals = zip(*launch_jobs(np.random.rand(10)))

# this will print 'True' on POSIX OS, since the data was shared
print(np.all(np.asarray(mem_ids) == id(data_array)))

3
+1 ข้อมูลที่มีค่าจริงๆ คุณอธิบายได้ไหมว่าทำไมจึงเป็นเพียงตัวแปรระดับโมดูลที่แชร์ เหตุใด local vars จึงไม่เป็นส่วนหนึ่งของพื้นที่หน่วยความจำของผู้ปกครอง เช่นเหตุใดจึงใช้งานไม่ได้ถ้าฉันมีฟังก์ชัน F ที่มี local var V และฟังก์ชัน G ภายใน F ซึ่งอ้างอิง V
Coffee_Table

5
คำเตือน: คำตอบนี้หลอกลวงเล็กน้อย กระบวนการลูกจะได้รับสำเนาสถานะของกระบวนการพาเรนต์รวมถึงตัวแปรส่วนกลางในขณะที่ส้อม สถานะไม่ตรงกันและจะแตกต่างจากช่วงเวลานั้น เทคนิคนี้อาจมีประโยชน์ในบางสถานการณ์ (เช่นการแยกกระบวนการลูกเฉพาะกิจที่แต่ละกระบวนการจัดการสแน็ปช็อตของกระบวนการหลักแล้วยุติ) แต่ไม่มีประโยชน์สำหรับกระบวนการอื่น ๆ (เช่นกระบวนการย่อยที่ใช้งานมานานซึ่งต้องแบ่งปันและ ซิงค์ข้อมูลกับกระบวนการหลัก)
David Stein

4
@EelkeSpaak: คำสั่งของคุณ - "เด็กที่ถูกแยกจะแบ่งปันพื้นที่หน่วยความจำของผู้ปกครองโดยอัตโนมัติ" - ไม่ถูกต้อง หากฉันมีกระบวนการย่อยที่ต้องการตรวจสอบสถานะของกระบวนการพาเรนต์ในลักษณะอ่านอย่างเดียวอย่างเคร่งครัด Forking จะไม่พาฉันไปที่นั่น: เด็กจะเห็นสแนปชอตของสถานะพาเรนต์ในขณะที่ฟอร์กเท่านั้น อันที่จริงนั่นคือสิ่งที่ฉันพยายามทำ (ตามคำตอบของคุณ) เมื่อฉันค้นพบข้อ จำกัด นี้ ดังนั้นคำลงท้ายในคำตอบของคุณ โดยสรุป: สถานะพาเรนต์ไม่ได้ "แชร์" แต่เป็นเพียงการคัดลอกไปยังเด็กเท่านั้น นั่นไม่ใช่ "การแบ่งปัน" ในความหมายปกติ
David Stein

2
ฉันเข้าใจผิดคิดว่านี่เป็นสถานการณ์คัดลอกเมื่อเขียนอย่างน้อยในระบบ posix หรือไม่? นั่นคือหลังจากส้อมฉันคิดว่าหน่วยความจำจะถูกแบ่งใช้จนกว่าจะมีการเขียนข้อมูลใหม่ ณ จุดที่สร้างสำเนา ใช่มันเป็นความจริงที่ข้อมูลไม่ได้ถูก "แชร์" อย่างแน่นอน แต่สามารถเพิ่มประสิทธิภาพได้อย่างมาก หากกระบวนการของคุณเป็นแบบอ่านอย่างเดียวจะไม่มีค่าใช้จ่ายในการคัดลอก! ฉันเข้าใจประเด็นถูกต้องหรือไม่?
ส่ง

2
@senderle ใช่นั่นคือสิ่งที่ฉันหมายถึง! ดังนั้นประเด็นของฉัน (2) ในคำตอบเกี่ยวกับการเข้าถึงแบบอ่านอย่างเดียว
EelkeSpaak

11

ฉันได้เขียนโมดูล python ขนาดเล็กที่ใช้หน่วยความจำที่ใช้ร่วมกัน POSIX เพื่อแชร์อาร์เรย์จำนวนนับระหว่างตัวแปล python บางทีคุณอาจจะพบว่ามีประโยชน์

https://pypi.python.org/pypi/SharedArray

นี่คือวิธีการทำงาน:

import numpy as np
import SharedArray as sa

# Create an array in shared memory
a = sa.create("test1", 10)

# Attach it as a different array. This can be done from another
# python interpreter as long as it runs on the same computer.
b = sa.attach("test1")

# See how they are actually sharing the same memory block
a[0] = 42
print(b[0])

# Destroying a does not affect b.
del a
print(b[0])

# See how "test1" is still present in shared memory even though we
# destroyed the array a.
sa.list()

# Now destroy the array "test1" from memory.
sa.delete("test1")

# The array b is not affected, but once you destroy it then the
# data are lost.
print(b[0])

8

คุณสามารถใช้sharedmemโมดูล: https://bitbucket.org/cleemesser/numpy-sharedmem

นี่คือรหัสดั้งเดิมของคุณคราวนี้ใช้หน่วยความจำที่ใช้ร่วมกันซึ่งทำหน้าที่เหมือนอาร์เรย์ NumPy (สังเกตคำสั่งสุดท้ายเพิ่มเติมที่เรียกใช้sum()ฟังก์ชันNumPy ):

from multiprocessing import Process
import sharedmem
import scipy

def f(a):
    a[0] = -a[0]

if __name__ == '__main__':
    # Create the array
    N = int(10)
    unshared_arr = scipy.rand(N)
    arr = sharedmem.empty(N)
    arr[:] = unshared_arr.copy()
    print "Originally, the first two elements of arr = %s"%(arr[:2])

    # Create, start, and finish the child process
    p = Process(target=f, args=(arr,))
    p.start()
    p.join()

    # Print out the changed values
    print "Now, the first two elements of arr = %s"%arr[:2]

    # Perform some NumPy operation
    print arr.sum()

1
หมายเหตุ: สิ่งนี้ไม่ได้รับการพัฒนาอีกต่อไปและดูเหมือนจะไม่ทำงานบน linux github.com/sturlamolden/sharedmem-numpy/issues/4
AD

numpy-sharedmemอาจไม่อยู่ในการพัฒนา แต่ก็ยังคงทำงานบน Linux, ตรวจสอบgithub.com/vmlaker/benchmark-sharedmem
Velimir Mlaker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.