โซลูชันที่ได้รับการยอมรับจะช้ามากสำหรับข้อมูลจำนวนมาก โซลูชันที่มีจำนวนสูงสุดของการลงคะแนนทำได้ยากเล็กน้อยในการอ่านและช้าด้วยข้อมูลตัวเลข ถ้าแต่ละคอลัมน์ใหม่ที่สามารถคำนวณได้อย่างอิสระของคนอื่น ๆ apply
ผมก็จะมอบหมายให้แต่ละของพวกเขาได้โดยตรงโดยไม่ต้องใช้
ตัวอย่างที่มีข้อมูลตัวละครปลอม
สร้าง 100,000 สายใน DataFrame
df = pd.DataFrame(np.random.choice(['he jumped', 'she ran', 'they hiked'],
size=100000, replace=True),
columns=['words'])
df.head()
words
0 she ran
1 she ran
2 they hiked
3 they hiked
4 they hiked
สมมติว่าเราต้องการแยกคุณลักษณะข้อความตามที่ทำไว้ในคำถามเดิม ตัวอย่างเช่นลองแยกอักขระตัวแรกนับการเกิดตัวอักษร 'e' และใช้วลีให้เป็นตัวพิมพ์ใหญ่
df['first'] = df['words'].str[0]
df['count_e'] = df['words'].str.count('e')
df['cap'] = df['words'].str.capitalize()
df.head()
words first count_e cap
0 she ran s 1 She ran
1 she ran s 1 She ran
2 they hiked t 2 They hiked
3 they hiked t 2 They hiked
4 they hiked t 2 They hiked
การกำหนดเวลา
%%timeit
df['first'] = df['words'].str[0]
df['count_e'] = df['words'].str.count('e')
df['cap'] = df['words'].str.capitalize()
127 ms ± 585 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
def extract_text_features(x):
return x[0], x.count('e'), x.capitalize()
%timeit df['first'], df['count_e'], df['cap'] = zip(*df['words'].apply(extract_text_features))
101 ms ± 2.96 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
น่าแปลกที่คุณจะได้รับประสิทธิภาพที่ดีขึ้นโดยการวนซ้ำแต่ละค่า
%%timeit
a,b,c = [], [], []
for s in df['words']:
a.append(s[0]), b.append(s.count('e')), c.append(s.capitalize())
df['first'] = a
df['count_e'] = b
df['cap'] = c
79.1 ms ± 294 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
อีกตัวอย่างหนึ่งที่มีข้อมูลตัวเลขปลอม
สร้างตัวเลขสุ่ม 1 ล้านตัวและทดสอบpowers
ฟังก์ชันจากด้านบน
df = pd.DataFrame(np.random.rand(1000000), columns=['num'])
def powers(x):
return x, x**2, x**3, x**4, x**5, x**6
%%timeit
df['p1'], df['p2'], df['p3'], df['p4'], df['p5'], df['p6'] = \
zip(*df['num'].map(powers))
1.35 s ± 83.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
การกำหนดแต่ละคอลัมน์เร็วขึ้น 25 เท่าและอ่านง่ายมาก:
%%timeit
df['p1'] = df['num'] ** 1
df['p2'] = df['num'] ** 2
df['p3'] = df['num'] ** 3
df['p4'] = df['num'] ** 4
df['p5'] = df['num'] ** 5
df['p6'] = df['num'] ** 6
51.6 ms ± 1.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
ฉันตอบกลับคล้ายกันโดยมีรายละเอียดเพิ่มเติมเกี่ยวกับสาเหตุที่apply
ตามปกติแล้วไม่ใช่วิธีที่จะไป
df.ix[: ,10:16]
ผมไม่คิดว่าคุณสามารถทำมอบหมายหลายวิธีที่คุณมีมันเขียน: ฉันคิดว่าคุณจะต้องใช้merge
คุณสมบัติของคุณในชุดข้อมูล