คำนวณความแตกต่างของเวลา DataFrame ของ Pandas ระหว่างสองคอลัมน์ในชั่วโมงและนาที


85

ฉันมีสองคอลัมน์fromdateและtodateในดาต้าเฟรม

import pandas as pd

data = {'todate': [pd.Timestamp('2014-01-24 13:03:12.050000'), pd.Timestamp('2014-01-27 11:57:18.240000'), pd.Timestamp('2014-01-23 10:07:47.660000')],
        'fromdate': [pd.Timestamp('2014-01-26 23:41:21.870000'), pd.Timestamp('2014-01-27 15:38:22.540000'), pd.Timestamp('2014-01-23 18:50:41.420000')]}

df = pd.DataFrame(data)

ฉันเพิ่มคอลัมน์ใหม่diffเพื่อค้นหาความแตกต่างระหว่างวันที่สองวันโดยใช้

df['diff'] = df['fromdate'] - df['todate']

ฉันได้รับdiffคอลัมน์ แต่มีdaysเมื่อมีมากกว่า 24 ชั่วโมง

                   todate                fromdate                   diff
0 2014-01-24 13:03:12.050 2014-01-26 23:41:21.870 2 days 10:38:09.820000
1 2014-01-27 11:57:18.240 2014-01-27 15:38:22.540 0 days 03:41:04.300000
2 2014-01-23 10:07:47.660 2014-01-23 18:50:41.420 0 days 08:42:53.760000

ฉันจะแปลงผลลัพธ์เป็นเพียงชั่วโมงและนาทีได้อย่างไร (เช่นวันจะถูกแปลงเป็นชั่วโมง)

คำตอบ:


127

ความแตกต่างของการประทับเวลาของ Pandas ส่งคืนอ็อบเจ็กต์ datetime.timedelta ซึ่งสามารถแปลงเป็นชั่วโมงได้อย่างง่ายดายโดยใช้เมธอด * as_type * เช่นนี้

import pandas
df = pandas.DataFrame(columns=['to','fr','ans'])
df.to = [pandas.Timestamp('2014-01-24 13:03:12.050000'), pandas.Timestamp('2014-01-27 11:57:18.240000'), pandas.Timestamp('2014-01-23 10:07:47.660000')]
df.fr = [pandas.Timestamp('2014-01-26 23:41:21.870000'), pandas.Timestamp('2014-01-27 15:38:22.540000'), pandas.Timestamp('2014-01-23 18:50:41.420000')]
(df.fr-df.to).astype('timedelta64[h]')

ให้ผลผลิต,

0    58
1     3
2     8
dtype: float64

วิธีแก้ปัญหา astype ใช้งานได้ แต่ช้าเกินไปสำหรับไฟล์ขนาดใหญ่ (0.5 ล้านแถว) ข้อเสนอแนะอื่น ๆ ?
student1

3
วัตถุ timedelta มีแอตทริบิวต์สำหรับวันและวินาที ... คุณทำ (df.fr-df.to) .dt.days * 24 + (df.fr-df.to) .dt.seconds / 3600
nitin

1
ขอขอบคุณ! สิ่งนี้ใช้ได้ผลสำหรับฉันในการคำนวณปี (เพื่อรับอายุ) ด้วย: df ['age'] = (df ['later_date'] - df ['birth_date']) astype ('timedelta64 [Y]')
Superduper

50

สิ่งนี้ทำให้ฉันเป็นบ้าเนื่องจาก.astype()วิธีแก้ปัญหาข้างต้นไม่ได้ผลสำหรับฉัน แต่ฉันพบวิธีอื่น ยังไม่ได้กำหนดเวลาหรืออะไรเลย แต่อาจใช้ได้ผลกับคนอื่น ๆ :

t1 = pd.to_datetime('1/1/2015 01:00')
t2 = pd.to_datetime('1/1/2015 03:30')

print pd.Timedelta(t2 - t1).seconds / 3600.0

... ถ้าคุณต้องการชั่วโมง หรือ:

print pd.Timedelta(t2 - t1).seconds / 60.0

... ถ้าคุณต้องการนาที


9
ฉันมีปัญหาเดียวกัน แต่ด้วยวิธีแก้ปัญหาของคุณเราต้องระมัดระวังเนื่องจากความแตกต่างของเวลาที่มากกว่าหนึ่งวันจะถูกละเว้นและจำเป็นต้องรวมแยกต่างหาก
เกือกม้า

41
ฉันเพิ่งพบว่า.total_seconds()มันทำงานได้ดีสำหรับผู้ที่ต้องการ
เกือกม้า

อยากรู้อยากเห็น (ฉันสังเกตเห็น 4 ปีต่อมา), คุณต้องใช้ parens ()สำหรับ.total_seconds()แต่ไม่.seconds
elPastor

6
  • ฉันจะแปลงผลลัพธ์เป็นชั่วโมงและนาทีได้อย่างไร
    • days + hoursคำตอบที่ได้รับการยอมรับเพียงผลตอบแทน ไม่รวมนาที
  • ในการจัดเตรียมคอลัมน์ที่มีชั่วโมงและนาทีเนื่องจากhh:mmหรือx hours y minutesต้องการการคำนวณเพิ่มเติมและการจัดรูปแบบสตริง
  • คำตอบนี้แสดงวิธีรับชั่วโมงรวมหรือนาทีรวมเป็นทศนิยมโดยใช้timedeltaคณิตศาสตร์และเร็วกว่าการใช้.astype('timedelta64[h]')
  • คู่มือผู้ใช้ Pandas Time Deltas
  • คู่มือผู้ใช้ซีรีส์ / วันที่ของ Pandas Time
  • timedeltaวัตถุหลาม : ดูการดำเนินการที่รองรับ
import pandas as pd

# test data from OP, with values already in a datetime format
data = {'to_date': [pd.Timestamp('2014-01-24 13:03:12.050000'), pd.Timestamp('2014-01-27 11:57:18.240000'), pd.Timestamp('2014-01-23 10:07:47.660000')],
        'from_date': [pd.Timestamp('2014-01-26 23:41:21.870000'), pd.Timestamp('2014-01-27 15:38:22.540000'), pd.Timestamp('2014-01-23 18:50:41.420000')]}

# test dataframe; the columns must be in a datetime format; use pandas.to_datetime if needed
df = pd.DataFrame(data)

# add a timedelta column if wanted. It's added here for information only
# df['time_delta_with_sub'] = df.from_date.sub(df.to_date)  # also works
df['time_delta'] = (df.from_date - df.to_date)

# create a column with timedelta as total hours, as a float type
df['tot_hour_diff'] = (df.from_date - df.to_date) / pd.Timedelta(hours=1)

# create a colume with timedelta as total minutes, as a float type
df['tot_mins_diff'] = (df.from_date - df.to_date) / pd.Timedelta(minutes=1)

# display(df)
                  to_date               from_date             time_delta  tot_hour_diff  tot_mins_diff
0 2014-01-24 13:03:12.050 2014-01-26 23:41:21.870 2 days 10:38:09.820000      58.636061    3518.163667
1 2014-01-27 11:57:18.240 2014-01-27 15:38:22.540 0 days 03:41:04.300000       3.684528     221.071667
2 2014-01-23 10:07:47.660 2014-01-23 18:50:41.420 0 days 08:42:53.760000       8.714933     522.896000

วิธีอื่น ๆ

  • รายการบันทึกจากพอดคาสต์ในทรัพยากรอื่น ๆ.total_seconds()ถูกเพิ่มและรวมเข้าด้วยกันเมื่อนักพัฒนาหลักอยู่ในช่วงพักร้อนและจะไม่ได้รับการอนุมัติ
    • ด้วยเหตุนี้จึงไม่มี.total_xxวิธีการอื่น ๆ
# convert the entire timedelta to seconds
# this is the same as td / timedelta(seconds=1)
(df.from_date - df.to_date).dt.total_seconds()
[out]:
0    211089.82
1     13264.30
2     31373.76
dtype: float64

# get the number of days
(df.from_date - df.to_date).dt.days
[out]:
0    2
1    0
2    0
dtype: int64

# get the seconds for hours + minutes + seconds, but not days
# note the difference from total_seconds
(df.from_date - df.to_date).dt.seconds
[out]:
0    38289
1    13264
2    31373
dtype: int64

แหล่งข้อมูลอื่น ๆ

%%timeit ทดสอบ

import pandas as pd

# dataframe with 2M rows
data = {'to_date': [pd.Timestamp('2014-01-24 13:03:12.050000'), pd.Timestamp('2014-01-27 11:57:18.240000')], 'from_date': [pd.Timestamp('2014-01-26 23:41:21.870000'), pd.Timestamp('2014-01-27 15:38:22.540000')]}
df = pd.DataFrame(data)
df = pd.concat([df] * 1000000).reset_index(drop=True)

%%timeit
(df.from_date - df.to_date) / pd.Timedelta(hours=1)
[out]:
43.1 ms ± 1.05 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

%%timeit
(df.from_date - df.to_date).astype('timedelta64[h]')
[out]:
59.8 ms ± 1.29 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.