ฉันเพิ่งมีปัญหานี้ไม่กี่วันที่ผ่านมา! ไม่แน่ใจว่าสิ่งนี้จะช่วยได้ในกรณีเฉพาะของคุณหรือไม่เนื่องจากคุณไม่ได้ให้รายละเอียดมากมาย แต่สถานการณ์ของฉันคือการทำงานออฟไลน์ในชุดข้อมูล 'ใหญ่' ข้อมูลได้รับเป็นไฟล์ CSV 20GB gzipped จากเครื่องวัดพลังงานข้อมูลอนุกรมเวลาในช่วงเวลาหลายวินาที
ไฟล์ IO:
data_root = r"/media/usr/USB STICK"
fname = r"meters001-050-timestamps.csv.gz"
this_file = os.path.join(data_root,fname)
assert os.path.exists(this_file), this_file
this_file
สร้าง chunk iterator โดยตรงเหนือไฟล์ gzip (ห้าม unzip!)
cols_to_keep = [0,1,2,3,7]
column_names = ['METERID','TSTAMP','ENERGY','POWER_ALL','ENERGY_OUT',]
parse_dates = ['TSTAMP']
dtype={'METERID': np.int32,
'ENERGY': np.int32,
'POWER_ALL': np.int32,
'ENERGY_OUT': np.int32,
}
df_iterator = pd.read_csv(this_file,
skiprows=0,
compression='gzip',
chunksize=1000000,
usecols=cols_to_keep,
delimiter=";",
header=None,
names = column_names,
dtype=dtype,
parse_dates=parse_dates,
index_col=1,
)
วนซ้ำทุกชิ้น
new_df = pd.DataFrame()
count = 0
for df in df_iterator:
chunk_df_15min = df.resample('15T').first()
#chunk_df_30min = df.resample('30T').first()
#chunk_df_hourly = df.resample('H').first()
this_df = chunk_df_15min
this_df = this_df.pipe(lambda x: x[x.METERID == 1])
#print("chunk",i)
new_df = pd.concat([new_df,chunk_df_15min])
print("chunk",count, len(chunk_df_15min), 'rows added')
#print("chunk",i, len(temp_df),'rows added')
#break
count += 1
ในวงอันธพาลฉันกำลังทำการกรองและสุ่มตัวอย่างตรงเวลา การทำเช่นนี้ฉันลดขนาดจาก 20GB เหลือเพียงไม่กี่ร้อย MB HDF5 สำหรับการสำรวจข้อมูลออฟไลน์เพิ่มเติม