รับรายการคอลัมน์ dataframe ของ pandas ตามชนิดข้อมูล


184

หากฉันมีชื่อไฟล์ที่มีคอลัมน์ต่อไปนี้:

1. NAME                                     object
2. On_Time                                      object
3. On_Budget                                    object
4. %actual_hr                                  float64
5. Baseline Start Date                  datetime64[ns]
6. Forecast Start Date                  datetime64[ns] 

ฉันอยากจะบอกว่า: นี่คือ dataframe ให้ฉันรายการของคอลัมน์ที่เป็นประเภทวัตถุหรือประเภท DateTime?

ฉันมีฟังก์ชั่นที่แปลงตัวเลข (Float64) เป็นทศนิยมสองตำแหน่งและฉันต้องการใช้รายการคอลัมน์คอลัมน์ dataframe ประเภทใดประเภทหนึ่งและเรียกใช้ผ่านฟังก์ชั่นนี้เพื่อแปลงทั้งหมดเป็น 2dp

อาจจะ:

For c in col_list: if c.dtype = "Something"
list[]
List.append(c)?

4
เมื่อฉันมาถึงคำถามนี้ฉันกำลังมองหาวิธีในการสร้างรายชื่อที่ด้านบน df.dtypesทำอย่างนั้น
Martin Thoma

ผู้เยี่ยมชมอาจสนใจคำถามที่แตกต่างกัน แต่มีความเกี่ยวข้องกับวิธีค้นหาประเภทวัตถุทั้งหมดในแต่ละคอลัมน์ : ฉันจะตรวจจับชนิดย่อยในคอลัมน์วัตถุแพนด้าได้อย่างไร .
jpp

คำตอบ:


314

หากคุณต้องการรายการคอลัมน์บางประเภทคุณสามารถใช้groupby:

>>> df = pd.DataFrame([[1, 2.3456, 'c', 'd', 78]], columns=list("ABCDE"))
>>> df
   A       B  C  D   E
0  1  2.3456  c  d  78

[1 rows x 5 columns]
>>> df.dtypes
A      int64
B    float64
C     object
D     object
E      int64
dtype: object
>>> g = df.columns.to_series().groupby(df.dtypes).groups
>>> g
{dtype('int64'): ['A', 'E'], dtype('float64'): ['B'], dtype('O'): ['C', 'D']}
>>> {k.name: v for k, v in g.items()}
{'object': ['C', 'D'], 'int64': ['A', 'E'], 'float64': ['B']}

5
สิ่งนี้มีประโยชน์เช่นเดียวกับการตรวจสอบคุณภาพข้อมูลโดยที่มั่นใจได้ว่าคอลัมน์เป็นประเภทที่คาดหวัง
NYCeyes

2
สิ่งนี้จะไม่ทำงานหากคอลัมน์ dataframe ทั้งหมดของคุณกลับมาobjectโดยไม่คำนึงถึงเนื้อหาจริง
user5359531

2
@ user5359531 ที่ไม่ได้หมายความว่ามันใช้งานไม่ได้นั่นหมายถึงคอลัมน์ DataFrame ของคุณไม่ได้ถูกจัดไว้ในประเภทที่คุณคิดว่าควรจะเป็นซึ่งอาจเกิดขึ้นได้จากหลายสาเหตุ
Marc

6
หากคุณเพียงแค่เลือกคอลัมน์ตามประเภทข้อมูลคำตอบนี้จะล้าสมัย ใช้select_dtypesแทน
Ted Petrou

คุณจะจัดทำดัชนีกลุ่มข้อมูลนี้ภายหลังได้อย่างไร
อัลเลนวัง

110

ตั้งแต่ pandas v0.14.1 คุณสามารถใช้select_dtypes()เพื่อเลือกคอลัมน์ตาม dtype

In [2]: df = pd.DataFrame({'NAME': list('abcdef'),
    'On_Time': [True, False] * 3,
    'On_Budget': [False, True] * 3})

In [3]: df.select_dtypes(include=['bool'])
Out[3]:
  On_Budget On_Time
0     False    True
1      True   False
2     False    True
3      True   False
4     False    True
5      True   False

In [4]: mylist = list(df.select_dtypes(include=['bool']).columns)

In [5]: mylist
Out[5]: ['On_Budget', 'On_Time']

35

การใช้dtypeจะให้ประเภทข้อมูลของคอลัมน์ที่คุณต้องการ:

dataframe['column1'].dtype

หากคุณต้องการทราบชนิดข้อมูลของคอลัมน์ทั้งหมดในครั้งเดียวคุณสามารถใช้พหูพจน์dtypeเป็นdtypes :

dataframe.dtypes

1
นี่ควรเป็นคำตอบที่ยอมรับได้มันพิมพ์ชนิดข้อมูลในรูปแบบที่ OP ต้องการ
Abhishek Divekar

1
คำถามเกี่ยวกับการแสดงเฉพาะประเภทข้อมูลเฉพาะตัวอย่างเช่นใช้df.select_dtypes(include=['Object','DateTime']).columnsตามที่อธิบายไว้ด้านล่าง
DfAC

29

คุณสามารถใช้บูลีนมาส์กบนแอตทริบิวต์ dtypes:

In [11]: df = pd.DataFrame([[1, 2.3456, 'c']])

In [12]: df.dtypes
Out[12]: 
0      int64
1    float64
2     object
dtype: object

In [13]: msk = df.dtypes == np.float64  # or object, etc.

In [14]: msk
Out[14]: 
0    False
1     True
2    False
dtype: bool

คุณสามารถดูเฉพาะคอลัมน์เหล่านั้นด้วย dtype ที่ต้องการ:

In [15]: df.loc[:, msk]
Out[15]: 
        1
0  2.3456

ตอนนี้คุณสามารถใช้รอบ (หรืออะไรก็ตาม) แล้วกำหนดกลับ:

In [16]: np.round(df.loc[:, msk], 2)
Out[16]: 
      1
0  2.35

In [17]: df.loc[:, msk] = np.round(df.loc[:, msk], 2)

In [18]: df
Out[18]: 
   0     1  2
0  1  2.35  c

ฉันชอบที่จะสามารถเขียนฟังก์ชั่นที่ใช้ในชื่อของ dataframe แล้วส่งคืนพจนานุกรมของรายการด้วยคีย์พจนานุกรมที่เป็นประเภทข้อมูลและค่าเป็นรายการของคอลัมน์จาก dataframe ซึ่งเป็นสิ่งนั้น ประเภทข้อมูล.
yoshiserry

def col_types (x, pd):
itthrill


7

ใช้df.info(verbose=True)ที่dfเป็น datafarme แพนด้าโดยค่าเริ่มต้นverbose=False


อาจมีปัญหาเกี่ยวกับหน่วยความจำหากตารางมีขนาดใหญ่
คู

4

วิธีที่ตรงที่สุดในการรับรายการคอลัมน์ของ dtype เช่น 'object':

df.select_dtypes(include='object').columns

ตัวอย่างเช่น:

>>df = pd.DataFrame([[1, 2.3456, 'c', 'd', 78]], columns=list("ABCDE"))
>>df.dtypes

A      int64
B    float64
C     object
D     object
E      int64
dtype: object

วิธีรับคอลัมน์ 'วัตถุ' ทั้งหมด

>>df.select_dtypes(include='object').columns

Index(['C', 'D'], dtype='object')

สำหรับรายการเท่านั้น:

>>list(df.select_dtypes(include='object').columns)

['C', 'D']   

3

หากคุณต้องการรายการของคอลัมน์วัตถุเท่านั้นที่คุณสามารถทำได้:

non_numerics = [x for x in df.columns \
                if not (df[x].dtype == np.float64 \
                        or df[x].dtype == np.int64)]

และถ้าคุณต้องการรับรายการตัวเลขอื่น:

numerics = [x for x in df.columns if x not in non_numerics]

0

ฉันมากับซับสามนี้

นี่คือสิ่งที่มันเป็น:

  1. ดึงชื่อคอลัมน์และประเภทข้อมูลที่เกี่ยวข้อง
  2. ฉันเลือกที่จะส่งออกไปยัง csv

inp = pd.read_csv('filename.csv') # read input. Add read_csv arguments as needed
columns = pd.DataFrame({'column_names': inp.columns, 'datatypes': inp.dtypes})
columns.to_csv(inp+'columns_list.csv', encoding='utf-8') # encoding is optional

สิ่งนี้ทำให้ชีวิตของฉันง่ายขึ้นมากในการพยายามสร้างสกีมาในทันที หวังว่านี่จะช่วยได้


0

สำหรับ yoshiserry;

def col_types(x,pd):
    dtypes=x.dtypes
    dtypes_col=dtypes.index
    dtypes_type=dtypes.value
    column_types=dict(zip(dtypes_col,dtypes_type))
    return column_types

0

ฉันใช้ infer_objects ()

Docstring: พยายามอนุมาน dtypes ที่ดีขึ้นสำหรับคอลัมน์วัตถุ

พยายามแปลงคอลัมน์แบบออบเจ็กต์แบบนุ่มนวลโดยไม่เปลี่ยนแปลงคอลัมน์ที่ไม่ใช่ออบเจ็กต์และไม่สามารถย้อนกลับได้ กฎการอนุมานจะเหมือนกันในระหว่างการสร้างซีรีย์ / DataFrame ปกติ

df.infer_objects().dtypes

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.