数据处理速记手册


持续更新中……

本文记录机器学习中常见的处理数据的方法,作为一个速查手册。包含了PandasNumpyMatplotlib等各种库的实用方法。

Pandas

1. 查看某列的唯一取值

data['column'].unique()

2. 统计数据集的空值列

data.isna().sum()

data.isnull().sum()

3. 统计指定列包含空值的行数

data['column'].isnull().sum()

4. 统计每列值不为空的行数

data.count()

5. 删除某列

data.pop('column')

6. 获取某列的值为空的所有数据

tmp = data[data['column'].isnull()]

7. 获取某列的值等于指定值的所有数据

tmp = data[data['column'] == 'value']

8. 获取空值行,即任意列包含空值的行

tmp = data[data.isnull().T.any()]

tmp = data[data.isnull().values == True]

9. 获取指定列的空值行

tmp = data[data['column'].isnull().values == True]

10. 为某列的空值填补数据

data['column']=data['column'].fillna('value')

11. 删除空值行

data = data.dropna()

文章作者: yglong
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 yglong !
评论
  目录