Pandas相关
读写csv文件
1 | import pandas as pd |
读写txt文件
1 | import pandas as pd |
读写excel文件
1 | import pandas as pd |
数据结构
Series
1 | import pandas as pd |
dataframe
1 | # 创建dataframe |
loc iloc用法
loc是根据列名定位,iloc是根据index定位;
可以访问多行数据,进行切片与使用列表进行切片遵循相同的规则;
1 | import pandas as pd |
1 | # 可以用值及值的列表确定行,确定列(可省);若使用范围确定行或列 则结果为dataframe类型,否则是series类型 |
shape 表示DataFrame的形状(行、列)
1 | purchases.shape # (6,3) |
drop_duplicates 删除重复数据
1 | print(purchases.shape) |
1 | # DataFrame的 rename()重命名列名 |
方法
1 | # isnull()方法返回一个DataFrame,其中每个单元格都是True或False,表示该单元格是不是null状态。 |
fillna()补充空值
1 | apple = purchases['apples'] |
isin() 传入一个列表,筛选所选字段符合条件的记录
1 | purchases.loc[purchases.apples.isin([2,3])] |
统计
1 | purchases['apples'].describe() |
排序
1 | purchases.sort_values(by='',ascending=True,axis=0,na_position='last') |
针对series排序
1 | series = purchases['apples'] |
可视化
1 | # DataFrame.plot(kind='line', x=None, y=None, ax=None, subplots=False, layout=None, title=None, grid=True, legend=True, ...) |
1 | import pandas as pd |