Pandas相关

读写csv文件

import pandas as pd
# 读取csv文件   默认所有列为使用列  
pd.read_csv('D:\\Download\\PythonTest\\4.python学习内容\\1.pandas\\car.csv')
# 也可以指定某一列作为索引列  其他列则作为使用列
pd.read_csv('D:\\Download\\PythonTest\\4.python学习内容\\1.pandas\\car.csv',index_col='Brand')
# 也可以指定使用列，其他的列不展示，默认索引列
pd.read_csv('D:\\Download\\PythonTest\\4.python学习内容\\1.pandas\\car.csv',usecols=['Country','Reliability','Mileage','Type','Weight'])

# 写入csv
csv1 = pd.read_csv('D:\\Download\\PythonTest\\4.python学习内容\\1.pandas\\car.csv')
csv1.to_csv('D:\\Download\\PythonTest\\4.python学习内容\\1.pandas\\car_2.csv')

读写txt文件

import pandas as pd 
# 读取TXT文本 为表格  默认列分割为空格****
pd.read_table('D:\\Download\\joyful-pandas-master\\data\\my_table_special_sep.txt')  # 但列分割为 ||||
pd.read_table('D:\\Download\\joyful-pandas-master\\data\\my_table_special_sep.txt',sep='\|\|\|\|',engine='python')
# sep可以指定列分隔符  需要指定引擎为python
# sep为正则函数 需要对特殊字符进行转义


# 不能将txt文件写入表格，但可以写入csv
TXT= pd.read_table('D:\\Download\\joyful-pandas-master\\data\\my_table_special_sep.txt',sep='\|\|\|\|',engine='python')
TXT.to_csv('D:\\Download\\joyful-pandas-master\\data\\my_table_special_sep.txt',sep = '\t',index=False)

读写excel文件

import pandas as pd 
# 读取Excel 可以指定前几行
pd.read_excel('D:\\Download\\PythonTest\\单元格相关操作.xlsx',nrows=3)
# pd.read_excel('D:\\Download\\PythonTest\\4.python学习内容\\1.pandas\\car_2.csv')

数据结构

Series

import pandas as pd
# 创建Series
s1 = pd.Series([1,2,3,4,5,6,7,8,9,10])
# index 指定索引
s2 = pd.Series([1,2,3,4,5,6,7,8,9,10],index=['a','b','c','d','e','f','g','h','i','j'])

# 切片访问
    s1[0]
    s1[1:4]
    s1[1:]
    s1[:-1]
    s1[-1]

# 修改
    s1[0] = 100
    s1[1:4] = 200
    s1[1:] = 300
    s1[:-1] = 400
    s1[-1] = 500

# 删除
    del s1[0]
    s1.drop([0,1,2,3,4,5,6,7,8,9])

# 统计
    s1.count()
    s1.sum()
    s1.mean()  # 平均值
    s1.median() # 中间值
    s1.max()
    s1.min()
# 统计      
# 排序
    s1.sort_values()
    s1.sort_values(ascending=False)
# 索引
    s1.index
# 值
    s1.values

dataframe

# 创建dataframe
    import pandas as pd
    df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]])
    # 指定列名
    df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=['a','b','c'])
    # 指定索引
    df = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],index=['a','b','c'],columns=['a','b','c'])

# 切片访问
    df[0:2]
    df['a':'c']
    df[0:2][['a','c']]

# 修改
    df[0:2][['a','c']] = 100

# 删除
    del df[0:2][['a','c']]
    df.drop([0,1],axis=0)

# 排序
    df.sort_values()
    df.sort_values(ascending=False)

loc iloc用法

loc是根据列名定位，iloc是根据index定位;

可以访问多行数据，进行切片与使用列表进行切片遵循相同的规则；

import pandas as pd
data = {
    'apples': [3, 2, 0, None , 3 ,3], 
    'oranges': [0, 3, 7, 2, 3 ,3],
    'sex': ['m','f','m','f' , 'f' , 'f']
}

purchases = pd.DataFrame(data,index = ['小明','小图','小熊','小马','小马','小马'])
purchases

# 可以用值及值的列表确定行,确定列(可省)；若使用范围确定行或列 则结果为dataframe类型，否则是series类型
purchases.loc['小明']        # series
purchases.loc['小明',:]        # series  
purchases.loc['小明':'小明',:] # dataframe
purchases.loc[['小明'],:]      # dataframe

shape 表示DataFrame的形状(行、列)

1	purchases.shape # (6,3)

drop_duplicates 删除重复数据

print(purchases.shape)
print(purchases)
purchases.drop_duplicates(inplace=True)
print(purchases.shape)
print(purchases)
# 默认会保留重复数据的第一条， keep=False 表示重复数据全部删除
# inplace=True 表示在原数据上操作

# DataFrame的 rename()重命名列名
purchases.rename(columns={'apples' : '苹果','oranges':'橘子'},inplace=True )
# 也可以columns指定
purchases.columns=['苹果','橘子']

方法

# isnull()方法返回一个DataFrame，其中每个单元格都是True或False，表示该单元格是不是null状态。
purchases.isnull()
purchases.isnull().sum()    # sum()用来计算空值个数
purchases.dropna(axis=1)    # 删除有空值的该列

# 获取该列中唯一值
purchases['apples'].unique()

# 非空值的个数
purchases['apples'].nunique()

# 可以获得该列唯一值及对应的频次
purchases['apples'].value_counts()

fillna()补充空值

apple = purchases['apples']
avg = apple.mean()
print(avg)
# 用该列的均值 代替空值
purchases.fillna(avg, inplace=True)
purchases

isin() 传入一个列表，筛选所选字段符合条件的记录

1	purchases.loc[purchases.apples.isin([2,3])]

统计

1
2
3

purchases['apples'].describe()
purchases['apples'].value_counts()  # 统计各个值出现的次数
purchases['apples'].count()

排序

1 2	purchases.sort_values(by='',ascending=True,axis=0,na_position='last') purchases.sort_values(by='apples',ascending=False,na_position='last')

针对series排序

1
2
3

series = purchases['apples']
series
series.sort_values(ascending=False)

可视化

# DataFrame.plot(kind='line', x=None, y=None, ax=None, subplots=False, layout=None, title=None, grid=True, legend=True, ...)
import matplotlib.pyplot as plt

plt = purchases.plot(kind = 'line')
plt

import pandas as pd
import matplotlib.pyplot as plt

pokemon_csv = pd.read_csv('D:\\Download\\joyful-pandas-master\\data\\pokemon.csv')
pokemon = pd.DataFrame(pokemon_csv)
mean = pokemon.groupby('Type 1')[['Attack','Defense']].mean()
plt = mean.plot(kind = 'line')
plt.set_yticks(range(0,pokemon['Defense'].max()+1,20))

Tuanzy's Home

此去一帆风顺天官赐福百无禁忌

Python-pandas

Pandas相关

读写csv文件

读写txt文件

读写excel文件

数据结构

Series

dataframe

loc iloc用法

loc是根据列名定位，iloc是根据index定位;

可以访问多行数据，进行切片与使用列表进行切片遵循相同的规则；

shape 表示DataFrame的形状(行、列)

drop_duplicates 删除重复数据

方法

fillna()补充空值

isin() 传入一个列表，筛选所选字段符合条件的记录

统计

排序

针对series排序

可视化