沧海拾珠

Pandas 数据输入及验证

1.引入pandas 模块及读取CSV文件

1
2
import pandas as pd
df = pd.read_csv("olympics.csv")

如果CSV文件前几行是文件说明,真正有用的数据从后面几行开始,那么则读取文件时则需要跳过这几行区域。

1
df = pd.read_csv('olympics.csv', skiprows = 4) #跳过4行

想要查看文件的类型可以使用type 函数

1
2
3
4
type(df)
pandas.core.frame.DataFrame
type(df['City'])
pandas.core.series.Series

2. 查看数据集前面或者后面5行

1
2
df.head()
df.tail()

3. 查看数据集的维度及具体信息

1
2
3
df.shape
(29216, 10) # 29216 行,10 列
df.info() #返回行列信息以及有无missing data

4. 获取单独的列信息

1
2
df['City']
df[['City','Athlete']]