Pandas 去除重复数据

发表于 2018-04-21 | 分类于编程 |

1. 找出数据集中的重复数据，使用df.duplicated()

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
df = DataFrame({'A':['Britain','USA','USA','China','China'],
                'B':['BBC','NPR','NPR','CCTV','CCTV'],
               'C':['good','bad','bad','great','great']})
df
A	B	C
0	Britain	BBC	good
1	USA	NPR	bad
2	USA	NPR	bad
3	China	CCTV	great
4	China	CCTV	great

阅读全文 »

Pandas 处理缺失数据

发表于 2018-04-19 | 分类于编程 |

1. Series 中设置，查找缺失数据

import numpy as np
import pandas as pd 
from pandas import Series, DataFrame
missing = np.nan
series_obj = Series(['row 1', 'row 2', missing, 'row 4','row 5', 'row 6', missing, 'row 8'])
series_obj
0    row 1
1    row 2
2      NaN
3    row 4
4    row 5
5    row 6
6      NaN
7    row 8

阅读全文 »

Pandas 筛选数据

发表于 2018-04-18 | 分类于编程 |

1. 对Series中数据进行筛选操作

import numpy as np
from pandas import Series, DataFrame
series_obj = Series(np.arange(8),index = ['row 1', 'row 2','row 3','row 4','row 5', 'row 6', 'row 7', 'row 8'])
#选择单行数据
series_obj['row6']
5

阅读全文 »

Pandas画图自定义颜色

发表于 2018-04-08 | 分类于编程 |

1. ListedColormap方法

matplotlib.colors.ListedColormap(colors, name = ‘from_list’, N = None)
colors 为颜色列表，颜色指定可以使用十六进制颜色，https://www.colorhexa.com 这个网站可以用来产生各种颜色的代码。name 和 N 还没用过。

from matplotlib.colors import ListedColormap
# 开始自定义颜色，金色，银色和铜色
gsb = ['#ffd700','#c0c0c0','#cd7f32'] 
my_gsb = ListedColormap(gsb)

阅读全文 »

Pandas中unstack和stack用法

发表于 2018-04-07 | 分类于编程 |

1. DataFrame.unstack(level = -1 , fill_value = None)，unstack 本身意为不堆叠，这里我理解为将数据结构展开。

level值可以改为其他值，如0。fill_value可以指定空白值为多少，如fill_value = 0。此外还可以将需要unstack的元素传入作为参数，如DataFrame.unstack(‘Medal’)。

阅读全文 »

Pandas中Groupby的使用

发表于 2018-04-06 | 分类于编程 |

1. Groupby用于数据分组

import pandas as pd
import numpy as np
df = pd.DataFrame([('bird',    389.0),('bird',     24.0),('mammal',   80.5),('mammal', np.nan)],
                      index=['falcon', 'parrot', 'lion', 'monkey'],
                      columns=('class', 'max_speed'))
	class	max_speed
falcon	bird	389.0
parrot	bird	24.0
lion	mammal	80.5
monkey	mammal	NaN

阅读全文 »

Pandas 中的索引设置及查找

发表于 2018-04-05 | 分类于编程 |

1. 设置dataFrame的索引, set_index(keys, inplace = False/True)，keys要设置为索引的列，inplace一般默认为False,

表示不修改dataFrame，如果为True，则修改dataFrame.

阅读全文 »

Pandas 基本绘图

发表于 2018-04-03 | 分类于编程 |

1. 图的类型。主要有3种，线状图，直方图，饼图。

如果是数列数据

import matplotlib.pyplot as plt
from matplotlib import rcParams
rcParams['figure.figsize'] = 5, 4 #设置图片大小
x = range(1,6)
y = [2,4,6,8,10]
plt.plot(x,y) #line chart
plt.bar(x,y) #bar chart
plt.bar(y) #pie chart

阅读全文 »

Pandas 基本数据处理

发表于 2018-04-01 | 分类于编程 |

1. value_counts() 函数

作用:返回一个包含值和该值出现次数的Series对象,次序按照出现的频率由高到低排序。
参数:
normalize : 布尔值,默认为False,如果是True的话,就会包含该值出现次数的频率。
sort : 布尔值,默认为True.排序控制。
ascending : 布尔值,默认为False,以降序排序。
dropna : 布尔型,默认为True,表示不包括NaN（缺失值）。

阅读全文 »

Pandas 数据输入及验证

发表于 2018-03-31 | 分类于编程 |

1.引入pandas 模块及读取CSV文件

1 2	import pandas as pd df = pd.read_csv("olympics.csv")

如果CSV文件前几行是文件说明，真正有用的数据从后面几行开始，那么则读取文件时则需要跳过这几行区域。

1	df = pd.read_csv('olympics.csv', skiprows = 4) #跳过4行

阅读全文 »