沧海拾珠

O ever youthful, O ever weeping!


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签
沧海拾珠

Pandas 去除重复数据

发表于 2018-04-21 | 分类于 编程 |

1. 找出数据集中的重复数据,使用df.duplicated()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
df = DataFrame({'A':['Britain','USA','USA','China','China'],
'B':['BBC','NPR','NPR','CCTV','CCTV'],
'C':['good','bad','bad','great','great']})
df
A B C
0 Britain BBC good
1 USA NPR bad
2 USA NPR bad
3 China CCTV great
4 China CCTV great
阅读全文 »
沧海拾珠

Pandas 处理缺失数据

发表于 2018-04-19 | 分类于 编程 |

1. Series 中设置,查找缺失数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
missing = np.nan
series_obj = Series(['row 1', 'row 2', missing, 'row 4','row 5', 'row 6', missing, 'row 8'])
series_obj
0 row 1
1 row 2
2 NaN
3 row 4
4 row 5
5 row 6
6 NaN
7 row 8
阅读全文 »
沧海拾珠

Pandas 筛选数据

发表于 2018-04-18 | 分类于 编程 |

1. 对Series中数据进行筛选操作

1
2
3
4
5
6
7
import numpy as np
from pandas import Series, DataFrame
series_obj = Series(np.arange(8),index = ['row 1', 'row 2','row 3','row 4','row 5', 'row 6', 'row 7', 'row 8'])
#选择单行数据
series_obj['row6']
5
阅读全文 »
沧海拾珠

Pandas画图自定义颜色

发表于 2018-04-08 | 分类于 编程 |

1. ListedColormap方法

matplotlib.colors.ListedColormap(colors, name = ‘from_list’, N = None)
colors 为颜色列表,颜色指定可以使用十六进制颜色,https://www.colorhexa.com 这个网站可以用来产生各种颜色的代码。name 和 N 还没用过。

1
2
3
4
5
from matplotlib.colors import ListedColormap
# 开始自定义颜色,金色,银色和铜色
gsb = ['#ffd700','#c0c0c0','#cd7f32']
my_gsb = ListedColormap(gsb)
阅读全文 »
沧海拾珠

Pandas中unstack和stack用法

发表于 2018-04-07 | 分类于 编程 |

1. DataFrame.unstack(level = -1 , fill_value = None),unstack 本身意为不堆叠,这里我理解为将数据结构展开。

level值可以改为其他值,如0。fill_value可以指定空白值为多少,如fill_value = 0。此外还可以将需要unstack的元素传入作为参数,如DataFrame.unstack(‘Medal’)。

阅读全文 »
沧海拾珠

Pandas中Groupby的使用

发表于 2018-04-06 | 分类于 编程 |

1. Groupby用于数据分组

1
2
3
4
5
6
7
8
9
10
import pandas as pd
import numpy as np
df = pd.DataFrame([('bird', 389.0),('bird', 24.0),('mammal', 80.5),('mammal', np.nan)],
index=['falcon', 'parrot', 'lion', 'monkey'],
columns=('class', 'max_speed'))
class max_speed
falcon bird 389.0
parrot bird 24.0
lion mammal 80.5
monkey mammal NaN
阅读全文 »
沧海拾珠

Pandas 中的索引设置及查找

发表于 2018-04-05 | 分类于 编程 |

1. 设置dataFrame的索引, set_index(keys, inplace = False/True),keys要设置为索引的列,inplace一般默认为False,

表示不修改dataFrame,如果为True,则修改dataFrame.

阅读全文 »
沧海拾珠

Pandas 基本绘图

发表于 2018-04-03 | 分类于 编程 |

1. 图的类型。主要有3种,线状图,直方图,饼图。

如果是数列数据

1
2
3
4
5
6
7
8
import matplotlib.pyplot as plt
from matplotlib import rcParams
rcParams['figure.figsize'] = 5, 4 #设置图片大小
x = range(1,6)
y = [2,4,6,8,10]
plt.plot(x,y) #line chart
plt.bar(x,y) #bar chart
plt.bar(y) #pie chart

阅读全文 »
沧海拾珠

Pandas 基本数据处理

发表于 2018-04-01 | 分类于 编程 |

1. value_counts() 函数

作用:返回一个包含值和该值出现次数的Series对象,次序按照出现的频率由高到低排序。
参数:
normalize : 布尔值,默认为False,如果是True的话,就会包含该值出现次数的频率。
sort : 布尔值,默认为True.排序控制。
ascending : 布尔值,默认为False,以降序排序。
dropna : 布尔型,默认为True,表示不包括NaN(缺失值)。

阅读全文 »
沧海拾珠

Pandas 数据输入及验证

发表于 2018-03-31 | 分类于 编程 |

1.引入pandas 模块及读取CSV文件

1
2
import pandas as pd
df = pd.read_csv("olympics.csv")

如果CSV文件前几行是文件说明,真正有用的数据从后面几行开始,那么则读取文件时则需要跳过这几行区域。

1
df = pd.read_csv('olympics.csv', skiprows = 4) #跳过4行

阅读全文 »
123
芥龙

芥龙

25 日志
5 分类
8 标签
GitHub 知乎
© 2017 - 2018 芥龙
由 Hexo 强力驱动
主题 - NexT.Pisces