机器学习之聚类分析（kMeans）

发表于 2018-07-11 | 分类于编程 |

1. KMeans 算法

k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。

阅读全文 »

机器学习之主成分分析（PCA）

发表于 2018-07-08 | 分类于编程 |

1. 主成分分析Principla Component Analysis(PCA)

主成分分析是一种降维方法。主成分分析Principal component analysis(PCA)也称主分量分析，旨在利用降维的思想，把多维指标转化为少数几个综合维度，然后利用这些综合维度进行数据挖掘和学习，以代替原来利用所有维度进行挖掘学习的方法。

主成分分析的基本方法是按照一定的数学变换方法，把给定的一组相关变量（维度）通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分，依次类推。

阅读全文 »

机器学习之回归预测棒球击中率

发表于 2018-06-26 | 分类于编程 |

1. sklearn回归模型简介

通过拟合线性模型的回归系数W =（w_1，…，w_n）
来减少数据中观察到的结果和实际结果之间的残差平方和，并通过线性逼近进行预测。
如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

阅读全文 »

机器学习之决策树预测天气

发表于 2018-06-24 | 分类于编程 |

1. 决策树简介

决策树是一个预测模型；它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。
从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

阅读全文 »

Pandas中数据集（dataframe）的合并

发表于 2018-06-01 | 分类于编程 |

1. pd.merge(df1, df2, on, how)/df1.merge(df2, on, how)。

该方法用于合并两个有着相同column(s)的数据集，常用的参数：
on = ‘column name’，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名；
how = ‘inner/outer/left/right’，是合并(连接)的方式，有inner(内连接)，left(左外连接)， right(右外连接)， outer(全外连接)，默认为inner。

阅读全文 »

Pandas中apply, applymap 和map的用法及区别

发表于 2018-05-30 | 分类于编程 |

1. apply()函数的用法。

DataFrame.apply(func, axis = 0/1)，将指定函数应用于dataframe中的行或者列上。官网上提示这个函数在将来会取消。

阅读全文 »

使用numpy进行图片处理

发表于 2018-05-27 | 分类于编程 |

1. 先导入以下库 numpy, skimage以及matplotlib。

1
2
3

import numpy as np
from skimage import io #io子模块，用于读取，保存和显示图片。
import matplotlib.pyplot as plt

阅读全文 »

Matplotlib 设置坐标轴常用标签

发表于 2018-04-28 | 分类于编程 |

1. pyplot.plot()创建一幅图画之后通常需要对该图的坐标名称，字体大小等进行一些简单的设置。

import matplotlib.pyplot as plt
from matplotlib import rcParams
#设置线的粗细及颜色
plt.plot([1,2,3,4], linewidth = 5, c = 'red') 
#设置图画大小
rcParams['figure.figsize'] = 5,3
#设置图像标题
plt.title('My picture')

阅读全文 »

Matplotlib 中add_axes, add_subplot，subplot 和subplots用法解析

发表于 2018-04-26 | 分类于编程 |

1. add_axes 表示在画板上添加一个轴域（个人理解就是在画板上开始画图）。add_axes([x0, y0, width, height])是轴域在画板上的原点坐标值及宽度，高度。

阅读全文 »

Pandas 连接数据集

发表于 2018-04-21 | 分类于编程 |

1. 连接两个dataframe数据集

1
2
3

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

阅读全文 »