machine learning 笔记(1)

机器学习 Machine Learning 笔记（1）

一、什么是机器学习

1.1 定义

两种定义方式：

亚瑟·塞缪尔，将机器学习定义为赋予计算机学习能力而无需明确学习的研究领域。
Tom，将机器学习定义为一个计算机程序从经验E中学习某些类型的任务T，性能衡量P，如果它在任务T中的表现(用P衡量)随着经验E而提高。

常用的学习算法类型：监督学习、无监督学习

1.2 监督学习 Supervised Learning

指我们给算法一个数据集，其中给出了 “正确答案”。

监督学习问题分为“回归”和“分类”问题。在回归问题中，我们试图预测一个连续输出的结果，这意味着我们试图将输入变量映射到某个连

续函数。在一个分类问题中，我们试图在一个离散输出中预测结果。换句话说，我们试图将输入变量映射到离散的类别中。

1.3 无监督学习 Unsupervised Learning

无监督学习允许我们在几乎不知道或完全不知道结果的情况下处理问题。我们可以从我们不一定知道变量影响的数据中推导出结构。

在无监督学习中，没有基于预测结果的反馈。

二、学习算法

以房价场景为例子，x ：房子面积，y：房子价格，i：代表第几个样本，m：总样本数

2.1 线性回归算法

假设算法模型：

$y = h\theta(x_i) = \theta_0 + \theta_1x_i, i:1,2,3....,m$

2.2 代价函数 Cost Function

代价函数就是为了让预测值跟真实值更好的吻合，平方差代价函数是解决回归函数的最常用手段。

$J(\theta_0, \theta_1) = min\theta_0\theta_1 = \frac{1}{2m} \sum^{m}_{i = 0}{[h\theta(x_i) - y_i]}^2$

取1/2是为了更加方便梯度下降，求导后可以抵消

2.3 梯度下降 Gradient Descent

用于最小化代价函数，逐步更改theta值，直到实现最小化代价函数，d是导数符号

$\theta_j := \theta_j - \alpha\frac{dJ(\theta_0, \theta_1)}{d\theta_j}\quad(for\quad j = 0 \quad and\quad j = 1)，\alpha:学习速率$

带入代价函数，即：

$\theta_j := \theta_j - \alpha\frac{d\frac{1}{2m} \sum^{m}_{i = 0}{[h\theta(x_i) - y_i]}^2}{d\theta_j}$

计算导数，即：

$当 j = 0, \frac{dJ(\theta_0, \theta_1)}{d\theta_j} = \frac{1}{m} \sum^{m}_{i = 0}{[h\theta(x_i) - y_i]}$ $当 j = 1, \frac{dJ(\theta_0, \theta_1)}{d\theta_j} = \frac{1}{m} \sum^{m}_{i = 0}{[h\theta(x_i) - y_i]} . x_i$

最终的梯度下降函数为

$\theta_0 := \theta_0 - \alpha\frac{1}{m} \sum^{m}_{i = 0}{[h\theta(x_i) - y_i]}$ $\theta_1 := \theta_1 - \alpha\frac{1}{m} \sum^{m}_{i = 0}{[h\theta(x_i) - y_i]} . x_i$

三、矩阵和向量

3.1 矩阵

矩阵是一个按照长方阵列排列的复数或实数集合，矩阵的表现形式为行数乘以列数，如：2 x 3

$A = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ \end{bmatrix}$

A_ij 代表第i行第j列个元素。

3.2 向量

特殊的矩阵，n x 1 的矩阵，如：

$y = \begin{bmatrix} 1 \\ 4 \\ 7 \\ \end{bmatrix}$

3.3 矩阵运算

3.3.1 矩阵加法

只允许相同维度的矩阵进行相加，各个元素对应相加，如：

$\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ \end{bmatrix} + \begin{bmatrix} 0 & 2 & 0 \\ 1 & 5 & 2 \\ \end{bmatrix} = \begin{bmatrix} 1 & 4 & 3 \\ 5 & 10 & 8 \\ \end{bmatrix}$

3.3.2 矩阵与数字乘法

矩阵各元素跟数字相乘即可，如：

$\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ \end{bmatrix} * 2 = \begin{bmatrix} 2 & 4 & 6 \\ 8 & 10 & 12 \\ \end{bmatrix}$

3.3.3 矩阵相乘

矩阵跟向量相乘，如：

$\begin{bmatrix} a & b \\ d & e\\ \end{bmatrix} * \begin{bmatrix} m \\ n \\ \end{bmatrix} = \begin{bmatrix} a*m + b*n \\ d*m + e*n\\ \end{bmatrix}$

注意，必须是 m n 矩阵跟 n 1 的向量相乘，得到 m * 1 的向量。

矩阵跟矩阵相乘，如：

$\begin{bmatrix} a & b \\ d & e\\ \end{bmatrix} * \begin{bmatrix} m & l & k \\ n & j & i \\ \end{bmatrix} = \begin{bmatrix} a*m + b*n & a * l + b *j & a *k + b * i\\ d*m + e*n & d * l + e * j & d * k + e * i\\ \end{bmatrix}$

注意，必须是 m n 矩阵跟 n k 的矩阵相乘，得到 m * k 的矩阵。

3.3.4 身份矩阵

m x m 矩阵，对角线元素为1，其他为0，如

$\begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 1\\ \end{bmatrix}$

身份矩阵满足，矩阵A 跟身份矩阵I 相乘满足交互率且结果还是A，即

$A * I = I * A = A$

3.3.5 矩阵反转

针对一个 m * m 的矩阵，即方形矩阵，有如下反转

$A * A^{-1} = A^{-1} * A = I$

3.3.6 矩阵转置

如：

$A = \begin{bmatrix} a & b & c\\ d & e & f\\ \end{bmatrix}$

则矩阵A转置为

$A^T = \begin{bmatrix} a & d \\ b & e \\ c & f \\ \end{bmatrix}$

且

$A_{ij} = A^T_{ji}$