这篇文章跟大家分享一下Machine Learning的学习笔记: 09-神经网络：表述(Neural Networks: Representation)。

非线性假设

我们之前学的，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。

在特征值相对较少时，使用非线性的多项式项，能够帮助我们建立很好的分类模型。假设我们有非常多的特征（比如大于100个变量），我们希望用这100个特征来构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合，我们也会有接近5000个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。

同样，在识别图像的训练模型中，由于每一个像素都是一个特征值，即使50x50的像素的小图片都会有 2500个特征，如果我们要进一步将两两特征组合构成一个多项式模型，则会有约产生至少300万个特征($2500^2/2$)。很显然，普通的逻辑回归模型，不能有效地处理这么多的特征，这时候我们需要神经网络。

模型表示

神经网络模型建立在很多神经元之上，每一个神经元又是一个个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征作为输出，并且根据本身的模型提供一个输出。下图是一个以逻辑回归模型作为自身学习模型的神经元示例，在神经网络中，参数又可被成为权重（weight）。

我们设计出了类似于神经元的神经网络，效果如下：

其中$x_1,x_2,x_3$ 是输入单元（input units），我们将原始数据输入给它们。$a_1,a_2,a_3$ 是中间单元，它们负责将数据进行处理，然后呈递到下一层。最后是输出单元，它负责计算$h_\theta(x)$。

下面引入一些标记法来帮助描述模型：

$a_i^{(j)}$ : 代表第j层的第i个激活单元

$\theta^{(j)}$ : 代表从第j层映射到第j+1层时的权重的矩阵

例如$\theta^{(1)}$代表从第一层映射到第二层的权重的矩阵
矩阵维度为：以第j+1层的激活单元数量为行数，以第j层的激活单元数加一为列数

对于上图所示的模型，激活单元和输出分别表达为：

$$
a_1^{(2)} = g(\theta_{10}^{(1)}x_0+\theta_{11}^{(1)}x_1+\theta_{12}^{(1)}x_2+\theta_{13}^{(1)}x_3)
$$
$$
a_2^{(2)} = g(\theta_{20}^{(1)}x_0+\theta_{21}^{(1)}x_1+\theta_{22}^{(1)}x_2+\theta_{23}^{(1)}x_3)
$$
$$
a_3^{(2)} = g(\theta_{30}^{(1)}x_0+\theta_{31}^{(1)}x_1+\theta_{32}^{(1)}x_2+\theta_{33}^{(1)}x_3)
$$
$$
h_\theta(x)=a_1^{(3)}=g(\theta_{10}^{(2)}a_0^{(2)}+\theta_{11}^{(2)}a_1^{(2)}+\theta_{12}^{(2)}a_2^{(2)}+\theta_{13}^{(2)}a_3^{(2)})
$$

我们可以知道：每一个$a$都是由上一层所有的$x$和每一个$x$所对应的$\theta$决定的。我们把这样从左到右的算法称为前向传播算法(FORWARD PROPAGATION)。

上面的公式可以简化为：
$$
a^{(2)}=g(z^{(2)})
$$
其中，$z^{(2)}=\theta*X$。

我们可以继续使用同样的方法计算下一层的值：
$$
h_\theta(x)=a^{(3)}=g(z^{(3)})
$$
其中，$z^{(3)}=\theta^{(2)}*a^{(2)}$。