2.3.神经网络基础

前边章节仅考虑了词之间的线性关系，从本章开始则使用神经网络算法来执行特征工程，使用多层神经网络进行机器学习被称为深度学习，这种新的NLP方法或对人类思维建模的方法通常被称为“连接主义”。

1. 神经网络的组成

电信号通过树突（dendrite）进入细胞核（nucleus）时，会主键积聚电荷。达到一定电位后，细胞就会被激活，然后通过轴突（axon）发出电信号。决定细胞何时激活时细胞又如何对输入信号进行加权。

从数据集中选取一个样本（Example），并将其展示给算法，然后让算法判断是或不是——所以如何确定样本的特征？一般而言，把单个特征表示成 $x_i$ ，其中 $i$ 是整数，所有特征集合 $X$ 为一个向量：

$X = [x_1, x_2, ..., x_i, ..., x_n]$

类似每个特征的权重表示为 $w_i$ ，其中 $i$ 对应于该权重关联的特征 $x$ 的下标，统一用 $W$ 向量标识：

$W = [w_1, w_2, ..., w_i, ..., w_n]$

有了这些特征后，就可以针对每个特征和权重进行乘积并求和：

$(x_1w_1) + (x_2w_2) + ... + (x_iw_i) + ...$

此处缺少了是否激活神经元的阈值，一旦加权超过某个阈值，感知机就输出1，否则输出0，此处可使用一个简单的阶跃函数（激活函数）来表示该阈值，下图为基本感知机模型：

偏置是神经元中常用的输入项，和其他元素一样，神经元会给偏置一个权重，此权重和其他权重使用同样的方式训练。偏置的两种表示形式：

设置偏置权重的原因是神经元要对全0的输入具有弹性，若没有它，神经元对初始或学习的任意权重都会输出 $0 \times 权重 = 0$ 。

将感知机和生物理论结合：

若将输出表示成 $f(x)$ ：

f(x) = \left\{ \begin{aligned} & 1, \sum\limits_{i=0}^n x_i w_i > 阈值\\ & 0, 其他 \end{aligned} \right.

输入向量 $X$ 和权重向量 $W$ 两两相乘后加和就是这两个向量的点积。这是线性代数在神经网络中最基础的应用，对神经网络发展影响巨大。原理：向模型输入数据得到输出。——所有神经网络的基本单元就是神经元，基本感知机是广义神经元的一个特例，所以之后感知机称为一个神经元。

其他知识点参考：

最后更新于3年前

这有帮助吗？