解读神经 络十大误解

核心要点

神经 络不是人类大脑的模型

神经 络并不是统计学的「弱形式」

神经 络流行许多不同的架构

规模很重要,但并不是越大越好

神经 络的训练算法有很多种

神经 络并不总是需要大量数据

神经 络不能基于任何数据训练

神经 络需要被再训练

神经 络不是黑箱

神经 络不难实现

1. 神经 络不是人类大脑的模型

人类大脑,是我们这个时代最大的奥秘之一,科学家还未对其工作方式达成共识。目前已有的关于大脑的两个理论分别叫做祖母细胞理论(grandmother cell theory)和分布式表征理论。前一个理论认为,单个神经元具有很高的信息容量,能够表征复杂的概念,如你的祖母或甚至 Jennifer Aniston(《老友记》女主角之一——译者)。后一个理论则认为,神经元要简单得多,而复杂的表征分布在许多神经元上。人工神经 络受到了第二种理论不够精确的启发。

我认为,目前这一代神经 络不具备感知(sentience,一个与智能不同概念)能力的一个原因在于,生物神经元远比人工神经元复杂。

大脑中的一个单个神经元就是一个极其复杂的机器,即使在今天,我们也还不能理解它。而神经 络中的一个「神经元」只是一个极其简单的数学函数,它只能获取生物神经元复杂性中极小的一部分。所以,如果要说神经 络模拟大脑,那也只在不够精确的启发水平上是对的,但事实上人工神经 络和生物大脑没什么相似之处。——吴恩达

大脑和神经 络之间的另一个巨大不同:大小和组织性。人类大脑包含的神经元和突触数量远多于神经 络,而且它们是自组织和自适应的。相对地,神经 络是根据一个架构进行组织的。神经 络的「自组织」非常和大脑的自组织并不是一个意思,它更类似于一张图标,而不是一张有序的 络。

曲线拟合,亦即函数逼近。神经 络常被用来逼近复杂的数学函数

2. 神经 络并不是统计学的「弱形式」

神经 络由互连节点层组成。单个节点被称为感知器(perceptron),类似于一个多元线性回归(multiple linear regression)。多元线性回归和感知器之间的不同之处在于:感知器将多元线性回归生成的信 馈送进可能线性也可能非线性的激活函数中。在多层感知器(MLP)中,感知器按层级排布,层与层之间互相连接。在 MLP 中有三种类型的层,即:输入层(input layer)、隐藏层(hidden layer)和输出层(output layer)。输入层接收输入模式而输出层可以包含一个分类列表或那些输入模式可以映射的输出信 。隐藏层调整那些输入的权重,直到将神经 络的误差降至最小。对此的一个解释是,隐藏层提取输入数据中的显著特征,这些特征有关于输出的预测能力。

映射输入:输出

感知器接收输入向量,z=(z1,z2,…,zn)z=(z1,z2,…,zn),包含 n 个属性。该输入向量被称为输入模式(input pattern)。这些输入再通过属于感知器的权重向量 v=(v1,v2,…,vn) 进行加权。在多元线性回归的背景中,这些可被认为是回归系数或 β 系数。感知器的净输入信 通常是输入模式和其权重的总和产物。使用该总和产物得到净值(net)的神经元被称为求和单元(summation unit)。

下面是神经 络中一些常见的激活函数:

如上图所示,感知器被分层进行组织。感知器的第一层被称为输入层,它接收训练集 PT 中的模式 p. 最后一层映射到这些模型的预期输出。举一个输出的例子:模式可以是关于安全性的不同技术指标的数量列表,而潜在的输出则可能是 {买进、持有、卖出} 这样的分类。

隐藏层则将前一层的输出作为下一层的输入;而下一层的输出又会作为另一层的输入。所以,这些隐藏层到底在做什么解释是,它们提取输入数据中的显著特征,这些特征可以预测输出。这个过程被称为特征提取(feature extraction),而且在某种程度上,其和主成分分析(PCA)等统计技术具有相似的功能。

深度神经 络具有大量隐藏层,有能力从数据中提取更加深层的特征。最近,深度神经 络在图像识别问题上取得了异常优异的表现。图像识别中的特征提取的图示如下:

鉴于该 络的目标是最小化 ε,我们可以使用一种优化算法调整该神经 络中的权重。神经 络最常见的学习算法是梯度下降算法,尽管也可能使用其它算法和潜在更好的优化算法。梯度下降算法的工作方式是,计算相对于神经 络中每一层的权重的误差偏导数,然后在与梯度相反的方向上移动(因为我们想最小化神经 络的误差)。通过最小化误差,我们可以最大化神经 络在样本中的表现。

数学表示神经 络(v)中的权重更新规则由下式给出:

小学习率慢收敛,大学习率发散

总结

不管我遇见过的一些统计学家相信什么,神经 络不只是「懒人分析师的弱形式的统计学」(之前确实有人跟我这么说,而且这还挺有趣);神经 络代表了一种可追溯到几百年前的可靠统计方法的抽象。对于神经 络背后的统计学,我推荐阅读超棒的这一章(http://page.mi.fu-berlin.de/rojas/neural/chapter/K9.pdf)。话虽如此,但我同意,一些从业者喜欢将神经 络看作是「黑箱」,这样就可以在没有花时间了解问题的本质和神经 络是否是合适的选择的前提下,将神经 络应用于任何问题。在交易使用神经 络就是其中一例;市场是动态变化的,但是,随着时间的过去,神经 络假设输入模式的分布仍然保持静止。在《All Models are Wrong, 7 Sources of Model Risk》中可看到更详细的讨论。

3.神经 络流行许多不同的架构

到目前为止,我们已经讨论了最简单的神经 络结构,也就是多层感知器(multi-layer perception)。还有很多不同的神经 络结构(太多了,以至于难以在此提及),而且,任何神经 络的性能,是其结构和权重的一个函数。如今在机器学习领域中取得的许多进步,并非源自重新思考感知器和优化算法工作原理,而是创造性地思考如何融合这些组分。在下面,我会讨论一些非常有趣且富创造性的神经 络结构,递归神经 络(RNN)——一些或所有的连接倒流,意味着反馈环路存在于 络中。人们相信,这些 络能够在时间序列数据上表现得更好。照此说来,在金融市场的语境中,他们可能会特别相关。更多信息,请参见这篇很棒的文章《The unreasonable performance of recurrent [deep] neural networks.》

这张图表展示了三个流行的递归神经 络结构,即 Elman 神经 络,Jordan 神经 络与 Hopfield 单层神经 络。

图表展示了不同的波兹曼机(带有不同节点连接),如何能显著影响神经 络结果

深度神经 络——有着多层隐藏层的神经 络。近些年,深度神经 络已经成为最流行的 络,因为在图像和声音识别方面,它们取得了前所未有的成功。深度神经 络架构数量正在迅速增长,一些最受欢迎的架构包括深度信任 络(Deep Belief Networks),卷积神经 络,深度受限波兹曼机,栈化自动编码器,等等。深度神经 络最大问题之一,尤其是不稳定的金融市场环境下,是过度拟合。

径向基函数 络(Radial basis networks)——尽管从感知与连接上来说并不是一个不同类型的结构,径向基函数 络利用径向基函数作为它们激活功能,这些是真实的重要功能,其输出从一个特定的角度来看取决于距离。最常用的径向基函数是高斯分布。由于径向基函数可以采用更加复杂的形式,他们最初用于执行函数插值。因此径向基函数神经 络可以有一个更高的信息能力。径向基函数还用于支持向量机(Support Vector Machine)的内核。

图片展示了神经 络在a到b进行阻止后的效果与过度拟合

规范化是指,神经 络利用复杂结构时,对其进行惩罚。可以根据神经 络权重大小来衡量这一方法的复杂性。可以这样实现规范化,添加一个条件(term),求平方误差目标函数,这个函数取决于权重大小。这相当于添加一个先验(prior),让神经 络相信它正在逼近的函数是平滑的。

我最喜欢的技术,也是到目前为止计算最昂贵的,就是全程搜索。在这一方法中,搜索算法被用来尝试不同的神经 络结构,最终做出一个近乎最佳的选择。人们经常使用基因算法来实现这个。

什么是输出span>

神经 络能被用于回归或分类。在回归模型中,一个简单输出值可能被会被隐射到一组真实数字,这意味着只需要一个输出神经元。在分类模型中,针对模式可能被归入的每个潜在类别,系统需要一个输出神经元。如果类别是未知的,我们就要使用无监督神经 络技术,比如自组织映射。

总而言之,最好的办法是遵守奥卡姆剃刀原理。奥卡姆剃刀原理主张,对于两个性能相当的模型,自由参数更少的模型,其泛化效果越加。另一方面,绝不能通过牺牲效果,来选择过度简化的模型。类似地,人们不能去假设,仅仅因为神经 络有更多的隐藏层与隐藏神经元,它就一定优于更简单的 络。不幸的是,在我看来,人们似乎太重视大型 络,很少强调做一个好的设计决策。就神经 络而言,规模更大并不意味着效果更好。

5. 神经 络的训练算法有很多种

神经 络的学习算法不断尝试优化神经 络的权重,直到遇到必须停止的情况。这种情况通常发生在 络的误差率降到了可接受水平时、验证集的误差率开始变差时、或指定的计算资源预算已被耗尽时。目前最常见的神经 络学习算法是反向转播(backpropagation)算法,这种算法使用了前文提到过的随机梯度下降。反向转播包括两个步骤:

前向传播——将训练数据集通过 络,记录下神经 络的输出并计算出 络的误差。

反向转播——将误差信 反向通过 络,使用梯度下降优化神经 络的权重。

这种算法存在一些问题:一次性调整所有权重将会导致权重空间中的神经 络出现明显的变化、随机梯度下降算法非常慢、对局部最小值敏感。对于一些特定的神经 络(包括所有的 product link 神经 络)局部最小值是一个问题。反向转播算法的前两个问题可以通过使用梯度下降算法的变体来解决,例如动量梯度下降(QuickProp)、Nesterov 加速动量(NAG)梯度下降、自适应梯度算法(AdaGrad)、弹性反向传播(RProp)和均方根反向传播(RMSProp)。下图可以看到,变体算法相比经典梯度下降算法可以有明显的提高。

粒子群优化算法(PSO)——使用 PSO 训练神经 络可以构建一个这些神经 络的群体/集群。每个神经 络都可表示为权重的向量,并根据它在全局最优粒子中的位置和它自身最优的情况来进行调整。

在训练数据集一次前向传播之后,适应度函数将作为重构的神经 络的误差平方和进行计算。这个方法主要考虑的是权重更新的波动性。因为如果权重调整的太快,神经 络的误差平方和的变化将停滞,不会产生学习行为。

下图示出了在单一群体的粒子群优化算法中粒子是如何被其它粒子吸引的。

除了基于群体的元启发式搜索算法,用来训练神经 络的算法还包括加入动量的反向传播、差分进化法、Levenberg Marquardt 算法、模拟退火法等。我个人推荐将局部最优算法和全局最优算法相结合,来克服两者的短处。

6. 神经 络并不总是需要大量数据

神经 络可以使用的三种学习策略,包括监督学习策略、无监督学习策略、增强学习策略。监督学习需要至少两个数据集,其中训练集由输入数据和预期输出数据组成,测试集只包含输入数据。这两个数据集的数据必须有标记,即数据模式是已知的。无监督学习策略一般用在没有标记的数据中以发现隐藏结构(例如隐藏的马尔科夫链)。其行为模式与聚类算法相似。增强学习基于对神经 络好的行为奖赏,对坏的行为惩罚这样一个简单前提。因为无监督学习和增强学习策略不需要带有标记的数据,所以它们可以应用在正确输出结果未知的非规范化问题上。

无监督学习

最流行的无监督神经 络架构之一是自组织映射(Self Organizing Map,也称为 Kohonen 映射)。自组织映射本质上是一个多维量度技术,其可在保存该数据集的拓扑结构的同时,构建一个基础数据集 Z 的概率密度分布函数的近似值。这是通过将数据集 Z 中的输入向量 zi 映射到特征映射 V 中的权重向量 vj (神经元)实现的。保存拓扑结构意味着如果两个输入向量在 Z 中是相邻的,那么这些输入向量用 V 所映射神经元也是相邻的。

7. 神经 络不能基于任何数据训练

神经 络可能不能工作的一个最大的问题是使用者没有对注入神经 络的数据做适当的预处理。数据标准化、冗余信息消除和异常点移除都应该被用以提高性能良好的神经 络的可能性。

数据标准化——神经 络由多层感知器组成,感知器由经过加权的连接相互连接。每个感知器包含一个拥有特定的「激活范围」的激活函数( 径向基函数除外)。进到神经 络的输入需要被调整到激活范围内以使神经 络可以区分不同输入模式的差别。

举例来说,给定一个神经 络交易系统,该系统接收证券组合中提示需要售出或买入证券的输入和输出的指示信息。其中一个输入是证券的价格,我们使用 S 型激活函数。然而,大多数证券的成本在每股 5 美元和 15 美元之间,在 S 型激活函数输出值接近1.0。这样的话,所有证券的 S 型激活函数的输出值都将为1.0,所有的感知器都会失效,神经 络也无法学习。

通过未处理的数据获得训练的神经 络会产生类似「the lights are on but nobody’s home(灯亮着但无人在家)」的模型。

异常点移除——一个异常点是指数据组中远大于或远小于其它数据的值。异常点会因为回归分析和曲线拟合等统计技术而出现问题,因为当该模型试图「容纳」异常值时,模型在所有其它数据上的表现都将下降。

9. 神经 络不是黑箱

神经 络本身并不是黑箱。这将问题抛给了那些想要使用神经 络工具的人,比如,基金经理不会知道一个神经 络如何做出交易决策,因此也不可能评估这个神经 络学习到的交易策略的风险。类似地,那些使用神经 络为信用风险建模的银行也没法合理说明为什么一位客户有着特殊的信用评级。这是一个监管要求。话虽如此,但最先进的规则提取算法已被开发出来以透明化一些神经 络架构。这些算法从作为数学公式、符 逻辑、模糊逻辑或决策树的神经 络中提取知识。

模糊逻辑—模糊逻辑就是概率与命题逻辑相遇之处。命题逻辑的问题在于那是一种绝对处理。比如,买入或者出售,真或伪,0或1。 因此,交易者没有办法确定这些结果的可信度。模糊逻辑克服了这一局限性,因为引入了从属函数(membership function),详细说明了一个变量多大程度上属于某个特定域。比如,一家公司(谷歌)可能属于一个域(买入)的可信度为0.7, 属于另一个域(出售)的可信度为 0.3。将神经 络与模糊逻辑结合起来,就是神经—模糊系统。这种研究调查讨论了各种模糊规则的提取技术。

决策树——决策树向我们展示了,给定信息后,如何做出决策。决策树推导是一个术语,指的是从神经 络中提取决策树这个过程。

例如,使用决策树来表示一个简单的交易策略。三角型表示决策节点,可以是买入、持有或者出售一家公司。每个长方块表示一个元组 。例如 , 25> or

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年4月7日
下一篇 2017年4月7日

相关推荐