人工智能的历史回顾和发展现状

摘要 简略地回顾了人工智能的历史和发展现状。分析比较了人工智能两大领域:符 主义和连接主义,同时介绍了各个领 域的主要原理和方法。着重回顾了深度学习的历史、复兴的原因和主要的应用。

最近,谷歌的阿尔法狗击败了围棋九段李 世石,举世震惊。有为人工智能的发展欢呼雀跃 者,也有为人类前途命运忧心忡忡者;有对机器 蛮力不屑一顾者,也有对人类失去优越感而沮丧 彷徨者。目前,人工智能的浪潮汹涌澎湃,在视 觉图像识别、语音识别、文本处理等诸多方面人 工智能已经达到或超越人类水平,在视觉艺术、 程序设计方面也开始崭露头角,令人惊叹不已。 人们已经相信,在个人电脑时代、 络时代、手 机时代之后,整个 会已经进入人工智能时代。 这里,我们考察人工智能发展的简要历 史、目前的局限和未来的潜力,特别是将人类脑 神经认知和人工神经 络认知进行对比,从而对 人工智能有一个公正客观,而又与时俱进的认 识。 从历史上看,人类的智能主要包括归纳总结 和逻辑演绎,对应着人工智能中的联结主义(如 人工神经 络)和符 主义(如吴文俊方法)。人类 大量的视觉听觉信 的感知处理都是下意识的, 是基于大脑皮层神经 络的学习方法;大量的数 学推导、定理证明是有强烈主观意识的,是基于 公理系统的符 演算方法。

1 符 主义

古希腊人将欧几里得几何归纳整理成欧几 里得公理体系,整个宏伟的理论大厦奠基于几条 不言自明的公理,整个大厦完全由逻辑构造出 来,美轮美奂,无懈可击。这为整个人类科学发 展提供了一套标准的范式。后来,牛顿编撰他 的鸿篇巨著《自然哲学的数学原理》也遵循公理 体系的范式,由公理到定义、引理、定理再到推 论。人类的现代数学和物理知识最终都被系统化 整理成公理体系,比如爱因斯坦的广义相对论也 是遵循公理体系的范式。当然也存在例外。例 如,虽然量子理论已经为人类科技带来天翻地覆 的革命,但是量子理论的公理体系目前还没有建 立起来。符 主义的主要思想就是应用逻辑推理 法则,从公理出发推演整个理论体系。 人工智能中,符 主义的一个代表就是机 器定理证明,吴文俊先生创立的吴文俊方法是其 巅峰之一。目前基于符 计算的机器定理证明的 理论根基是希尔伯特定理:多元多项式环中的理 想都是有限生成的。我们首先将一个几何命题的 条件转换成代数多项式,同时把结论也转换成多项式,然后证明条件多项式生成的根理想包含结 论对应的多项式,即将定理证明转换为根理想成 员判定问题。一般而言,多项式理想的基底并不 唯一,Groebner基方法和吴方法可以生成满足特 定条件的理想基底,从而都可以自动判定理想成 员问题。因此理论上代数范畴的机器定理证明可 以被完成,但是实践中这种方法有重重困难。 首先,从哲学层面上讲,希尔伯特希望用 公理化方法彻底严密化数学基础。哥德尔证明了 对于任何一个包含算术系统的公理体系,都存在 一个命题,其真伪无法在此公理体系中判定。换 言之,这一命题的成立与否都与此公理体系相 容。一方面,这意味着我们无法建立包罗万象的 公理体系,无论如何,总存在真理游离在有限公 理体系之外;另一方面,这也意味着对于真理的 探索过程永无止境。 其次,从计算角度而言,Groebner基方法和 吴方法所要解决的问题的本质复杂度都是超指数 级别的,即便对于简单的几何命题,其机器证明 过程都可能引发存储空间的指数爆炸,这揭示了 机器证明的本质难度。吴方法的成功有赖于大多 数几何定理所涉及的代数计算问题是有结构的, 因而可以快速求解。 第三,能够用理想生成的框架证明的数学 命题,其本身应该是已经被代数化了。如所有的 欧几里得几何命题,初等的解析几何命题。微分 几何中许多问题的代数化,本身就非常具有挑战 性。例如黎曼流形的陈省身-高斯-博内定理: 流形的总曲率是拓扑不变量。如果没有嘉当发明 的外微分和活动标架法,这一定理的证明就无法 被代数化。拓扑学中的许多命题的代数化本身也 是非常困难的,比如众所周知的布劳威尔不动点 定理:我们用咖啡勺缓慢均匀搅拌咖啡,然后抽 离咖啡勺,待咖啡静止后,必有一个分子,其搅 拌前和搅拌后的位置重合。这一命题的严格代数 化是一个非常困难的问题。吴先生的高足高小山 研究员突破性的微分结式理论,系统地将这种机 器证明方法从代数范畴推广到微分范畴[1] 。 最后,机器定理证明过程中推导出的大量 符 公式,人类无法理解其内在的几何含义,无 法建立几何直觉。而几何直觉和审美,实际上是 指导数学家在几何天地中开疆拓土的最主要的原 则。机器无法抽象出几何直觉,也无法建立审美 观念,因此虽然机器定理证明经常对于已知的定 理给出令人匪夷所思的新颖证明方法,但是迄今 为止,机器并没有自行发现深刻的未知数学定 理。 比如,人类借助计算机完成了地图四色定 理的证明,但是对于这一证明的意义一直富有争 议。首先,这种暴力证明方法没有提出新的概 念、新的方法;其次,这个证明没有将这个问题 和其他数学分支发生深刻内在的联系。数学中, 命题猜测的证明本身并不重要,真正重要的是证 明所引发的概念思想、内在联系和理论体系。因 此,许多人认为地图四色定理的证明实际上“验 证”了一个事实,而非“证明”了一个定理。目 前,机器定理证明的主流逐渐演变成机器验证。 因此,和人类智慧相比,人工智能的符 主义方 法依然处于相对幼稚的阶段。 即便如此,人工智能在某些方面的表现已 经超越人类。例如,基于符 主义的人工智能专 家系统IBM的沃森,在电视知识竞赛Jeopardy中 表现出色,击败人类对手,赢得冠军。目前, IBM进一步发展沃森认知计算平台,结合深度卷 积神经 络后获得了更强的数据分析与挖掘能 力,在某些细分疾病领域已能达到顶级医生的医 疗诊断水平。

2 联结主义

人工智能中的联结主义的基本思想是模拟 人类大脑的神经元 络。David Hunter Hubel 和 Torsen Wiesel(图1)

共同获得了1981年的诺贝尔生 理学或医学奖。1959年,Hubel和Wiesel在麻醉 的猫的视觉中枢上插入了微电极,然后在猫的眼 前投影各种简单模式,同时观察猫的视觉神经元 的反应。他们发现:猫的视觉中枢中有些神经元 对于某种方向的直线敏感,另外一些神经元对于 另外一种方向的直线敏感;某些初等的神经元对 于简单模式敏感,而另外一些高级的神经元对于 复杂模式敏感,并且其敏感度和复杂模式的位置与定向无关。这证明了视觉中枢系统具有由简单 模式构成复杂模式的功能,也启发了计算机科学 家发明人工神经 络。 后来通过对猴子的视觉中枢的解剖,将猴 子的大脑皮层曲面平展在手术台表面上,人们发 现从视 膜到第一级视觉中枢的大脑皮层曲面的 映射(retinotopic mapping)是保角映射 (conformal mapping) [2] 。保角变换的最大特点是局部保持形 状,但是忽略面积大小(图2)。

这说明视觉处理 对于局部形状非常敏感。人们逐步发现,人类具有多个视觉中枢, 并且这些视觉中枢是阶梯级联,具有层次结构。 人类的视觉计算是一个非常复杂的过程。在大脑 皮层上有多个视觉功能区域(v1 至 v5等),低级 区域的输出成为高级区域的输入。低级区域识别 图像中像素级别的局部的特征,例如边缘折角结 构,高级区域将低级特征组合成全局特征,形成 复杂的模式,模式的抽象程度逐渐提高,直至语 义级别。 如图3所示,

毕加索的名画《格尔尼卡》 (Guernica)中充满了抽象的牛头马面、痛苦嚎哭的 人脸、扭曲破碎的肢体。我们却可以毫不费力地 辨认出这些夸张的几何形体。其实,尽管图中大 量信息丢失,但是提供了足够的整体模式。由此 可见,视觉高级中枢忽略色彩、纹理、光照等局 部细节,侧重整体模式匹配和上下文关系,并可 以主动补充大量缺失信息。 这启发计算机科学家将人工神经 络设计 成多级结构,低级的输出作为高级的输入。最 近,深度学习技术的发展,使得人们能够模拟视觉中枢的层级结构,考察每一级神经 络形成的 概念。图4

显示一个用于人脸识别的人工神经 络经过训练后习得的各层特征。底层 络总结出 各种边缘结构,中层 络归纳出眼睛、鼻子、嘴 巴等局部特征,高层 络将局部特征组合,得到 各种人脸特征。这样,人工神经 络佐证了视觉 中枢的层次特征结构。

3 深度学习的兴起

人工神经 络在20世纪80年代末和90年代 初达到巅峰,随后迅速衰落,其中一个重要原因 是因为神经 络的发展严重受挫。人们发现,如 果 络的层数加深,那么最终 络的输出结果对 于初始几层的参数影响微乎其微,整个 络的训 练过程无法保证收敛。同时,人们发现大脑具有 不同的功能区域,每个区域专门负责同一类的任 务,例如视觉图像识别、语音信 处理和文字处 理等等。而且,在不同的个体上,这些功能中枢 在大脑皮层上的位置大致相同。在这一阶段,计 算机科学家为不同的任务发展出不同的算法。例 如:为了语音识别,人们发展了隐马尔科夫链模 型;为了人脸识别,发展了Gabor滤波器、SIFT 特征提取算子、马尔科夫随机场的图模型。因 此,在这个阶段人们倾向于发展专用算法。 但是,脑神经科学的几个突破性进展使人 们彻底改变了看法。在2000年,Jitendra Sharma 在《自然》上撰文[3] ,汇 了他们的一个令人耳 目一新的实验。Sharma把幼年鼬鼠的视觉神经 和听觉神经剪断,交换后接合,眼睛接到了听觉 中枢,耳朵接到了视觉中枢。鼬鼠长大后,依 然发展出了视觉和听觉。这意味着大脑中视觉和 听觉的计算方法是通用的。在2009年,Vuillerme 和Cuisinier为盲人发明了一套装置[4] ,将摄像机 的输出表示成二维微电极矩阵,放在舌头表面。 盲人经过一段时间的学习训练,可以用舌头“看 到”障碍物。在2011年,人们发现许多盲人独自 发展出一套“声纳”技术,他们可以通过回声 来探测并规避大的障碍物。Thaler等人的研究表 明,他们的“声纳”技术用的并不是听觉中枢, 而是原来被废置的视觉中枢。 种种研究表明,大脑实际上是一台“万用 学习机器”(universal learning machine),同样 的学习机制可以用于完全不同的应用。人类的 DNA并不提供各种用途的算法,而只提供基本 的普适的学习机制。人的思维功能主要是依赖于 学习所得,而后天的文化和环境决定了一个人的 思想和能力。换句话而言,学习的机制人人相 同,但是学习的内容决定了人的思维(mind)。 人的大脑具有极强的可塑性,许多功能取 决于后天的训练。例如,不同民族语言具有不同 的元音和辅音,阿拉伯语最为复杂,日语相对简 单。出生不久的婴儿可以辨别听出人类能够发出 的所有元音和辅音,但是在5岁左右,日本幼儿 已经听不出很多阿拉伯语中的音素了。同样,欧 洲人可以非常容易地辨认本民族面孔,但是非常 容易混淆亚洲人面孔。人们发现,如果大脑某个 半球的一个区域受损并产生功能障碍,随着时间 流逝,另一半球的对称区域就会“接替”受损区 域,掌管相应功能。这些都表明大脑神经 络具 有极强的可塑性。 大脑学习算法的普适性和可塑性一直激励 着计算机科学家不懈地努力探索。历史性的突 破发生在2006年左右,计算机科学家GeoffreyHinton、Yann Lecun和Yoshua Bengio突破深度学 习的技术瓶颈,进而引领深度学习的浪潮。 与传统神经 络相比,深度学习的最大特 色在于神经 络的层数大为增加。深度 络难以 收敛的技术瓶颈最终被打破,主要的技术突破在 于以下几点:首先是计算能力的空前增强。目前 深度 络动辄上百层,联接参数数十亿,训练样 本经常数千万直至上亿,训练算法需要在大规模 计算机集群上运行数月。这些训练过程需要非常 庞大的计算资源。计算机计算能力的提升,特别 是GPU的迅猛发展,为深度学习提供了强有力 的硬件保障。其次是数据的积累。特别是互联 的大规模普及,智能手机的广泛使用,使得规 模庞大的图像数据集能够被采集,上传到云端, 集中存储处理。深度学习需要使用越来越大的数 据集,大数据的积累提供数据保障。再就是深度 学习 络初始化的选择。传统神经 络随机初始 化,学习过程漫长,并且容易陷入局部最优而无 法达到性能要求。目前的方法使用非监督数据来 训练模型以达到特征自动提取,有针对性地初始 化 络,加速了学习过程的收敛,提高了学习效 率。更为关键的是优化方法的改进。目前的技术 采用更加简单的优化方法,特别是随机梯度下降 方法的应用提高了收敛速率和系统稳定性。

4 神经 络简史

4.1 第一次浪潮

RBM 相当于一个两层 络,可以对神经 络 实现“没有监督的训练” (unsupervised training)。深 信度 络就是几层 RBM 叠加在一起,RBM可以从 输入数据中进行预先训练,自行发现重要特征, 对神经 络连接的权重进行有效的初始化。经过 RBM 预先训练初始化后的神经 络,再用反向传 播算法微调,效果得到大幅度提升。 2 0 11 年,加拿大的蒙特利尔大学学者 Xavier Glorot和Yoshua Bengio发表论文《深而稀 疏的修正神经 络》[9] 。论文的算法中使用一 种称为“修正线性单元”(rectified linear unit, RELU) 的激励函数。和使用别的激励函数的模 型相比,RELU识别错误率更低,而且其有效性 对于神经 络是否进行“预先训练”并不敏感。 RELU 的导数是常数,非零即一,不存在传统激 励函数在反向传播计算中的“梯度消失问题”。 由于统计上约一半的神经元在计算过程中输出 为零,使用 RELU 的模型计算效率更高,而且自然而然地形成了所谓“稀疏表征” (sparse representation),用少量的神经元可以高效、灵 活、稳健地表达抽象复杂的概念。 2012年7月,Hinton发表论文《通过阻止特 征检测器的共同作用来改进神经 络》[10] 。为了 解决过度拟合的问题,论文中采用了一种新的被 称为“丢弃” (dropout) 的算法。丢弃算法的具 体实施是在每次培训中给每个神经元一定的几率 (比如 50%),假装它不存在,计算中忽略不计。 使用丢弃算法的神经 络被强迫用不同的、独立 的神经元的子集来接受学习训练。这样 络更强 健,避免了过度拟合,不会因为外在输入的很小 噪音导致输出质量的很大差异(图6)。

5 全面超越

5.1 图像识别

5.2 语音识别

RNN (recurrent neural network)也称循环神经 络或多层反馈神经 络,则是另一类非常重要 的神经 络。本质上,RNN 和前馈 络的区别 是,它可以保留一个内存状态的记忆来处理一个 序列的输入,这对手写字的识别、语音识别和自 然语言处理尤为重要。 2012年10月,Geoffrey Hinton、邓力和其他 几位代表四个不同机构 (多伦多大学、微软、谷 歌、IBM) 的研究者,联合发表论文《深度神经 络在语音识别的声学模型中的应用:四个研 究小组的共同观点》[15] 。研究者们借用了Hinton 使用的“限制玻尔兹曼机” (RBM) 的算法对神 经 络进行了“预培训”。深度神经 络模型 (DNN)被用来估算识别文字的几率。在谷歌的一 个语音输入基准测试中,单词错误率 (word error rate) 最低达到了 12.3%。 2013年3月,多伦多大学的 Alex Graves 领衔发 表论文《深度循环神经 络用于语音识别》[16] 。 论文中使用 RNN/LSTM 的技术——一个包含 三个隐层、430万个自由参数的 络,在一个 叫做 TIMIT 的基准测试中“音位错误率”达到17.7%,优于同期的其他所有技术的表现水准。 2015年5月谷歌宣布依靠 RNN/LSTM 相关 的技术,谷歌语音 (Google Voice) 的单词错误率 降到了8% (正常人大约 4%)。 2015年12月,百度 AI 实验室的 Dario Amodei领衔发表论文《英语和汉语的端对端的 语音识别》[17] 。论文的模型使用的是 LSTM 的 一个简化的变种,叫做“封闭循环单元” (gated recurrent unit)。百度的英文语音识别系统接受了 将近12 000小时的语音训练,在 16个GPU上完成 训练需要 3~5 天。在一个叫 WSJ Eval’92 的基 准测试中,其单词错误率低至3.1%,已经超过 正常人的识别能力(5%)。在另外一个小型汉语基 准测试中,机器的识别错误率只有3.7%,而一 个五人小组的集体识别错误率则为4%。 依照这个趋势,机器在语音识别的各种基 准测试上的准确度很快将全面赶上并且超过普通 人了。这是在图像识别之后人工智能即将攻克的 另一个难关。 循环神经 络(RNN)的本质是可以处理一个长 度变化的序列的输出和输入 (多对多)。广义地看, 如果传统的前馈神经 络做的事,是对一个函数的 优化 (比如图像识别),那么循环神经 络做的事, 则是对一个程序的优化,应用空间宽阔得多。

5.3 艺术创作

很久以来,人们倾向于认为机器可以理解 人类的逻辑思维,却无法理解人类的丰富感情, 更无法理解人类的美学价值,当然机器也就无法 产生具有美学价值的作品。事实胜于雄辩,阿尔 法狗对局李世石下出石破天惊的一步,棋圣聂卫 平先生向阿尔法狗的下法脱帽致敬,这说明深度 学习算法已经能够自发创造美学价值。许多棋手 在棋盘方寸间纵横一生,所追寻的就是美轮美奂 的神机妙手。如此深邃优美,玄奥抽象,一夜间 变成了枯燥平淡的神经元参数,这令许多人心生 幻灭。 其实,在视觉艺术领域,人工神经 络已 经可以将一幅作品的内容和风格分开,同时向艺 术大师学习艺术风格,并把艺术风格转移到另外的作品中,用不同艺术家的风格来渲染同样的内 容(图7) [18] 。 这意味着人工神经 络可以精确量化原本 许多人文科学中模糊含混的概念,例如特定领域 中的“艺术风格”,博弈中的“棋风”,并且使 这些只可意会、无法言传的技巧风格变得朴实无 华,容易复制和推广。

5.4 其他方面

6 人工智能商业化浪潮

H i n t o n 教 授 和 他 的 两 个 研 究 生 A l e x Krizhevsky和 Ilya Sutskever于2012 年底成立了一 个名叫“深度神经 络研究”(DNN research)的公 司,3个月后就被谷歌以500万美元收购。 Hinton 从此一半时间留在多伦多大学,另外一半时间在 硅谷。两位研究生则成为谷歌的全职雇员。原来 在纽约大学教书的Yann Lecun, 2013 年底被脸书 (Facebook)聘请为人工智能研究院的总管。曾在斯 坦福大学和谷歌工作的吴恩达,2012年创立了 上教育公司 Coursera,2014年5月被百度聘任为首 席科学家负责百度大脑的计划。 2 0 1 5 年 , 谷 歌 公 布 开 源 机 器 学 习 平 台 TensorFlow;FaceBook打造其专属机器学习平台 FBLearnerFlow,大幅提高员工效率;2015年5月,

特斯拉创立开源人工智能系统OpenAI。其他工业巨 头也纷纷斥巨资推动人工智能的发展,例如IBM的 沃森系统、百度大脑计划、微软的同声翻译等等。 2016年的IBM正在率先推动全球人工智能的 第一次商业化浪潮与核心业务转型。目前,深度 学习的研究热点正在迅速转向基于深度卷积神经 络的物体检测与定位/分割能力,其突破将推 动人工智能的实际应用与产业发展。目前研究热 点是将深度卷积神经 络通过监督学习获得的表 达,即所谓概念向量(thought vector)与推理、注 意力、规划与记忆进行有机整合,涉及推理/规 划、注意力、短期/长期记忆、知识学习、知识 蒸馏和知识迁移,小样本概念学习以及基于监督 和再励学习的大数据病历或棋谱的自动阅读与自 主知识学习。 随着人工智能与大数据、云平台、机器 人、移动互联 及物联 等的深度融合,人工智 能技术与产业开始扮演着基础性、关键性和前沿 性的核心角色。智能机器正逐步获得更多的感知 与决策能力,变得更具自主性,环境适应能力更 强;其应用范围也从制造业不断扩展到家庭、娱 乐、教育、军事等专业服务领域。通过将大数据转化为商业直觉、智能化业务流程和差异化产 品/服务,人工智能开始逐步占据医疗、金融、 保险、律师、新闻、数字个人助理等现代服务业 的核心地位,并且不断渗入人们的日常生活。

7 展望

虽然人工智能取得了突破性进展,但是它 还是在婴幼儿时期。联结主义的方法虽然摧枯拉 朽、无坚不摧,但是依然没有坚实的理论基础。 通过仿生学和经验积累得到的突破,依然无法透 彻理解和预测。简单的神经 络学习机制加上机 器蛮力,能否真正从量变到质变,这需要时间检 验。如何通过小样本进行学习,特别是从周围 环境自主学习(增强型学习),增加学习的泛化能 力,这些都是人工智能研究的热点问题。 目前来看,人工智能在图像识别、语音识 别、文本处理、游戏博弈、艺术美学、软件设计 等诸多方面全面赶超人类。人工智能开始逐步占 据医疗、金融、保险、律师、新闻、数字个人助 理等现代服务业的核心地位,并且不断渗入人们 的日常生活。 我们相信人工智能的发展将会为人类 会带来 又一次技术革命,人工智能的浪潮正在汹涌澎湃!

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年9月8日
下一篇 2021年9月8日

相关推荐