深度学习:智能时代的核心驱动力量

内容简介

前言 深度学习与智能的本质

如果你在连接了互联 的安卓手机或谷歌翻译平台上使用语音识别功能,你其实是在与经过深度学习训练的神经 络[1]进行交流。过去几年,深度学习为谷歌带来了丰厚的利润,足以支付 Google X 实验室中所有未来主义项目的成本,包括自动驾驶汽车、谷歌眼镜和谷歌大脑。[2]谷歌是最早拥抱深度学习的互联 公司之一,并在 2013 年聘请了深度学习之父杰弗里 · 辛顿(Geoffrey Hinton),其他公司也在竞相追赶它的脚步。

人工智能近期取得的进展得益于大脑逆向工程。分层神经 络模型的学习算法受到了神经元之间交流方式的启发,并依据经验进行了改进。在 络内部,世界的复杂性转变为五彩缤纷的内部活动模式,这些模式是智能的元素。我在 20 世纪 80 年代研究的 络模型很小,相比之下,现在的模型有数百万个人造神经元,深度达到了几十层。持久的努力、大数据和更强大的计算机运算能力使得深度学习在人工智能领域一些最困难的问题上取得了重大突破。

我们并不善于想象新技术对未来的影响。谁能在 1990 年互联 刚开始商业化的过程中预见到它对音乐产业的影响,以及对出租车业务、政治运动,还有我们日常生活几乎所有方面的影响样,我们也未能预见到电脑会如何改变我们的生活。IBM(国际商业机器公司)总裁托马斯 · 沃森(Thomas J. Watson)在 1943 年说的一句话后来被广泛引用:“我觉得全世界也许能卖出 5 台计算机吧。”[3]很难想象一个新发明都有哪些用途,其发明人对这些用途的预测也不见得比其他人更准确。在乌托邦和世界末日的两极之间,有很多关于深度学习和人工智能应用场景的预测空间,但即使是最具想象力的科幻小说作家也不大可能猜出它们最终会产生什么样的影响。

本书的初稿是我在太平洋西北地区[4]徒步旅行,并思索了近几十年来人工智能领域的显著变化之后写出来的。这本书讲了一个一小群研究人员挑战 AI 研究建制派的故事,这些建制派在当时拥有更充足的资金支持,并被看作“唯一的主导力量”,他们大大低估了这些问题的难度,并且所依赖的对智能的直觉,后来被证明是有误导性的。

地球上的生命充满了无数奥秘,但最具挑战性的也许是智能的本质。自然界充斥着各种形式的智能,从微小的细菌到复杂的人类智能,每种智能都适应了它在自然界中的位置。人工智能也将以多种形式出现,并在智能族谱中占据特殊的位置。随着基于深度神经 络的机器智能日渐成熟,它可以为生物智能提供一个新的概念框架。

这是一本关于深度学习的过去、现在和未来的指南。不过本书并不是对该领域发展历史的全面梳理,而是记录了这一领域重要概念的进步及其背后研究群体的个人观点。人类的记忆并不可靠,对故事的每次复述都会导致记忆的偏差,这个过程叫作“重整记忆”。这本书中的故事延续了 40 多年,尽管有些对我来说依然历历在目,就像昨天刚发生的一样,但我很清楚,那些故事在我的记忆中不断被复述时,有些细节已经悄悄地被改写了。

本书的第一部分提供了深度学习的动机和理解其起源所需的背景信息;第二部分解释了几种不同类型的神经 络架构中的学习算法;第三部分则探讨了深度学习对我们当下生活产生的影响,以及未来若干年可能产生的影响。然而,正如纽约扬基队的哲人尤吉 · 贝拉(Yogi Berra)曾经说过的那样:“做出预测很难,特别是对未来的预测。”本书前八章的内容交代了故事的技术背景;三个部分开头的要事年表记录了与这个故事有关的事件,时间跨度超过了 60 年。


[1] 严格地说,神经 络是一个生物实体,机器学习中使用的模型是人工神经 络——ANNies。但若无另行说明,本书中的“神经 络”默认代指人工神经 络。

[2] Conor Dougherty, “Astro Teller, Google’s ‘Captain of Moonshots,’ on Making Profits at Google X,” New York Times, February 6, 2015, https://bits.blogs.nytimes.com/2015/02/16/googles-captain-of-moonshots-on-making-profits-at-google-x. 深度学习将运行数据中心的电力成本降低了 15%,每年可以节省数亿美元。

[3] 尽管沃森在 1943 做出的估计从未得到过确认,但它反映了当时的人们普遍无法想象电脑的未来。

[4] 太平洋西北地区是指美国西北部地区和加拿大的西南部地区。——编者注

要事年表

1956 年

达特茅斯人工智能夏季研究计划(The Dartmouth Artificial Intelligence Summer Research Project)开启了人工智能领域的研究,并鼓舞了一代科学家探寻可以媲美人类智慧的信息技术的潜力。

1962 年

弗兰克 · 罗森布拉特(Frank Rosenblatt)出版了《神经动力学原理:感知器和大脑机制的理论》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms),该书介绍了一种应用于具有单层可变权重的神经 络模型的学习算法,该算法是今天的深度神经 络模型的学习算法的前身。

1962 年

大卫 · 休伯尔(David Hubel)和托斯坦 · 威泽尔(Torsten Wiesel)发表了《猫的视觉皮质中的感受野、双目互动和功能架构》(Receptive Fields,Binocular Interaction and Functional Architecture in the Cat’s Visual Cortex)一文,第一次 道了由微电极记录的单个神经元的响应特性。深度学习 络的架构类似于视觉皮质的层次结构。

1969 年

1979 年

杰弗里 · 辛顿和詹姆斯 · 安德森(James Anderson)在加州拉荷亚市(La Jolla)举办了“关联记忆的并行模型”(Parallel Models of Associative Memory)研讨会,把新一代的神经 络先驱们聚集到了一起,同时也推动辛顿和安德森在 1981 年发表了同名系列研究著作。

1986 年

第一届神经信息处理系统大会(Neural Information Processing Systems, 以下统称 NIPS[1])及研讨会在美国丹佛科技中心举办,该会议吸引了很多不同领域的研究人员。


[1] NIPS 现通称为 NeurIPS。——译者注

01 机器学习的崛起

不久之前,人们还常说,计算机视觉的辨别能力尚不如一岁大的孩子。如今看来,这句话要改写了。计算机不仅能和大多数成年人一样识别图片中的物体,在马路上驾驶汽车的安全性还高过 16 岁的青少年。更神奇的是,如今的计算机不再是被动按照指令识别和驾驶,而是像自然界的生命由数百万年前开始进化那样,自主地从经验中学习。是数据的井喷促成了这一技术进步。如果说数据是新时代的石油,那么学习算法就是从中提取信息的炼油厂;信息积累成知识;知识深化成理解;理解演变为智慧。欢迎来到深度学习的新世界。[1]

深度学习是机器学习的一个分支,它根植于数学、计算机科学和神经科学。深度 络从数据中学习,就像婴儿了解周围世界那样,从睁开眼睛开始,慢慢获得驾驭新环境所需的技能。深度学习的起源可以追溯到 20 世纪 50 年代人工智能的诞生。关于如何构建人工智能,当时存在两种不同的观点:一种观点主张基于逻辑和计算机程序,曾主宰人工智能的研究和应用数十年;另一种观点则主张直接从数据中学习,经历了更长时间的摸索才逐渐成熟。

20 世纪,计算机技术还不够成熟,而且按照现在的标准,数据存储成本十分高昂,用逻辑程序来解决问题更加高效。熟练的程序员需要为每个不同的问题编写不同的程序,问题越大,相应的程序也就越复杂。如今,计算机能力日趋强大,数据资源也变得庞大且丰富,使用学习算法解决问题比以前更快、更准确,也更高效。此外,同样的学习算法还能用来解决许多不同的难题,这远比为每个问题编写不同的程序更加节省人力。

汽车新生态:无人驾驶将全面走入人们生活

在 2005 年美国国防部高级研究计划局(以下简称 DARPA)举办的自动驾驶挑战赛中,一辆由斯坦福大学塞巴斯蒂安 · 特隆(Sebastian Thrun)实验室开发的自动驾驶汽车 Stanley 最终赢得了 200 万美元现金大奖(见图 1–1)。团队利用了机器学习技术教它如何自主地在加利福尼亚州的沙漠中穿行。132 英里的赛道中有若干狭窄的隧道和急转弯,还包括啤酒瓶道(Beer Bottle Pass),这是一段蜿蜒曲折的山路,两侧分别是碎石遍布的陡坡和断壁(见图 1–2)。特隆并没有遵循传统的 AI 方法,即通过编写计算机程序来应付各种偶发事件,而是在沙漠中驾驶 Stanley,让汽车根据视觉和距离传感器的感应输入,学习如何像人一样驾驶。

特隆后来参与创立了高科技项目重点实验室 Google X,并开始了进一步研究自动驾驶汽车技术的计划。谷歌的自动驾驶汽车自此开始,在旧金山湾区累积了 350 万英里的车程。优步(Uber)已经在匹兹堡投放了一批自动驾驶汽车。苹果也步入自动驾驶领域,以扩大其操作系统控制的产品范围,并希望能够再现它在手机市场上的辉煌。汽车制造商们亲眼看见一个 100 年来从未改变的行业在他们眼前发生了转型,也开始奋起直追。通用汽车公司以 10 亿美元的价格并购了开发无人驾驶技术的硅谷创业公司 Cruise Automation,并在 2017 年投入了额外的 6 亿美元用于研发。[2]2017 年,英特尔以 153 亿美元的价格收购了 Mobileye,它是一家专门为自动驾驶汽车研发传感器和计算机视觉的公司。在价值数万亿美元的交通运输领域,参与的各方都下了极高的赌注。

自动驾驶汽车不久将扰乱数百万卡车司机和出租车司机的生计。最终,如果一辆自动驾驶汽车能够在一分钟内出现,将你安全带到目的地且无须停车,在城市拥有汽车就显得不那么必要了。今天,汽车行驶时间平均仅占 4%,这意味着它其余 96% 的时间都需要停放在某个地方。由于自动驾驶汽车可以在城市外围维修和停放,城市中被大量停车场占用的空间得以被重新高效利用。城市规划者已经开始考虑让停车场变成公园了。[3]街边的停车道可以成为真正的自行车道。其他汽车相关行业也将受到影响,包括汽车保险业和修理厂。超速和停车罚单将不复存在。由醉驾和疲劳驾驶导致的交通事故死亡人数也会相应减少。通勤浪费的时间也将被节省下来做其他事情。根据 2014 年的美国人口普查数据,1.39 亿上班族人均单日通勤时间达到了 52 分钟,全年总计 296 亿小时。这惊人的 340 万年的时间本可以在人生中得到更好的利用。[4]自动驾驶汽车会使公路通行能力翻两番。[5]而且,一旦大规模投入使用,没有方向盘、可以自己开回家的自动驾驶汽车还会让大规模汽车盗窃行为销声匿迹。虽然目前自动驾驶汽车仍面临很多监管和法律层面的障碍,但这一技术一旦开始普及,我们就将迎来一个崭新的世界。可以预见的是,卡车大概会在 10 年内率先实现自动驾驶,出租车要花上 15 年,而 15 到 25 年后,客运无人车将全面走入人们的生活。

汽车在人类 会中的标志性地位将以我们无法想象的方式发生变化,一种新的汽车生态也将应运而生。正如 100 多年前汽车的出现创造了许多新的行业和就业机会,围绕着自动驾驶汽车的发展,也出现了一个快速增长的生态系统。从谷歌独立出来的自动驾驶公司 Waymo,8 年来已经投入了 10 亿美元,并在加州中部山谷搭建了一个秘密测试场所。该场所位于一个占地 91 英亩的仿造小镇,其中还设计了骑自行车的“演员”和假的汽车事故。[6]其目的是扩大训练数据集以包含特殊和不常见的情况(也叫边缘情况)。公路上罕见的驾驶事件经常会导致事故。自动驾驶汽车的不同之处就在于,当一辆汽车遇到罕见事件时,相应的学习体验会被传递给所有其他自动驾驶汽车,这是一种集体智能。其他自动驾驶汽车公司也在建造许多类似的测试设施。这些举措创造了以前并不存在的新工作机会,以及用于汽车导航的传感器和激光器的新供应链。[7]

自动驾驶汽车仅是信息技术推动经济发生重大转变的一个最明显的体现。 络上的信息流就像城市管道里的水流。信息在谷歌、亚马逊、微软和其他 IT 公司的大型数据中心聚集。这些数据中心需要耗费大量电力,因此通常建在水电站附近,并利用河水来冷却信息流所产生的大量热量。2013 年,美国的数据中心消耗了 1000 万兆瓦的电量,相当于 34 个大型电厂产生的电力。[8]但是目前对经济影响更大的是如何使用这些信息。从原始数据中提取出的信息被转化为关于人和事的知识:我们做什么,我们想要什么,我们是谁。计算机驱动的设备也在越来越多地利用这些知识与我们进行口头上的交流。与大脑之外、书本之中的被动知识不同,储存在云中的知识是一种外部智能,并且正在成为人们生活中积极、活跃的一部分。[9]

自然语言翻译:从语言到句子的飞跃

如今,谷歌在超过 100 种服务中使用了深度学习,包括街景视图(Street View)、收件箱智能回复(Inbox Smart Reply)和语音搜索。几年前,谷歌的工程师意识到他们需要将这些计算密集型应用扩展到云端。他们开始着手设计一种用于深度学习的专用芯片,并巧妙地设计了可以插入数据中心机架中的硬盘插槽的电路板。谷歌的张量处理单元(TPU)现在已配置在遍布全球的服务器上,让深度学习应用程序的性能得到了大幅改进。

深度学习快速改变格局的一个例子是它对语言翻译的影响。语言翻译是人工智能的一只圣杯,因为它依赖于理解句子的能力。谷歌最近推出了基于深度学习的最新版谷歌翻译(Google Translate),代表了自然语言翻译质量的重大飞跃。几乎一夜之间,语言翻译就从零散杂乱的拼凑短语,升级到了语意完整的句子(见图 1–3)。之前的计算机方法搜索的是可以被一并翻译的词汇组合,但深度学习会在整个句子中寻找词汇之间的依赖关系。

这一突破性成果将在之后的几年逐渐影响我们的 会,计算机键盘会被自然语言接口取代。随着数字助手,如亚马逊的 Alexa、苹果的 Siri 以及微软的 Cortana 先后进入千家万户,这种取代已经在发生了。就如随着个人电脑的普及,打字机退出了历史舞台,有一天电脑键盘也将成为博物馆的展品。

当语音识别和语言翻译结合到一起时,实时的跨文化交流将有可能实现。《星际迷航》中那种万能翻译机将触手可及。为什么计算机语音识别和语言翻译达到人类的水平要花这么久的时间道计算机的各种认知能力同时进入瓶颈期仅仅是巧合吗实所有这些突破都源于大数据的出现。

AI 医疗:医学诊断将更加准确

深入皮肤

随着机器学习的成熟并被应用于可获取大数据的许多其他问题,服务行业和其相关职业也将发生转变。基于数百万患者病情记录的医学诊断将变得更加准确。最近的一项研究将深度学习运用到了囊括超过 2000 种不同疾病的 13 万张皮肤病学图像中,这个医学数据库是以前的 10 倍大(图 1–5)。[17]该研究的 络被训练用于诊断“测试集”(testset,它从未见过的新图像集)中的各种疾病。它在新图像上的诊断表现与 21 位皮肤科专家的结论基本一致,甚至在某些情况下还要更准确。在不久的将来,任何一个拥有智能手机的人都可以拍下疑似皮肤病变的照片,并立即进行诊断——而现在要完成同样的过程,我们需要先去看医生,耐心等待病变被专家筛查出来,然后再支付一大笔账单。这一进步将大大扩大皮肤病护理的范围,提升护理质量。如果个体可以很快得到专家诊断,他们会在皮肤病的早期阶段,也就是更容易治疗的时候就开始就医。借助深度学习,所有的医生都将更准确地诊断罕见的皮肤病。[18]

图 1-6 延迟 vs 头寸持有时间。在线机器学习正在推动算法交易,它比传统的长期投资策略更快速,比股票市场中的高频交易更加慎重。许多不同类型的机器学习算法被组合运用以获得最佳回 。

早在 20 世纪 80 年代,我还在为摩根士丹利的股票交易神经 络模型提供咨询时,遇到了专门设计并行计算机的计算机科学家大卫 · 肖(David Shaw)。哥伦比亚大学学术休假期间,肖曾在自动化交易早期担任量化分析师,随后他在华尔街创立了自己的投资管理公司德劭集团(The D. E. Shaw Group),现在他已经是亿万富翁了。德劭集团非常成功,但仍然逊于另一家对冲基金文艺复兴科技公司(Renaissance Technologies)。这家基金是由杰出的数学家、纽约州立大学石溪分校数学系前主任詹姆斯 · 西蒙斯(James Simons)创立的。仅 2016 年,西蒙斯就挣了 16 亿美元,这还算不上他最好的一年。[22]文艺复兴科技被称为“世界上最好的物理和数学系,”[23]“它不会雇用带有哪怕一点点华尔街正统味道的人”。[24]

不再参与德劭的日常运营后,大卫 · 肖现在专注于德劭研究所(D. E. Shaw Research)的业务,该研究所搭建了一台名为“Anton”的专用并行计算机,比全球其他计算机执行蛋白质折叠的速度都快得多。[25]西蒙斯退休后不再掌管文艺复兴科技,而是建立了资助自闭症及其他物理和生物科学项目研究的基金会。通过加州大学伯克利分校的西蒙斯计算理论研究所(the Simons Institute for the Theory of Computing at UC Berkeley)、麻省理工学院的西蒙斯 会大脑中心(the Simons Center for the Social Brain at MIT)和纽约熨斗研究院(the Flatiron Institute),西蒙斯的慈善事业对推进数据分析、建模和仿真的计算方法产生了重大影响。[26]

更广泛的金融服务正在金融科技(fintech)的大背景下发生大规模转型。诸如区块链这样的信息技术—— 一种安全的互联 记账方式,取代了金融交易的中间商——正在接受小规模的测试,但它很快就会扰乱价值数万亿美元的金融市场。机器学习正在被用于改进贷款信用评估,准确地提供业务和财务信息,在 交媒体上获取预测市场趋势的信 ,并为金融交易提供生物识别安全服务。谁拥有最多的数据,谁就是赢家,而世界上充斥着财务数据。

深度法律:效率的提高与费用的降低

德州扑克:当机器智能学会了虚张声势

一对一无限注德州扑克是最受欢迎的扑克玩法之一,常见于赌场,无限注投注方式则通常出现在世界扑克系列赛(World Series of Poker)的主赛事中。扑克很有挑战性,因为与国际象棋玩家可以获得相同的信息不同,扑克玩家的信息不完整,而且在最高级别的比赛中,诈唬、欺骗的技巧和拿到的牌一样重要。

数学家约翰 · 冯 · 诺依曼(John von Neumann)创立了数学博弈理论,也是数字计算机之父,他就对扑克特别着迷。他说过:“现实生活包括虚张声势,一点欺骗手段,以及自问另一个人会怎么评判我做事的意图。这就是我理论中博弈的内涵。”[28]扑克是一种博弈,反映了经过进化精炼过的人类智能的一部分。一个名为“DeepStack”的深度学习 络和 33 名职业扑克选手进行了 44852 场比赛。令扑克专家震惊的是,它以相当大的优势,一个标准差,击败了最出色的扑克玩家,同时以四个标准差在整体上击败了全部 33 名玩家——多么巨大的差距(见图 1–7)。[29]如果这一成就能复制到其他基于不完全信息、需要人来做判断的重要领域,比如政治学和国际关系,其影响可能是极其深远的。[30]

图 1-8 韩国围棋冠军李世石对战 AlphaGo 的 5 场比赛里,某一场战局中的棋盘。AlphaGo 是一个通过与自己下围棋来学习的深度学习神经 络。

除了几个评估盘局并选择最佳着数的深度学习 络,AlphaGo 还有一个完全不同的学习系统,用于解决时间信用分配问题:在众多步棋中,哪一步对赢得胜利有所贡献,哪一步对失败承担责任脑的基底神经节接收来自整个大脑皮层的投射,并投射回去,利用时间差分算法和强化学习来解决这个问题。AlphaGo 使用由基底神经节进化出来的相同的学习算法,以评估最大化未来奖励的行动顺序(这一过程将在第 10 章中做出解释)。AlphaGo 通过反复和自己下棋来学习这一技能。

AlphaGo 赢得了 5 场比赛的前 3 场后,许多人都感到十分震惊,因为它展现出了让人意想不到的高水准。这项比赛在韩国有很高的关注度,所有的主流电视台都对比赛进行了实况 道。AlphaGo 有一些着数是革命性的。在第二场比赛的第三十八步,AlphaGo 下出了精彩的一着,让李世石感到十分惊讶,他花了将近 10 分钟的时间才决定下一步要怎么走。AlphaGo 输掉了第四场比赛,这是人类挽回颜面的一场胜利,最终它的战绩是 4 胜 1 负(图 1–9)。[32]3 月的夜晚,我在圣迭戈的凌晨兴致勃勃地观看了这场较量。这让我回想起 1966 年 6 月 2 日凌晨 1 点,我在克利夫兰市,坐在电视机旁关注着“勘测者 1 ”探测器降落在月球上,并传回了第一张月球照片。[33]我亲眼见证了这些历史时刻。AlphaGo 的表现远远超出了我和其他许多人的期待。

2017 年 5 月 26 日,AlphaGo 还击败了由 5 名顶尖棋手组成的队伍。这些棋手都分析过 AlphaGo 的招数,并已经在相应地改变自己的策略。这场比赛由中国政府主办,可以说是一个新版的“乒乓外交”。[36]中国正在机器学习方面投入大量资金,其大脑研究计划的一个主要目标是挖掘大脑潜能来创造新的算法。[37]

该围棋事件后续的发展可能会更令人惊叹。在开始跟自己下棋之前,AlphaGo 是通过观察学习 16 万次人类围棋比赛起步的。有人认为这是作弊——一个自主的 AI 程序应该能够在没有积累任何人类知识的条件下学习下围棋。2017 年 10 月,一款名为 AlphaGo Zero 的新版本 AI 程序面世了。它从游戏规则开始一步步学习下围棋,击败了曾战胜柯洁的版本 AlphaGo Master,战绩为 100∶0。[38]此外,AlphaGo Zero 的学习速度比 AlphaGo Master 快 100 倍,而计算能力差不多只有后者的 1/10。完全忽略人类的知识,AlphaGo Zero 变成了无敌超人。随着机器学习算法的不断进步,AlphaGo 还会变得多么优秀,并没有已知的上限。

AlphaGo Zero 虽然没有和人下棋,但仍然有许多围棋知识被人为添加到程序中强化棋艺的特征。如果没有任何围棋知识,AlphaGo Zero 也许仍有进一步改进的空间。就像零度可乐将可口可乐里所有的热量分离出来一样,围棋的所有知识都被从 Alpha Zero 中剥离出来。结果,Alpha Zero 能够更快、更果断地打败 AlphaGo Zero。[39]为了进一步说明“少就是多”,Alpha Zero 在没有改变任何一个学习参数的情况下,学会了如何以超人的水准下国际象棋,还创造了人类从未使用过的着数。在与 Stockfish 这个已经是超人级别的顶级国际象棋程序的对决中,Alpha Zero 还没有输过。在一场比赛中,Alpha Zero 大胆地牺牲了一个象——这种做法通常用来获得位置上的优势,随后又牺牲了王后,这一步看起来像是个大昏着儿,直到很多步以后,Alpha Zero 冷不防将了一军,无论是 Stockfish 还是人类棋手都没能预见到这样的结果。外星人已经着陆,地球从此要改头换面了。

AlphaGo 的开发者 DeepMind 于 2010 年由神经学家德米斯 · 哈萨比斯参与创立,他曾在伦敦大学学院的盖茨比计算神经科学部门(University College London’s Gatsby Computational Neuroscience Unit)担任博士后研究员。该部门由彼得 · 达扬(Peter Dayan)领导,达扬曾是我实验室的博士后研究员,2017 年和雷蒙德 · 多兰(Raymond Dolan)以及沃尔夫拉姆 · 舒尔茨(Wolfram Schultz)共同获得了享有盛誉的“大脑奖”(Brain Prize),以表彰他们在奖励学习方面的研究。谷歌在 2014 年以 6 亿美元的价格收购了 DeepMind。该公司雇用了 400 多名工程师和神经科学家,拥有学术界和创业公司混合的双重文化。神经科学与人工智能之间的协同作用日渐深入,而且还在加速。

弗林效应:深度学习让人类更加智能

AlphaGo 有智力吗了“意识”这个主题,关于智力的文章比心理学中任何其他主题都要多得多,这两个概念都很难界定。自 20 世纪 30 年代以来,心理学家就对流体智力和晶体智力进行了区分——流体智力能够将新条件中的推理和模式识别用于解决新问题,而不依赖于以前的知识;晶体智力则依赖于先前的知识,也是标准智商测试(即 IQ 测试)的对象。流体智力遵循一种抛物线式发展轨迹,在成年早期达到高峰,并随着年龄的增长逐渐下降;而晶体智力会随年龄的增长,缓慢渐进式地提高,直至暮年。AlphaGo 只在一个相当狭窄的领域同时展现出了晶体智力和流体智力,但在这个领域,它表现出了令人惊讶的创造力。专业知识的获取也是基于在狭窄领域的学习。我们都是语言领域的专家,每天都在使用语言。

AlphaGo 使用的强化学习算法可以被用来解决许多问题。这种形式的学习只取决于在一系列动作结束时给予获胜者的奖励,这似乎和提前做出更好的决策相矛盾。结合了许多强大的深度学习 络,就会生成许多领域相关的智能。而且事实上,已经出现了与领域相关的不同类型智能,例如 会、情感、机械和建筑等的案例。[40]智力测试测量的一般因素(general factor,简称 g 因素)与这些不同类型相关。我们有理由认真审视 IQ 测试。自 20 世纪 30 年代首次测试智力以来,全人类平均的 IQ 分数每 10 年会上升三个点,这一趋势被称为“弗林效应”(Flynn effect)。对于弗林效应有许多可能的解释,比如更充足的营养、更完善的医疗体系,以及其他环境因素。[41]这很有道理,因为环境会影响基因调控,从而影响大脑内在的连接,行为也会随之发生变化。[42]随着人类越来越多地生活在人造环境中,大脑正在以某种超越自然进化轨道的方式被塑造。在更长的时间内,人类是否能一直都在变得更聪明商增长会持续多久电脑玩国际象棋、西洋双陆棋和围棋的人数自计算机程序达到冠军级别后一直在稳步增加,而机器也强化了人类玩家的智能。[43]深度学习提升的将不仅仅是科学研究人员的智能,还包括所有行业从业人员的智能。

科学仪器正以惊人的速度产生数据。位于日内瓦的大型强子对撞机(LHC)中发生的基本粒子碰撞每年产生 25PB(1PB=1000TB)的数据。大型综合巡天望远镜(LSST)每年将产生 6PB 的数据。机器学习正被用于分析庞大的物理和天文数据集,其规模之浩大让人类根本无法通过传统方法进行搜索。[44]例如,DeepLensing 是一种神经 络,可以识别遥远星系的图像。这些图像由于光在传播中因围绕周边星系的“引力透镜”造成的光路偏折而被扭曲了。这一技术可以自动发现许多遥远的新星系。物理学和天文学中还有许多其他类似“大海捞针”的问题,而深度学习能够让传统的数据分析方法如虎添翼。

新教育体系:每个人都需要终身学习

银行在 20 世纪 60 年代后期推出了面向银行账户持有人的全天候现金提取服务,这对于那些在银行正常营业时间之外需要现金的人来说非常方便,自动提款机(ATM)从此获得了阅读手写支票的能力。尽管它们的存在减少了银行柜员的日常工作量,但有越来越多的柜员为客户提供按揭和投资建议等个性化服务,同时也出现了维修 ATM 的新工种。[45]就如一方面,蒸汽机代替了体力劳动者,但另一方面,这为能够建造和维护蒸汽机及驱动蒸汽机车的熟练工人提供了新的就业机会。亚马逊的在线营销也将许多员工从当地实体零售店中迁移出来,但同时也为分配和运输其商品,以及许多使用其平台的企业创造了 38 万个新的工作机会。[46]由于现在需要人类认知技能的工作被自动化人工智能系统所接管,那些能够创建和维护这些系统的人将会获得新的工作。

工作变动不是什么新鲜事。19 世纪,农场劳工被机器取代,机器也在城市工厂创造了新的工作机会,所有这些都需要一个教育系统来培训工人新的技能。不同之处在于,今天,由人工智能开辟的新职位除了需要传统的认知技能之外,还需要新的、不同的、不断变化的技能。[47]所以我们都需要终身学习。要做到这一点,我们需要一个以家庭,而不是以学校为基础的新教育体系。

幸运的是,就像寻找新工作的需求变得迫在眉睫一样,互联 上免费的大规模开放式在线课程慕课(MOOCs)也应运而生,来帮助人们获取新的知识和技能。虽然仍处于初级阶段,但慕课的在线教育生态系统正在迅速发展,并在为更广泛的人群提供前所未有的优质教学。与下一代数字辅助系统相结合,慕课则可能会带来变革。芭芭拉 · 奥克利(Barbara Oakley)和我开设了一门名为“学会如何学习”(Learning How to Learn)的慕课——该热门课程会教你如何成为更好的学习者(见图 1–11)——以及一门名为“思维转换”(Mindshift)的慕课,教你如何改造自己并改变你的生活方式(这两门课将在第 12 章中详细介绍)。

深度学习:智能时代的核心驱动力量

图 1-11 “学会如何学习”教你如何成为更好的学习者,它是互联 上最受欢迎的慕课,拥有超过 300 万学习者。

进行 上操作时,其实正在生成机器可读的关于你自己的大数据。根据你在互联 上行为的蛛丝马迹,你正在被自动生成的相关广告定位。你在 Facebook(脸谱 )和其他 交媒体 站上发布的信息可被用于创建数字助理,它几乎比世界上任何其他人都更了解你,并且不会遗漏任何内容,实际上就相当于你的虚拟分身。通过将互联 跟踪和深度学习都纳入服务,现在这些孩子的后代拥有的教育机会将比今天富裕家庭拥有的最优质的教育机会还要好。这些孙辈将拥有自己的数字导师,导师将在整个教育过程中陪伴他们。教育不仅会变得更加个性化,也会变得更加精准。世界各地已经开展了各种各样的教育实验,例如可汗学院,由盖茨基金会、陈–扎克伯格基金会和其他慈善基金会资助。这些实验机构正在测试软件,以便让所有的孩子都可以根据自己的节奏进步,并适应每个儿童的特定需求。[48]数字导师的普及将使教师从教学中的重复劳动,如评分中解脱出来,专注于人类最擅长的事情——对学习困难的学生提供精神支持,并给予有天赋的学生灵感启发。教育技术(Edtech)正在快速发展,与自动驾驶汽车相比,传统教育向精准教育过渡的速度可能相当快,因为它必须克服的障碍要小得多,需求却要大得多,而且美国的教育是一个万亿美元的市场。[49]一个主要的问题就是,谁能够访问数字助理和数字导师的内部文件。

正面影响:新兴技术不是生存威胁

AlphaGo 在 2016 年毫无争议地击败了李世石,这激化了过去若干年引发的人工智能可能给人类带来威胁的担忧。计算机科学家签署了不会将 AI 用于军事目的的承诺协议。斯蒂芬 · 霍金(Stephen Hawking)和比尔 · 盖茨(Bill Gates)公开发表声明,警告人工智能可能对人类造成的生存威胁。伊隆 · 马斯克(Elon Musk)和其他硅谷企业家成立了一家新公司 OpenAI,拥有 10 亿美元储备金,并聘请了杰弗里 · 辛顿之前的一名学生伊利娅 · 苏特斯科娃(Ilya Sutskever)担任第一任总监。虽然 OpenAI 既定目标是确保未来人工智能的发现将公开供所有人使用,但它还有另一个隐含的更重要的目标:防止私人公司作恶。AlphaGo 战胜了围棋世界冠军李世石,一个临界点也随之到来。几乎在一夜之间,人工智能从一项失败的技术,转变成了可感知的生存威胁。

一种新兴技术被看作生存威胁,这已经不是第一次了。核武器的发明、改进和储存曾经是一种毁灭全世界的威胁,但至少到目前为止,我们有能力阻止这种情况的发生。重组 DNA 技术刚问世的时候,人们担心经人工改造的致命生物会从实验室逃出来,导致全球范围内出现难以估量的痛苦和死亡。基因工程现在已经是一项成熟的技术,目前我们已经能和它的产物共存。与核武器和致命生物相比,机器学习的最新进展构成的威胁相对较小。我们也将适应人工智能。事实上,这已经在发生了。

DeepStack 的成功带来的其中一个暗示是,深度学习 络可以学习如何成为世界顶级的骗子。训练深层 络能干什么只受限于训练者的想象力和数据。如果一个 络可以接受安全驾驶汽车的训练,那么它也可以被训练驾驶 F1 赛车,很可能有人愿意为此掏腰包。今天,我们仍然需要技术娴熟和训练有素的从业人员使用深度学习来搭建产品和服务,但随着计算能力的成本持续下降、软件功能更加自动化,很快,高中生就可能具备开发 AI 应用程序的能力了。作为德国收入最高的在线电子商务公司,奥托(Otto)主要经营服装、家居和体育用品。它正在利用深度学习,根据历史订单信息预测客户未来可能购买的产品,并提前为他们下单。[50]客户几乎在订购前就收到了自己想订购的商品,准确率达到 90%。自动完成工作且无须人工干预,这种预订操作不仅可以每年为公司在剩余库存和退货环节节省数百万欧元,还提高了客户满意度和保有率。深度学习显著提高了奥托公司的生产力,却并没有取代它的工人。人工智能可以让你在工作中更高效。

虽然主要的高科技公司开拓了深度学习的应用,但机器学习工具已经普遍存在了,许多其他公司也开始从中受益。Alexa 是一个广受欢迎的数字助理,与亚马逊 Echo 智能音箱配合使用,能够基于深度学习对自然语言发出的请求做出回应。亚马逊 络服务(AWS)引入了名为“Lex”、“Poly”和“Comprehend”的工具箱,可以分别基于自动化文字、语音转换、语音识别和自然语言理解,方便地开发相同的自然语言界面。具有对话交互能力的应用程序现在可供无力雇用机器学习专家的小型企业使用。企业通过应用这一程序可以提高客户满意度。

当最好的人类棋手在计算机程序面前都黯然失色时,人类会不再下棋吗相反,人工智能会提高人类的竞技水平,也使得棋类竞技更加大众化。顶级的国际象棋选手曾经都来自莫斯科和纽约等大城市。这些地方大师云集,可以教授年轻棋手并提高他们的技能水平。国际象棋电脑程序使得在挪威小镇长大的马格努斯 · 卡尔森(Magnus Carlson)13 岁就成为国际象棋大师,如今他已是世界国际象棋冠军。人工智能不仅对游戏产生了正面的影响,更会推动人类付诸努力的各个方面,从艺术到科学。AI 可以让你变得更聪明。[51]

回到未来:当人类智能遇到人工智能

本书有两个相互交织的主题:人类智能是如何进化的,以及人工智能会如何演变。这两种智能之间的巨大差异在于,人类智能的进化经历了数百万年的时间,而人工智能在最近几十年才发展起来。尽管对于文化演变来说,这个速度仍然是快得出奇,但是过于谨小慎微可能并不是个正确的选择。

深度学习在近期取得的突破,并不是你从新闻 道中读到的那种一夜成功。从基于符 、逻辑和规则的人工智能向基于大数据和学习算法的深度学习 络的转变,其背后的故事通常并不为人所熟知。本书介绍了这个故事,并从我的角度探讨了深度学习的起源和成果。作为 20 世纪 80 年代开发神经 络学习算法的先行者和 NIPS 基金会的主席,我亲身经历了过去 30 年机器学习和深度学习的发展过程。我和同在神经 络领域的同事多年来都未能取得令人瞩目的成就,但坚持和耐心最终给我们带来了回 。


[1] “啊,美丽的新世界,有这么美的人在里头!”(“O brave new world that has such people in’t!”)来自莎士比亚的剧作《暴风雨》中米兰达的台词(5.1.182–183 [Oxford Standard Authors Shakespeare])。

[2] Bill Vlasic, “G.M. Wants to Drive the Future of Cars That Drive Themselves,” NewYork Times, June 4, 2017, https://www.nytimes.com/2017/06/04/business/generalmotors-self-driving-cars-mary-barra.html.

[3] “Full Tilt: When 100% of Cars Are Autonomous,” New York Times Magazine, November 8, 2017, https://www.nytimes.com/interactive/2017/11/08/mag

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2019年2月17日
下一篇 2019年2月18日

相关推荐