各位大佬,别再拿人工智能当春药了!

我是个二手的人工智能表演艺术家:从博士毕业开始,就在 MSRA 做了几年语音识别项目的研究。 虽然我们的两任院长——李开复老师和洪小文老师都是语音研究出身,却丝毫不能改变当年这一项目在全院最鸡肋的地位。

为什么鸡肋呢为在当年,各种各样的人工智能应用能真刀真枪上阵的并不多。就拿语音识别来说,从几十年前 IBM 和 AT&T 提出人类用语音与机器交互这一伟大的设想以来,就有无数的业内业外人士为之激动、为之奋斗,也为之失望。我们都知道新技术的发展有条 Gartner 曲线,先被炒得大热,再跌下来,又慢慢爬坡到稳定的状态。

语音识别或人工智能则不然:它被爆炒了好几次,也深深地摔下来好几次。这一方面反映了人工智能问题的巨大吸引力,也体现了它巨大的难度。在我从事语音的那几年,恰逢一个谷底时期,那是有无数的“有识之士”纷纷站出来表达对互联 糙快猛的膜拜,并夹枪带棒地表达对人工智能的鄙夷,认为我们不过是马勺上的苍蝇——混饭吃的。我们要是向互联 界提起自己是做“语音识别”的,也仿佛是在两会会场上偷看了禁片那样无地自容。

既然很早就知道深层模型的表达能力更强,那么为什么近年来深度学习才大放异彩呢是因为桶虽然盛水多,我们以前却没有掌握将它高效率地灌满的办法。也就是说,以前对深度神经 络,没有太有效的工程优化方法。一个大桶摆在那儿,却只能用耳挖勺一勺勺的往里灌水,多久才能灌满啊到本世纪,Geoffrey Hilton 和他的学生发明了用 GPU 来优化深度神经 络的工程方法,这就好比灌水时发明了水管,极大地提高了效率。这样的工程方法产生后,深度神经 络才变成工业界实用的武器,并且在若干领域都带来了里程碑式的变化。

然而,上面的例子提醒我们:人工智能和人的智能,还真的不是一回事。几岁的小孩子,大人给他指过一次猫,下次他十有八九就能认出来。然而不论是多强的人工智能模型,也不可能看几张猫的图片,就能准确地认识猫。也就是说,深度神经 络的“智能”,是建立在海量数据基础之上的,因此,深度学习与大数据,有着非常紧密的内在联系。

关于深度学习,还有一个有趣的现象。就目前情况来看,深度学习技术在互联 应用(例如广告、推荐等)上取得的提高,没有语音图像这些领域那样显著。这里面有什么规律性的解释么人认为,自然现象的数据处理,例如语音识别,我们完全可以通过主动的语料采集,让各个 phoneme 甚至 biphone、triphone 都挺有充分的覆盖;而互联 收集的 会行为,例如广告点击、新闻阅读这些数据,Ground truth 并不清晰:即使对于同一个人、同一则广告、同一个广告位,点击与否也是个很不确定的事件,而这样的不确定性即使引入再多的上下文信息,也不可能消除。而引入了大量的上下文信息(即模型需要的feature)后,在每个片段上的数据实际上非常稀少,并不能满足深度学习模型彻底进化的需要。怎么解决这个问题呢近爆火的 AlphaGo 采用的 Deep Reinforcement Learning 方法论,或许是个启发。

以上种种人工智能技术经历的磨难与辉煌,乃至更加波澜壮阔的未来,都需要参与者们抱定一颗平常心,以十年磨一剑的决心和毅力去攻克一个个产品与技术难关。因为人工智能不同于卖盒饭或者搞劫持,凡小学肄业以上文化程度,对手段之道德底线无特殊要求者皆可以胜任,它需要对于科学技术真正的信仰与坚持,对于背景理论多年的修养与磨练,远非看上去那样简单美好。

资本与大佬们对于人工智能的追捧,当然不能说是坏事。不过说实话,在里面确实也能多少嗅出一些单纯追逐风口、顺风接屁的恶趣味。这个领域已经被捧杀了好几回,好不容易有些转机,还是给大家正确的普及、合理的预期比较重要。就拿语音识别来说,Benchmark 集合上词正确率的提升,其实并不意味着人机直接用语言进行交流已经可以畅通无阻:各种复杂噪音环境下的鲁棒性问题、自然语言理解的巨大挑战、找到适合语音交流的杀手级应用场景,这些都是当我们推门以为豁然开朗时,又发现横亘在面前的王屋与太行。理性的人工智能从业者,不要轻信各种没有根据的摇旗呐喊——因为你并非正要向终点冲刺,而是刚刚踏上跑道。

那些把人工智能捧成耶和华般的行业分析师与大佬,是十分值得警惕的。我敢断言,当此领域再遇波折,将“人工智能”这四个字踩在脚下、恶狠狠淬上一口的,还会是这一拨人。而其中有些个别人恶俗的热捧,则可以说是人工智能的耻辱——西施长得好不好,是不需要八大胡同的选美比赛来品头论足的。

@北冥乘海生 2018.9

——————
推荐阅读:
《The Coder》9 月刊聚焦程序员的职场江湖

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年9月6日
下一篇 2018年9月6日

相关推荐