AI 工程师职业指南

内容简介

从年初起，几家国际大厂的开发者大会，无论是微软 Build、Facebook F8还是稍后的 Google I/O，莫不把“ AI 优先”的大旗扯上云霄。

如果这一波 AI 大潮只是空喊几句口，空提几个战略，空有几家炙手可热的创业公司，那当然成不了什么大气候。但风浪之下，我们看到的却是，Google 一线的各大业务纷纷改用深度学习，落伍移动时代的微软则已拉起一支近万人的 AI 队伍。而国内一线大厂的情况，恐怕也是差不多的。

这一迹象，对于广大程序员来说，特别是对即将走向技术一线的准程序员而言，还是值得重点关注的。回顾一下移动互联所带来的机遇，很容易就能算清，掌握深度学习能为一线工作带来怎样的优势。不过，跟移动开发不同，要求严苛的数学门槛，成本高昂的实战训练，令 AI 人才的培养周期猛增至5年以上……似乎没有硕士、博士的知识储备，就一定要跟 AI 相关的技术工作说再见了。实情果真如此吗/p>

我们请来商汤、杜邦、声智、希为、58同城、爱因互动、中科视拓、鲁朗软件等公司 AI 技术一线的专家，请他们从实践的角度来解析 AI 领域各技术岗位的合格工程师都是怎样炼成的。你将了解到什么样的 AI 技能树能够满足他们一线业务的用人需求，数据科学、机器学习算法、异构并行计算以及语音识别、推荐系统与对话系统等领域的技能进阶又该如何展开，特别是其中的学院派路径与实战派方法又当如何取舍。

本书内容

如何成为一名机器学习算法工程师

成为一名合格的开发工程师不是一件简单的事情，需要掌握从开发到调试到优化等一系列能力，这些能力中的每一项掌握起来都需要足够的努力和经验。而要成为一名合格的机器学习算法工程师（以下简称算法工程师）更是难上加难，因为在掌握工程师的通用技能以外，还需要掌握一张不算小的机器学习算法知识络。下面我们就将成为一名合格的算法工程师所需的技能进行拆分，一起来看一下究竟需要掌握哪些技能才能算是一名合格的算法工程师。

《Item-based collaborative filtering recommendation algorithms》这篇文章发表于2001年，在 Google 学术上显示，其被引用次数已经是6599了，可见其给推荐系统带来的影响之大。经过20多年的发展，item-based 已经成为推荐系统的标配，而推荐系统已经成为互联产品的标配。很多产品甚至在第一版就要被投资人或者创始人要求必须“个性化”，可见，推荐系统已经飞入寻常百姓家，作为推荐系统工程师的成长也要比从前更容易，要知道我刚工作时，即使跟同为研发工程师的其他人如 PHP 工程师（绝无黑的意思，是真的）说“我是做推荐的”，他们也一脸茫然，不知道“推荐”为什么是一个工程师岗位。如今纵然“大数据”，“AI”，这些词每天360度无死角轰炸我们，让我们很容易浮躁异常焦虑不堪，但不得不承认，这是作为推荐系统工程师的一个好时代。

推荐系统工程师和正常码农们相比，无需把 PM 们扔过来的需求给像素级实现，从而堆码成山；和机器学习研究员相比，又无需沉迷数学推导，憋出一个漂亮自洽的模型，一统学术界的争论；和数据分析师相比，也不需绘制漂亮的图表，做出酷炫的 PPT 能给 CEO 汇，走上人生巅峰。那推荐系统工程师的定位是什么呢什么需要前面提到的那些技能呢我结合自身经历来一一解答。

我把推荐系统工程师的技能分为四个维度：

掌握核心原理的技能，是一种知其所以然的基础技能；
动手能力：实现系统，检验想法，都需要扎实的工程能力；
为效果负责的能力：这是推荐系统工程师和其他工种的最大区别；
软技能：任何工程师都需要自我成长，需要团队协作。

英文阅读：读顶级会议的论文、一流公司和行业前辈的经典论文和技术博客，在Quora 和 Stack Overflow 上和人交流探讨；
代码阅读：能阅读开源代码，从中学习优秀项目对经典算法的实现；
沟通表达：能够和其他岗位的人员沟通交流，讲明白所负责模块的原理和方法，能听懂非技术人员的要求和思维，能分别真伪需求并且能达成一致。

掌握最最基础的原理

托开源的福气，现在有很多开箱即用的工具让我们很容易搭建起一个推荐系统。但是浮沙上面筑不起高塔，基础知识必须要有，否则就会在行业里面，被一轮轮概念旋风吹得找不着北。所有基础里面，最最基础的当然就是数学了。

能够看懂一些经典论文对于实现系统非常有帮助：从基本假设到形式化定义，从推导到算法流程，从实验设计到结果分析。这些要求我们对于微积分有基本的知识，有了基本的微积分知识才能看懂梯度下降等基本的优化方法。概率和统计知识给我们建立起一个推荐系统工程师最基本的三观：不要以是非绝对的眼光看待事物，要有用不确定性思维去思考产品中的每一个事件，因为实现推荐系统，并不是像实现界面上一个按钮的响应事件那样明确可检验。

大数据构建了一个高维的数据空间，从数据到推荐目标基本上都可以用矩阵的角度去形式化，比如常见的推荐算法：协同过滤、矩阵分解。而机器学习算法，如果用矩阵运算角度去看，会让我们更加能够理解“向量化计算”和传统软件工程里面的循环之间的巨大差异。高维向量之间的点积，矩阵之间的运算，如果用向量化方式实现比用循环方式实现，高效不少。建立这样的思维模式，也需要学好线性代数。

学好基础的数学知识之外，我们要稍微延伸学习一些信息科学的基础学科，尤其是信息论。信息论是构建在概率基础上的，信息论给了很多计算机领域问题一个基本的框架：把问题看做是通信问题。推荐系统要解决的问题也是一个通信问题：用户在以很不明确的方式向我们的产品发，告诉我们他最喜欢/讨厌的是什么，我们在收到了之后要解码，并且还要给他们回信，如果沟通不顺畅，那用户就会失联。我的专业是信息与通信工程。读研时从事过 NLP 相关的课题研究，NLP 里面很多问题和方法都用到了信息论知识，这样让我深受信息论影响。有了这些基础知识，再去跟踪不断涌现的新算法新模型，就会容易得多。

推荐系统会用到很多传统数据挖掘和机器学习方法。掌握经典的机器学习算法是一个事半功倍的事情，比如逻辑回归，是一个很简单的分类算法，但它在推荐领域应用之广，其他算法无出其右。在吴恩达的深度学习课程里，从逻辑回归入手逐渐讲到多层神经络，讲到更复杂的 RNN 等。应该怎么掌握这些经典的算法呢直接的办法是：自己从0实现一遍。

推荐系统不只是模型，推荐系统是一整个数据处理流程，所以模型的上游，就是一些数据挖掘的知识也需要掌握，基本的分类聚类知识，降维知识，都要有所掌握。

锻炼扎实的工程能力

前面强调自己实现算法对于掌握算法的必要性，但在实际开发推荐系统的时候，如无必要，一定不要重复造轮子。推荐系统也是一个软件系统，当然要稳定要高效。开源成熟的轮子当然是首选。实现推荐系统，有一些东西是 commonsense，有一些是好用的工具，都有必要列出来。

首当其冲的常识就是 Linux 操作系统。由于 Windows 在 PC 的市场占率的垄断地位，导致很多软件工程师只会在 Windows 下开发，这是一个非常普遍、严重、又容易被忽视的短板。

我自己深有体会，一定要熟练地在 Linux 下的用命令行编程，如果你的个人电脑是 Mac，会好很多，因为 macOS 底层是 Unix 操作系统，和 Linux 是近亲，用 Mac 的终端基本上类似在 Linux 下的命令行，如果不是则一定要有自己的 Linux 环境供自己平时练习，买一台常备的云服务器是一个不错的选择。这里有两个关键点：

用 Linux 操作系统；
多用命令行而少用 IDE（ Eclipse、VS等）。

为什么呢以下三点原因：

几乎所有推荐系统要用到的开源工具都是首先在 Linux 下开发测试完成的，最后再考虑移植到 Windows 平台上（测试不充分或者根本不移植）；
键盘比鼠标快，用命令行编程会多用键盘，少用鼠标，熟悉之后效率大大提升。而且Linux 下的命令非常丰富，处理的也都是标准文本，掌握之后很多时候根本不用写程序就能做很多数据处理工作。
几乎 Linux 是互联公司的服务器操作系统标配，不会 Linux 下的开发，就找不着工作，就问你怕不怕/p>

常常有人问我，实现推荐系统用什么编程语言比较好。标准的官方回答是：用你擅长的语言。但我深知这个回答不会解决提问者的疑问。实际上我的建议是：你需要掌握一门编译型语言：C++ 或者 Java，然后掌握一门解释型语言，推荐 Python 或者 R。原因如下：

推荐系统的开源项目中以这几种语言最常见；
快速的数据分析和处理、模型调试、结果可视化、系统原型实现等，Python 和 R 是不错的选择，尤其是 Python；
当Python在一些地方有效率瓶颈时，通常是用C++实现，再用Python调用；
Java在构建后台服务时很有优势，一些大数据开源项目也多用Java来实现；

如果时间有限，只想掌握一门语言的话，推荐 Python。从模型到后端服务到 web 端，都可以用 Python，毋庸置疑，Python 是 AI 时代第一编程语言。

推荐系统是一个线上的产品，无论离线时的模型跑得多么爽，可视化多么酷炫，最终一定要做成在线服务才完整。这就涉及到两方面的工作：1.系统原型；2.算法服务化。这涉及到：

数据存储。包括存储模型用于在线实时计算，存储离线计算好的推荐结果。除了传统的关系型数据库 MySQL 之外，还需要掌握非关系型数据库，如 KV 数据库 Redis，列式数据库 Cassandra 和 HBase 常常用来存储推荐结果或模型参数。推荐的候选 Item 也可能存在 MongoDB 中。
RPC 和 web。需要将自己的算法计算模块以服务的形式提供给别人跨进程跨服务器调用，因此 RPC 框架就很重要，最流行如 thrift 或者 dubbo。在 RPC 服务之上，再做原型还需要会一点基本的 web 开发知识，Python、PHP、Java 都有相应的 web 框架来迅速的完成最基本的推荐结果展示。

当然，最核心的是算法实现。以机器学习算法为主。下面详细列举一下常见的机器学习/深度学习工具：

Spark MLib：大概是使用最广的机器学习工具了，因为 Spark 普及很广，带动了一个并非其最核心功能的 MLib，MLib 实现了常见的线性模型、树模型和矩阵分解模型等。提供 Scala、Java 和 Python 接口，提供了很多例子，学习 Spark MLib 很值得自己运行它提供的例子，结合文档和源代码学习接口的使用，模型的序列化和反序列化。
GraphLab/GraphCHI：GraphCHI 是开源的单机版，GraphLab 是分布式的，但并不开源。所以建议推荐系统工程师重点学习一下 GraphCHI，它有 Java 和 C++两个版本，实现了常见的推荐算法，并在单机上能跑出很高的结果。有一个不得不承认的事实是：GraphCHI 和 GraphLab 在业界应用得并不广泛。
Angel：腾讯在2017年开源的分布式机器学习平台，Java 和 Scala 开发而成，已经在腾讯的10亿维度下有工业级别的应用，最终的是填补了专注传统机器学习（相对于深度学习）分布式计算的空白，值得去学习一下；由于开发团队是中国人，所以文档以中文为主，学习的时候多多和开发团队交流会受益良多，进步神速。
VW：这是 Yahoo 开源的一个分布式机器学工具，也支持单机，分布式需要借助Hadoop 实现。由于主要开发者后来跳槽去了微软，所以还支持 Windows 平台。阅读这个工具的源码，非常有助于理解逻辑回归的训练，微博推荐团队和广告团队第一版模型训练都采用了 VW，其开发者在 Yahoo Group 中回答问题很积极，使用期间，我在这个group 里面提了大大小小十几个问题，基本上都得到解答，这是一个学习成长方法，建议新学者常常在邮件组或者讨论组里提问题，不要在乎问题是否愚蠢，不要在意别人的取笑。
Xgboost：这个称 kaggle 神器的机器学习工具，非常值得学习和使用，尤其是对于理解 Boosting 和树模型很有帮助。上有很多教程，主要开发者陈天奇也是中国人，所以遇到问题是非常容易找到交流的人的。
libxxx：这里的xxx是一个通配符，包括以 lib 开头的各种机器学习工具，如liblinear、libsvm、libfm、libmf。都是单机版的工具，虽然是单机版，但足够解决很多中小型数据集的推荐问题了，著名的 scikit-learn 中的一些分类算法就是封装的libsvm 等工具。另外，libsvm 不但是一个机器学习工具，而且它还定义了一种应用广泛，成为事实标准的机器学习训练数据格式：libsvm。
MXNet，TensorFlow，Caffe：深度学习大行其道，并且在识别问题上取到了惊人的效果，自然也间接推动了推荐系统的算法升级，因此，掌握深度学习工具的就很必要，其中尤其以 TensorFlow 为主，它不但有深度学习模型的实现，还有传统机器学习模型的实现，Python 接口，对于掌握 Python 的人来说学习门槛很低。深度学习工具仍然建议去跑几个例子，玩一些有趣的东西会快速入门，如给照片换风格，或者训练一个动物/人脸识别器，可以有一些粗浅的认识。再系统地学习一下吴恩达的在线课程，他的课程对TensorFlow 的使用也有讲解，课后编程作业设计得也很好。

为最终效果负责的能力

推荐系统最终要为产品效果负责。衡量推荐系统效果，分为离线和在线两个阶段。

离线阶段。跑出一些模型，会有定义清晰的指标去衡量模型本身对假设的验证情况，如准确率、召回率、AUC 等。这个阶段的效果好，只能说明符合预期假设，但不能保证符合产品最终效果，因此还要有线上实际的检验。
在线阶段：除了有一些相对通用的指标，如用户留存率、使用时长、点击率等，更多的是和产品本身的定位息息相关，如短视频推荐关注 vv，新闻推荐关注 CTR 等，这些和商业利益结合更紧密的指标才是最终检验推荐系统效果的指标，推荐系统工程师要为这个负责，而不能仅仅盯着离线部分和技术层面的效果。

了解不同产品的展现形式对推荐系统实现的要求，feed 流、相关推荐、猜你喜欢等不同产品背后技术要求不同，效果考核不同，多观察、多使用、多思考。

最后，要学会用产品语言理解产品本身，将技术能力作为一种服务输出给团队其他成员是一项软技能。

AI 工程师职业指南

内容简介

本书内容

如何成为一名机器学习算法工程师

掌握最最基础的原理

锻炼扎实的工程能力

为最终效果负责的能力

推荐系统领域现状

如何成为一名对话系统工程师

如何成为一名数据科学家

如何成为一名异构并行计算工程师

如何成为一名语音识别工程师

如何成为一名自然语言处理工程师

求取技术突破：深度学习的专业路径

实战路径：程序员的机器学习进阶方法