Adrien Biarnes
2021年6月9日
一位在Dailymotion工作的机器学习工程师,致力于大规模的深度推荐系统。
背景介绍
我在2010年获得计算机科学硕士学位后开始了我的职业生涯。在学习期间,我迷上了软件工程。真的很有意思!你可以无中生有。你从一张虚拟的白纸开始,最终可以建立一个帝国。但是我认为真正吸引我的是这种个人成长的感觉,随着我的技艺的提高,我日复一日地获得这种感觉。
不管怎样,7年之后,我并不总是觉得我每天都在学习新的东西。我还在学习,但显然不像以前那样了。通常情况下,我得到的任务是我事先知道我不会学到任何东西的(想想 CRUD,比如应用程序)。那时我决定学习机器学习。我回到学校,在法国最好的工程学院之一攻读全日制硕士学位。从那时起,我被聘用为数据科学家和机器学习工程师。
机器学习位于软件链的顶端
很多读过这篇文章的人可能已经知道数据金字塔需要莫妮卡 · 罗加蒂(Monica Rogati)出色的阐述。
这个金字塔有许多变体,但对我来说,最重要的信息是人工智能/机器学习处于顶端。因此,如果你想做机器学习,你需要坚实的基础。您需要收集、转换和加载数据的健壮数据管道。您需要清理它,并将其存储在组织良好并有文档记录的位置。然后,您需要有效地查询这些(大)数据的工具。您还需要一个可靠的基础设施来运行算法。您还需要管道,以便经常进行重复训练和推理。你需要管弦乐手。您需要跟踪您过去的实验和当时使用的数据集。我将在这里停下来,因为我们的目标不是起草一个完整的列表,而是要表明存在大量的技术先决条件。
这就是了,模型只是系统的一小部分。等等?数据科学家/机器学习工程师的专业是什么?机器学习从业者在找工作时渴望得到什么?正在研究这个系统的一小部分。这是我们关心的最重要的事情!
我们都想进行机器学习
如果你仔细想想,这完全有道理,而且有很多原因。
首先,机器学习和数据科学是令人着迷的领域。主要是因为它们处于计算机科学、数学和商业理解的十字路口。这意味着个人成长的空间要大得多。当我从软件工程转向机器学习工程时,我的知识体量突然扩大了三倍。我可以继续用我的双手制作美丽而复杂的系统(并成为我想成为的伟大工程师) ,同时满足我的智力好奇心。现在我每天都能学习,坐在巨人的肩膀上!
除了对该领域的兴趣外,另一个主要原因是比较实用。我花了很多时间和精力来学习必要的课题(比如概率、统计学、微积分、线性代数、分布式计算、机器学习、深度学习… …) ,我希望这些知识能够坚持下去。我们都是人类。即使你是一个天才,如果你不实践你所学到的,知识消失。因此,当你的老板连续第十次要求你创建一个与机器学习无关的软件或分析时,你是怎么想的呢?你会开心吗?
另一个重要因素是磁场以闪电般的速度移动。在我从事软件工程的时候,这种情况就已经存在了,但是现在甚至没有可比性了。没有一天不听到最新的突破,最新的闪亮的深度学习架构,这本伟大的新书,每个机器学习从业人员都应该阅读,等等。.当你不在日常工作中练习机器学习时,你只能在空闲时间练习它。在一段时间内是可以的,但从长远来看是不可持续的。我们都是人类。我们需要时间放松,和我们爱的人在一起。别误会,我喜欢学习新东西。它可以通过完成一个 MOOC,阅读一篇研究论文,一篇博客文章或一本书。但我不能把所有的空闲时间都花在这上面。
然后他们都是其他的原因,像可以赚很多钱,可以对你的公司产生很大的影响,人工智能可能是未来发展……
黑进机器学习系统
所以你成功完成了最后一次面试。你现在正式成为数据科学家了。您将看到一个具有具体业务目标的新项目。太棒了!你是做什么的?那么你找到一个 站,你可以提取所需的数据。您可以快速修改边上的 Python 脚本,将其全部删除,并将其转储到数据框架中。你打开一个木星笔记本,开始绘制数据来理解它。您运行了一些实验,并使用自己喜欢的技术和框架生成了一个不错的模型。最后,将模型转储到 pickle 文件中,并将其投入生产。最后,你会得到这样的结果:
恭喜你,你现在是一个漂亮的重量级复杂机器的父亲建立在高跷上。现在祈祷风不要吹得太猛,特别是当你想添加产品经理要求的最后一个功能时。这就是我所说的黑进机器学习的方法。你想要建立那个闪亮的新模型如此之难,你只是忘记或假装忽略的先决条件!
正如我之前所说,机器学习坐在金字塔的顶端。谈论金字塔意味着地基除了要是坚实的,而且是相当大的!需要付出巨大的努力。
所有的公司都声称他们在做人工智能
当我开始进入数据科学领域时,我在一家咨询公司找到了一份数据科学家的实习工作。我很快就接到了一些基本的任务,比如清理数据,用 R 语言制作简单的图表。鉴于团队的工作,我很快就明白,我很难应用我在硕士期间学到的所有花哨的技术。因此,在我抱怨之后,我被赋予了一项任务,去理解和描述客户消费和他们支付的价格之间的关系。
基本上我是模拟需求的价格弹性的。别误会,我很享受最后的时光。我现在能够将我的统计学经验应用到现实世界的商业问题中。所以总的来说,对于像我这样的数据科学初学者来说,这是一项伟大的任务。但我做得太过火了。我基本上尝试了所有我能想到的模型(甚至是深度学习) ,只是为了练习。总的来说,你认为这个任务证明他们需要一个数据科学家实习生吗?真的有这种东西吗?这里真正需要的是一个能表演线性回归的人。就是这样。几乎任何分析师都能做到。
之后,我在一家创业公司找到了一份数据科学家/机器学习工程师的工作。对于这次的经历,我非常幸运。即使公司资源有限,他们也有很强的创新文化,给了我很大的实验自由。所以总的来说,我设法解决了现实世界和具有挑战性的机器学习任务。但最后,即使我有一个管理技术债务的强大文化,我是如此渴望实践机器学习,以至于我最终解决方案的基础不够牢固,后来我遇到了麻烦。
最后,在那次经历之后,我在另一家创业公司度过了一段短暂的时光,在那里,我再次被虚假的承诺所打击。这家公司是一个伟大的地方,但他们显然已经受到年轻的数据科学家谁都砍了他们的方式进入机器学习阶梯。我的第一个任务是分析遗留数据管道并提出改进建议。这条数据管道基本上满足了他们所有的智能算法至少可以说,情况非常非常糟糕。我很难理解它在做什么。所以这个任务不仅仅是一个纯数据工程的任务,它也很令人兴奋。
总而言之,公司迫切需要吸引有才能和受过教育的员工。招募数据科学家很有牌面,这让公司看起来显得不错,可以向全世界宣称你在利用人工智能的力量,用来吸引资金(尤其是初创企业)也更容易。
最后,我仍然对这次旅行心存感激,因为它让我意识到大多数公司宣传的内容与事态之间的差异。我现在更有能力预测一家公司正在做的事情和需要真正的机器学习系统的可能性。
大多数公司的需求和机器学习从业者的愿望之间存在着巨大的不匹配
最后,在这篇博客文章的最后,我想解释一下我在标题中的意思。这是我刚才解释的直接推论。大多数情况下,即使一家公司在数据驱动方面具有实实在在的优势,它也不需要机器学习,或者至少不喜欢复杂的机器学习。如果你负责招聘下一位员工,问问你自己:
我深信,最终,机器学习的资源并没有那么多的需求。事实上,当你看到需求的数据金字塔时,这是非常明显的。这个事实的必然结果是,数据科学家和机器学习工程师是奢侈的雇员。没有多少公司能够也不应该负担得起。这就是可悲的现实。
最后,我想说的是,生活中的一切,并不都是黑或白的,而大部分是灰色的。所以,是的,即使你是一个小型创业公司,你也总是可以雇得起数据科学家,因为你没有资金来招募一个多学科团队,而你想吸引外部资金。毕竟,数据科学家是万能的!它们位于维恩图中三个学科的交叉点。你当然可以。但是要知道,当你这样做的时候,你很有可能会得到:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!