为啥数据科学家都在离职 | 一位数据科学家用亲身经历告诉你

发布时间:2020/07/13 00:00      浏览:282
作者:
来源:大数据文摘

是的,我是一名数据科学家,你也没看错标题,总得有人来说这件事。


我们都读过很多文章,说数据科学是21世纪“最性感”的工作,数据科学家可以赚得盆满钵满,以至于数据科学看起来是完全梦幻般的美妙工作。


考虑到这个领域里有大量高技术人才在沉迷于解决复杂的问题,这份工作值得热爱。


但事实是,数据科学家们通常“每周花1-2个小时寻找新工作”,这是《金融时报》的一篇文章中提到的。


此外,这篇文章还指出,


表示自己正在寻找新工作的开发者中,机器学习专家位居榜首,占14.3%。数据科学家紧随其后,占13.2%。


这些数据是Stack Overflow在一次基于64000名开发者的调查中得到的。


我也曾处于这个状态,我自己最近也换了另一份数据科学的工作。


那么,为什么这么多的数据科学家要找新工作呢?


在我回答这个问题之前,我应该澄清一下,我现在仍然是数据科学家。


总体上,我热爱这份工作,我也不想劝退那些有志成为数据科学家的人,因为这份工作充满乐趣、令人振奋且回报丰厚。


这篇文章是有意要唱唱反调,揭示一下这个职业里存在的一些负面问题。


在我看来,很多数据科学家对工作的不满意,可以归结为四大原因。


期望与现实不符


大数据就像是青少年口中的性:


每个人都在谈论它,没人真的知道怎么去做,但是每个人都认为别人在做,所以每个人都声称自己在做……——Dan Ariely



这句话太贴切了。


我认识的许多资历不深的数据科学家(包括我自己),想进入数据科学领域是为了用最新的很酷的机器学习算法来解决复杂问题,并且产生巨大的商业影响。


这可能会让我们觉得自己正做着的工作比先前做的任何事都更重要。但事实往往并非如此。


我认为,期望与现实不符是很多数据科学家离开的最终原因。


原因有很多,我不可能列出一个详尽的清单,但这篇帖子基本列举了我遇到的一些原因。


每个公司的情况都不一样,所以我讲的并不能代表所有公司,但确实很多公司在雇佣数据科学家时并没有配套的基础设施,好开始从AI中获取商业价值。


这造成了AI系统的冷启动问题。


再加上这些公司在雇用资历不深的数据科学家之前,没有雇用资深或有足够经验的从业者,这就导致双方都感到失望和不愉快。


数据科学家很可能是来写智能的机器学习算法以助力商业洞察的,但他们做不到这点,因为他们首先要做的是建立数据基础设施和/或创建分析报告。


相反,公司只想要一张图表,好每天在董事会上展示。


于是公司感到失望,因为他们没能看到价值被迅速创造出来,这一切都会使数据科学家对自己扮演的角色感到不愉快。


在Robert Chang给新手数据科学家提建议的一篇博客中,有句话非常精辟:


评估我们的抱负与我们所处环境的前进轨道有多一致,这点很重要。找到与你自身的前进轨道最相符的项目、团队和公司。


这话强调了雇主和数据科学家之间的双向关系。


如果公司不合适,或者公司目标与数据科学家的目标不同,那么数据科学家另寻出路只是时间问题。


如果有兴趣,Samson Hu有一系列精彩的文章,描述了Wish公司的分析团队是如何建立的,我觉得也很有见地。


让数据科学家感到失望的另一个原因与我自己对学术界的失望很相似:我一度以为自己能给世界各处的人带来影响,而不只局限于公司内部。


事实上,如果公司的核心业务不是机器学习(我的前雇主是一家媒体出版公司),那么很可能你所做的数据科学只能带来很小的增量收益。


这些收益积累起来可能会变得可观,或者你可能很幸运碰到一个“金矿”项目,但这些情况很少见。


政治至上



关于政治的话题,已经有一篇出色的文章专门介绍了——《数据科学行业里最困难的事:政治》。


我强烈推荐你读一下。


这篇文章的前几句话基本概括了我想说的内容:


当年我早上六点起床学习支持向量机的时候,我想:“这真是太难了! 不过,嘿嘿,至少对于未来的雇主我会变得非常有价值!”。如果现在能搞到时光机,我一定会回到过去,对自己大骂一声“傻冒!”。


如果你当真以为了解很多机器学习算法会让你成为最有价值的数据科学家,请回到上面我讲的第一点:期望与现实不符。


事实是,你需要让公司里最有权力的人对你有个不错的看法。而这可能意味着,你必须经常做一些临时安排的工作,比如从数据库中获取数字,以便在适当的时候呈给适当的人,或者做一些简单的项目,只是为了让某些人对你有个恰当的了解。


在我的前公司,我不得不做很多这样的事。尽管让人觉得沮丧,但这是工作中必不可少的部分。


有任何关于数据的事儿,公司都会来找你



在你尽一切努力取悦合适的人之后,那些大权在握的人却常常不理解“数据科学家”的含义。


这意味着你将既是分析专家又是汇报员,还有别忘了你也将是数据库专家。


不只有非技术型的主管会对你的技能做出过多假设,别的技术型的同事会假设你了解跟数据相关的一切:你懂得Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B测试、NLP、一切跟机器学习有关的事(还有任何你能想到的与数据有关的事——顺便说一下,如果你看到一个职位描述上写了所有这些东西,请保持清醒。


这份职位描述显然来自一个并不知道自己的数据战略是啥的公司,他们会雇任何人,因为他们认为雇任何一个数据人员都能解决他们所有的数据问题)。


事情还不止于此


因为你懂得这一切,而且你显然可以拿到所有的数据,所以你应该能回答一切问题,而且是在……好吧,在五分钟之内就把答案发送到相关人员的收件箱里。


对你来说,尝试去告诉大家你实际知道和掌握的东西,可能很困难。


不是因为有任何人会真的看不起你,而是因为作为一个没有什么行业经验的新手数据科学家,你会担心别人看不起你。


这样的处境可能相当艰难。


在一个孤立团队中工作



当我们去看成功的数据产品时,我们往往会看到精心设计的用户界面、智能的功能,而最重要的是具备有用的输出结果,最起码能让用户感觉到解决了一个相关的问题。


如果数据科学家只把时间花在学习如何编写和执行机器学习算法上,那么对于推动项目成功并产生价值的整个团队而言,他们只是这个团队的一小部分(尽管是必不可少的)。


这意味着一个孤立工作的数据科学团队将很难提供价值!


尽管如此,许多公司的数据科学团队仍然在执行团队自身的项目,编写代码来尝试解决一个问题。


在某些情况下这就足够了。


例如,如果公司需要的只是一份静态电子表格,每季度生成一次,那么这足以提供一些价值。


与此相反,如果目标是要优化一个预订网站的智能建议功能,那么这将需要许多不同的技能,对于绝大多数的数据科学家,不能期望他们有这个能力(这种事只有那些数据科学家中的独角兽能搞定)。


因此,如果是一个孤立的数据科学团队在承担这个项目,项目很可能会失败(或者要花很长时间,因为在大型公司里组织几个孤立团队进行项目协作并不容易)。


因此,要在行业里成为一个卓有成效的数据科学家,仅仅玩转Kaggle竞赛、完成一些在线课程是不够的。


很不幸(或幸运,取决于你从什么角度去看),你需要懂得公司里的等级制度和政治是怎么运作的。


去找一家与你的前进轨道一致的公司,这应是你在寻找一份数据科学工作时的关键目标。


但是,你仍可能需要重新调整你对行业的期待。


有任何评论、问题或者异议,请自由发表意见。建设性的讨论是非常必要的,能够帮助胸怀抱负的数据科学家在职业规划上做出明智决策。


感谢你的阅读,希望我没有把你劝退。

© 2011~2015 3 北京勺海市场调查有限责任公司 | 京ICP备12031756号 | 京公网安备11010802012285号

电话:北京总部010-58696306,上海OFFICE:021-52285671    总部地址:中国北京朝阳区东三环中路建外SOHO18号楼1506室   技术支持:混沌鸿蒙