15年前,当我开始我在数据领域的职业生涯时,我从来没有想到过用 “数据科学家” 这个词来塑造我的作品的性感品牌,更不用说它在最近几年取得的巨大人气了。数据科学家被广泛认为是世界上最热门、最受追捧的职位之一,他们正在改写现代科技时代酷的意义。对我的书呆子们来说,从来没有比现在更好的时候了。就业岗位泛滥,需求远远超过供应。这个行业变得如此炙手可热,初创公司的董事会成员在产品生命周期的早期要求雇佣数据科学家并不少见。我经常以这种身份与高管会面,并且经常通知他们他们不需要数据科学家。

像我这样的数据传道者怎么能认为这种对数据科学的突然兴趣正处于适得其反的边缘?在我开始之前,让我首先说,雇用数据科学家确实有很多伟大的用途! 我不会争辩说不需要数据科学或没有用,因为正确使用它是一种非常强大的商业武器 (是的,我带着 “武器” 去了那里)。我只想说,这是一个过度使用的术语,几乎没有正式的认可,指的是大量与数据相关的活动,而不是在12个月的课程中可以学习的整洁的技能。因此,当需要招聘时,组织应该真正考虑和考虑你的组织需要何时以及什么样的数据科学家。

当新的潜在客户来找我时,至少有50% 的时间是打着 “我的首席执行官/董事会成员/等” 的幌子。告诉我我需要聘请一名数据科学家。我通常会问以下四个问题:

1.你有多少数据?

我说了四个问题,但许多组织从来没有超过第一个问题。如果您是一家初创公司,但尚未启动,则不需要专职数据科学家。句号。实际上,即使您已经建立良好但客户/产品/会员基础较小,也不需要数据科学家。为什么,你问?因为毫不奇怪,数据科学家需要数据。不仅仅是任何数据都可以。许多技术至少需要数万个 (如果不是数十万甚至数百万个数据点) 来构建。

目前,人们非常关注深度学习。数据科学家的工作描述充斥着神经网络,机器视觉和自然语言处理 (NLp) 等术语。问题是什么?这些类型的技术依赖于拥有大量的训练数据。考虑一下广受欢迎的Google翻译,这是一种建立在超过1.5亿个单词的词典之上的神经网络。成功部署这些类型的模型所需的数据量超过了许多公司拥有的数据量。

有许多技术使用比深度学习更少的数据,但是,它们仍然需要相当大的样本,更不用说何时使用哪种方法的工作知识了。在这个阶段,仍然有宝贵的工作要做,以创造一个数据科学可以在未来蓬勃发展的环境,只是不需要全职、昂贵的资源来实现。

2.您是否建立了关键绩效指标 (kpi) 和定期的商业智能报告?

如果没有对驱动组织的因素的基本了解,将很难利用先进的技术。例如,数据科学家可以使用机器学习来进行预测,例如哪些用户将流失或变得高度活跃,但是,如果业务没有针对流失或高度活跃的定义,则在构建预测模型之前,这将成为需求。此外,如果您没有足够的指标来评估模型,则很难验证模型。其他技术 (例如A/B测试) 需要高级选择总体评估标准 (OEC),这通常是业务驱动的KpI。

3.你认为这位数据科学家一旦被录用会做什么?

也许是我问的最主观和最有趣的问题,“你想让这位数据科学家做什么?”我得到的最常见的答案是。“我们不知道,这就是为什么我们需要雇用一个。” 在这种情况下,我轻轻地告诉组织,他们正在建立自己的数据科学家以失败。没有必要成为数据科学方面的专家来雇佣一个人,但是你应该很好地知道什么是可能的,什么是不可能的,这样你就不会设定不切实际的期望。

数据科学不是魔术,甚至不是传统科学。这既是一门艺术,也是一门科学,这意味着技能和能力的可变性是巨大的。您甚至可能有现有的团队成员能够成长为许多数据科学应用程序。对于现有分析师来说,进入数据科学的一个简单方法是开始预测他们已经报告的kpi。在这里,他们有机会学习他们熟悉的数据,这不仅有利于员工的士气; 现在投资于你的员工意味着未来在竞争激烈的市场中招聘的需求减少。

4.您的数据科学家可以使用哪些支持网络?

如果你没有合适的数据科学家支持网络,不要费心投资雇佣他们。近年来,数据科学计划激增,但是毕业生在大多数情况下根本没有准备好解决业务问题,而无需仔细掌握。绝大多数程序都有学生解决干净数据上预先确定的问题。在现实世界中,您希望您的数据科学家帮助确定正在解决的问题,并且干净的数据永远不会存在。

在没有高级资源指导的情况下雇用初级数据科学家不仅会导致初级数据科学家感到沮丧,而且通常会导致不良分析。初级团队成员往往难以将业务问题转化为技术问题,错误的翻译可能会导致数月的产品无法实现目标。

通过雇用更多的高级员工并不能完全缓解此问题,部分原因是证明您的高级员工实际上是优秀且胜任的非常困难。如果您运气好并聘请了一位才华横溢且有上进心的数据科学家,那么她仍然需要高管层的大量支持才能取得成功。想象一下这样一种情况,即创建模型但从未使用过,因为没有团队领导的支持。或进行A/B测试但结果被忽略的地方。更糟糕的是,分析问题所需的数据跟踪根本没有被收集。

通常,必要的第一步是arobust数据收集程序,该程序可能由工程师或数据库管理员而不是数据科学家提供资源。在许多组织中,高级数据科学家 (s) 花费了大量的时间来为herteam工作的数据需求和部署而奋斗。这是失去这位才华横溢、自我激励、高级数据科学家的必经之路。

雇用和留住优秀的数据科学人才的环境是竞争激烈且昂贵的,但是在何时,谁以及如何雇用方面保持聪明和认真的态度可以减轻痛苦和成本。不要陷入职位发布的陷阱,这些职位都是技能的清单。不要指望你的数据科学家会给你带来神奇的精灵灰尘。一定要清点你的真实要求,如果可能的话,在招聘前咨询值得信赖的专业人员。你的数据程序的成功取决于它。