在数据孵化器,我已经和数百家希望聘用数据科学家的雇主谈过了,尤其是那些拥有高级学位的雇主。如今围绕着大数据的炒作声不绝于耳,不足为奇的是,到处都是虚假信息和事实。不幸的是,招聘经理往往会因为相信许多常见的误解是真的而成为牺牲品。以下是招聘经理可能不了解的有关数据科学的三个事实:

数据科学家和软件工程师不一样。

认为两者是同义词是一个常见的错误。虽然有软件开发背景的工程师有时会自称为数据科学家,以利用相关的工资溢价,但结果往往是平庸的。工程师被训练来修复编程中的错误,但是当他们缺乏对概率和统计的深入理解时,他们常常很难解决统计错误。即使他们的代码本身可能很好,但如果他们在有缺陷的统计数据上构建代码,他们的预测也会失败。为了创建真正可伸缩的预测模型,更深入和更细致的统计理解是必要的——许多软件工程师缺乏数据科学家所不具备的。

大数据不仅仅是统计和智能。

那些几乎没有软件开发经验的人,其中许多是招聘经理,往往没有意识到这一点。在办公室的窗户里保持植物的活力和经营农场是完全不同的,对吧?当你扩大规模的时候,你必须改变你做事的方式,才能让它们发挥作用。添加更多数据时,同样的概念也适用。大数据使经典的计算模型变得紧张,最终使它们变得无效。在处理大数据时,所有的数据都不能放入RAM中。传统的商业智能计算变得笨拙,无法在合理的时间范围内完成。分布式计算和并行化可能是解决可伸缩性问题的明显方法,但它们并不总是那么简单——因此需要更复杂的解决方案。传统的业务分析不同于分布式统计计算,就像你的窗口工厂来自农场一样。一个真正的数据科学家会明白这一点,并知道如何处理它。

数据科学家需要了解业务。

许多从事机器学习的人并不认识到这一事实。虽然你可以用机器学习做很多事情,但它不是万能的,也不能告诉你一切。商业直觉引导数据科学家,使他们能够识别真实的相关性而忽略错误的相关性。同样,将相关性误认为因果关系可能会产生代价高昂的后果。如果一个数据科学家缺乏必要的领域专业知识,仅仅遵循他们认为数据所说的话,可能会导致基于毫无根据的结论的糟糕的政策建议。

当涉及到说服关键利益相关者其结论的有效性和重要性时,拥有业务直觉对于数据科学家来说也是必不可少的。通常,相关利益相关者将是领域专家,而不是数据科学家;能够以对这些利益相关者有意义的方式谈论他们的发现,是实现数据科学对业务产生真正影响所需的机构认同的关键部分。

数据科学需要结合正确的工程、统计和业务技能来构建最有效的模型。了解这一点是招聘经理为公司寻找最佳数据科学人才的第一步。