数据科学家职位描述的深入分析

没有人需要告诉你,大数据就是未来。当你看到头条新闻暗示数据的价值已经超过了石油当我们不经意地提及zettabytes和yottabytes这类令人难以置信的数据单位时,海量数据中蕴含的潜在价值就变得相当明显了。
你可能想知道如何才能成为未来的一部分。随着新的数据经济的出现,众多以数据为中心的职业也随之出现——数据科学家是最引人注目的职业之一。那么这个角色包含什么呢?我们分析了数千份数据科学家的招聘广告,请专家们进行权衡,这样你就能更好地了解数据科学家的工作描述。
数据在业务中的角色
在业务环境中使用数据并不是一个新概念。即使是最原始的古代商人也能看到记录库存和销售的价值。多年来,我们学会了跟踪可能影响业务的重要因素,并利用这些信息来确定趋势和做出明智的决定。
改变的是我们现在有了数量级以上的数据。每次你刷信用卡、给妈妈发短信、或在社交媒体上发帖时,你都会留下一些数字痕迹,其他人可以跟踪。再加上大规模扩展的计算能力,我们能够使用先进的数学分析来识别可能被忽视的趋势和联系。那么这在企业中最常见的形式是什么呢?让我们看看数据科学在商业中的三个常见应用。
广告
这个重点领域是关于了解客户和提供个性化的内容。想象一下,你可以利用显示所有客户的兴趣、消费习惯和最喜欢的社交媒体平台的数据做什么?如果你曾经搜索过最近的星巴克,然后在Facebook上看到过星巴克的广告,你就会看到数据广告的实际作用。
数据科学允许建立更广泛的联系。例如,如果你是卖披萨的,并且知道来自该国某个地区的单亲父母更有可能在秋天的雨天订购意大利辣香肠披萨,而他们已经旅行了75英里或更多,你可能可以向符合条件的前客户推出10%的折扣券。虽然这可能只是一个例子的延伸,但能够在看似不相关的事物之间建立联系可以产生更有效的广告效果。
风险管理
数据科学的这种应用程序包含广泛的业务活动。数据科学家可以被用来帮助开发提取大量市场数据以识别风险的方法——天气模式是否表明你的供应链很有可能会被打乱?铁矿石开采量下降对企业的利润可能意味着什么?
银行和金融机构还雇用数据科学家进行风险管理工作——告知潜在的投资决策,并通过使用算法来检测和保护客户标记可能存在欺诈的购买.
过程改进
过程改进涉及到每个行业。从虾养殖来时装周在美国,数据科学家不仅诊断问题,而且提供解决方案。当经理们把宝贵的时间浪费在日程安排上时,数据科学家可以介入提供帮助自动调度系统.当优秀的候选人稀缺时,算法容易扫描在你审核一个申请者的时间里,你会收到上百个申请者。这些以及其他数百项创新证明,数据科学已经成为商业不可或缺的一部分。
一个典型的数据科学家的工作描述
无论是解决问题还是改进过程,数据科学家都必须应用一些常用的方法来操作数据。了解它们实际工作的最佳方法之一是浏览数据科学中的典型工作。
假设你在一家电影流媒体服务公司工作。你的任务是创建一个建议系统,向用户推荐他们可能喜欢的电影。听起来很简单,对吧?
收集和处理
在你开始解释数据之前,你必须找到它。如果你能够在一个颜色协调的电子表格中下载所有内容,那就太好了,但这并不是一种方法原始数据的工作原理。电影公司可能已经拥有您需要的信息,但许多数据科学家必须利用这些信息公共api、点击流捕获、web抓取或第三方供应商只是为了获取他们的数据。
一旦拥有了所有文件,它们可能会有丢失的值、拼写错误、重复和其他不正确解析的值—这意味着在对数据进行任何操作之前,必须清除数据。电影名称和描述、用户名和信息必须拼写正确,组织在适当的列或行中,并且不能有错误。这可能会通过一些清洁软件和人工分类的组合来完成。
这听起来可能有点乏味,但对一些人来说,这个过程是有趣的。谷歌数据科学与分析经理米哈尔•多米尼克(Michal Dominik)表示:“能够提取构成洪水般的原始数据,并通过挖掘和清理让每个人都能理解,这是一种神奇的事情。Zety.“我发现自己最喜欢把一个数据集从凌乱状态变成整洁状态,这让我很惊讶。”
算法和编码
准备好数据之后,就可以开始操作它了。这一步通常是人们与数据科学联系最紧密的部分。它需要大量的批判性思维,因为解决问题的方法永远不会只有一种。在这种情况下,您可以使用基于内容或协作方法.
其中一种方法可以分析用户看过的电影描述,并推荐具有类似描述的电影。同样,这听起来很简单,但你必须考虑像这样的单词一个,而且然后这样结果才不会有偏差。你还必须确保带有较长的描述的电影的权重不会不均衡。所有这些都涉及到复杂的算法和必须转换成代码的参数,使编程语言的熟练程度,如Python®,R或Java®必不可少的。
在您测试、重新测试并消除系统中的所有bug之后,您将成功地实现一种形式的机器学习.这允许您创建的系统从您输入的数据中学习。所以,当你看印第安纳琼斯,机器会“学习”你喜欢动作片。虽然这是一个非常简单的示例,但是要分析的连接的数据输入和数据源越多,得到的结果就越好。
可视化和沟通
创建了一个似乎能够可靠地提供聪明建议的系统后,您可能会认为自己的工作已经完成了。但仍然有黄金可以从这个体系中提取。现在,您可以呈现有关用户与其所观看的电影之间的联系的信息。某个年龄段的人会喜欢某个特定演员的电影吗?如何以更低的成本收购电影公平的人口统计数据,我们想扩大我们的用户基础?能够将数据转化为可操作的内容——也被称为数据讲故事-是其中之一最有价值的数据科学家所具备的技能。
多米尼克说:“有很多数据科学家可以依靠电脑,但他们无法将结果传达给与数据无关的人。”“如果你想成为一名数据科学家,学习分析沟通,这样你就能够解释模型,并将它们与最重要的结果联系起来。”
虽然你的经验会因你实际为哪家公司工作以及是否选择专业化而有所不同,但这些技能在数据科学家的技能库中都是很重要的。
超出了数据科学家的工作描述
就像任何职业一样,职责和技能只是工作的一部分。我们采访了这家咨询公司的总裁兼首席执行官德里克·威尔逊CDO顾问,以便对数据科学中鲜为人知的挑战有一个清晰的认识。
“比起数据,企业主更相信自己的直觉。这就是他们多年来的经营方式,”威尔逊说。“现在你有了与他们多年来‘了解’的东西相矛盾的数据,要让他们改变自己想要的经营方式,需要很多解释。”
尽管数据科学已经存在很久了20年已经爬到了排名# 1在Glassdoor网站的“美国最好的工作”(Best Jobs in America)栏目中,许多人还没有看到这个职业的潜力。Wilson指出,许多组织还没有利用数据科学。他警告说,这些企业可能很难相信它的价值。
威尔逊说:“在刚刚开始使用数据科学的组织中,最难的部分是让企业所有者理解这个过程,以及如何将数据科学成果集成到他们的业务流程中。”
然而,尽管面临这样的挑战,他仍然喜欢与商业密切合作:“我喜欢直接与商业合作,以确定可能迅速产生影响的案例。这让我了解他们的业务流程,让他们看到数据科学是一门真正的科学。”
Wilson鼓励未来的数据科学家说:“在得到有效的解决方案之前,有很多的尝试和错误”,并提供了这样的建议:“确保你了解他们面临的商业环境和挑战。”
对数据驱动的职业感兴趣?
既然您已经更好地了解了什么是数据科学,以及这些技能如何应用于当前的业务设置,那么您可能需要更多地了解如何获得以数据为中心的职业。数据分析的学士学位当然是一个很好的起点。检查拉斯穆森大学数据分析程序页面要学习更多的知识。
Python是Python软件基金会的注册商标。
Java是Oracle Corporation的注册商标。
