什么是提取、转换和加载(ETL)?数据专业人士入门指南

信息时代给我们的日常生活带来了巨大的变化。我们可以访问几乎任何话题的数据,以帮助我们做出决定,从小到今天的天气穿什么,到复杂而重要的决定,比如决定搬到哪个社区,以确保你的孩子上好学校。
尽管移动应用程序和网站使这些数据看起来很容易访问,但现实情况是,以可用的形式获取信息是由于数据专业人员的工作,他们承担了关键的提取、转换和加载(ETL)过程。虽然仔细阅读招聘启事会清楚地表明这种能力是受欢迎的,但你可以更清楚地了解它需要什么,为什么它很重要,以及如何应用这项工作。为了帮助解决这个问题,我们邀请了数据专家来阐明ETL流程。
什么是ETL?
ETL是从一个或多个来源检索数据,以某种方式整理和/或更改数据,并将其传送到可访问的目的地的过程数据挖掘DNA.
顾名思义,这个过程有三个基本步骤:
- 提取:识别和获取来自不同来源的数据
- 转换:对数据进行“清理”或标准化,以满足想要使用它的业务或组织的需要(例如,转换日期格式,删除重复项)。
- 负载:将数据加载到满足业务或组织需求的新站点或“数据仓库”中
如何使用ETL流程?
如果您对这意味着什么仍然有点模糊,那么让我们从更抽象的定义转移到关注这个过程在现实世界中的工作方式。在实践中,企业和组织通常可以访问来自各种来源的数据。例如,ETL流程可以从客户关系管理(CRM)数据库、网站分析和移动应用程序数据中提取数据。所有这些来源的原始输出可能是大量的、重复的和混乱的——当您的分析依赖于质量输入时,这是一个问题。
ETL经常被用来解决数据质量问题WebCitz.“例如,如果你的企业想要对客户行为进行建模,那么它需要确保有关客户的数据在多个来源之间是准确和一致的。”
根据Wurst的说法,这是转换阶段的关键,因为有必要将数据整合到一个统一的存储中,这样更容易使用,也更准确。
“这种整合将确保每个客户的所有数据都是一致的,这将允许你建立更可靠的模型,”Wurst解释说。
转换还可以是基于关键信息(如交易日期或送货地址)对客户信息进行排序和整合的问题。
Wurst说:“当数据加载到目标系统时,业务可能还需要转换数据,以适应数据存储方式的不同变化。”
例如,标记为“location”的字段和标记为“address”的字段可能对应于在不同系统中捕获两次的相同信息,因此需要合并和清理重复数据。
根据数据源的不同,转换过程可能涉及多个步骤。
“数据转换过程通常需要几个过程,包括过滤、排序、聚合、连接、清理、重复数据删除和验证,”网站创始人凯文•帕特尔(Kavin Patel)表示Convrrt®。
奥布莱恩举了一个例子,她是家谱行业一家数据分析公司的创始人,从许多不同的来源——dna测试公司、报纸和历史档案——获取数据,可以帮助人们建立一个清晰的家族史。
“我从多个家谱档案中提取数据,将不同的片段映射成有意义的信息,并向客户提供易于阅读的电子表格,”奥布莱恩说。
虽然这是该流程的一个独特用例,但该流程的基本目的是保持一致性——剔除无关信息,整合类似数据,最终使合并后的数据集更准确、更易于使用。
为什么ETL过程很重要?
简写的短语"垃圾进,垃圾出这句话经常用在技术岗位上,它直接说明了为什么ETL过程很重要。数据分析的有效性和价值取决于良好的输入,ETL过程用于清除数据集合中尽可能多的噪声。
“在将转换后的数据加载到目标数据库之前,ETL通过数据清理来提高数据质量,”ETL的分析主管John Fordice表示盆景.“ETL使分析和报告数据变得容易。”
蒂娜·霍克,人力资源高级副总裁GoodHire®,表示ETL为企业提供了战略优势。
Hawk说:“通过ETL,数据仓库允许企业以集成的方式操作数据分析过程,从而减少碎片化,提高大型复杂数据集的处理能力。”
将ETL应用到你的职业道路上
既然您已经了解了更多关于ETL是什么以及它为什么重要的基础知识,那么您可能想知道这个角色如何适用于科技事业以及要怎样才能开始。考虑到这个角色相对较新,并且没有由许可或其他法律要求具体定义,您会发现专注于ETL的专业人员的职位名称存在一些差异。标题可能包括(但不限于):
- ETL开发人员
- 数据工程师
- 数据架构师
- SQL开发人员
- 数据库管理员
- 商业智能分析师
不管头衔是什么,这些工作都需要受过教育的有解决问题的诀窍、组织能力和效率的熟练技术人员。
“最重要的技能是对细节的严格关注,”奥布莱恩说。“技术和软件是可以学习的,但一个好的分析师喜欢在不完整或不一致的数据中发现模式。”
Hawk发现,组织和解决问题的技能以及技术诀窍对于ETL角色来说是必不可少的。
“合格的ETL开发人员首先非常熟练地使用ETL工具和软件,并且精通SQL,这是ETL软件最常用的数据库语言,”Hawk补充说。“如果开发人员能够自如地使用其他脚本语言来修改和编辑ETL工具,这也是很有用的,其中许多都是开源和可定制的。”
你将来会从事以数据为中心的职业吗?
认为数据集成、ETL和数据分析领域可能很适合您?您可以在我们的文章中了解更多关于入门的步骤。如何成为一名数据分析师:初学者指南”。
convrt是Omazing Creations, LLC的注册商标。
GoodHire是Inflection, LLC的注册商标。
