【环球技术前沿】关于数据湖,你需要知道的那些知识

编者按:
如何处理和存储海量爆炸式增长的数据,从容面对数据挑战?这是很多企业亟待解决的问题。数据湖的概念,在这样的背景下应运而生。数据湖不但能存储传统类型数据,也能存储任意其他类型数据,并展开进一步的处理与分析,可以帮助企业打通数据孤岛,挖掘数据价值,助力企业快速数字化转型。
本文翻译自:databricks.com,内容有删节


数据湖提供了完整而权威的数据存储,可以为数据分析、商务智能和机器学习提供支持。关于数据湖的这些问题,你不可不知。

什么是数据湖?
数据湖是一个集中式数据存储库,它能够以其原始格式(例如视频,图像,二进制文件等)存储传统的结构化(行和列)数据以及非结构化数据。 数据湖利用低成本的对象存储和开放格式使得诸多应用程序能充分利用数据。

数据湖通常用于将组织机构(公司)的所有数据按照原本的格式整合到一个单一、重要的位置,而无需预先处理数据的模式或结构。 后续处理阶段(如提取,变换等)产生的数据都可以存储在数据湖中:原始数据可以与组织的结构化数据源(如数据库表)以及在处理原数据过程中生成的中间表数据一起被收集和储存。与大多数数据库不同,数据湖可以处理包括图像,视频,音频和文本等类型的所有数据。

为什么需要数据湖?
如今,公司拥有大量数据,但数据通常被隔离并孤立地存储在不同的存储系统中,例如:数据仓库、数据库和企业其他存储系统。数据湖打破了这些数据孤岛,将所有数据资产集中并整合到一个完整、权威的数据存储中,以提供最新的数据进行分析和处理。对于希望利用机器学习和数据分析能力在下个十年取胜的公司而言,将所有数据统一在数据湖中,是成功第一步。

数据湖灵活、统一的体系结构为跨功能的企业规模分析、BI 和机器学习项目,打开了许多新的用例,可以释放巨大的商业价值。数据分析师可以通过在数据湖中使用 SQL 查询语句来获取丰富的商业见解;数据科学家可以通过丰富数据集以生成准确性更高的机器学习模型;数据工程师可以构建自动化的 ETL 工作流;商务智能分析师可以更快并且更容易地创建可视化仪表板和报告工具。即使不断的有新数据注入,这些用例都可以在数据湖上同时执行,无需切换和转移数据。

在正确的架构体系中,数据湖可实现以下功能:

为数据科学与机器学习赋能
数据湖可让您将原始数据转换为结构化数据,这些数据可用于 SQL 分析,数据科学和低延迟的机器学习。 原始数据可以以低成本无限期保留,以备将来在机器学习和分析中使用。

集中、合并和编录您的数据
数据高度集中的数据湖消除了数据孤岛问题(例如数据重复,多重安全策略和协作困难问题),为下游用户提供了一个可以查找所有数据源的地方。

快速无缝地集成各种数据来源和格式
数据湖可以收集和无限期地保留所有类型的数据,包括批处理数据、流数据、视频、图像和二进制文件等。 而且,由于数据湖为新数据提供了「登陆区」,因此数据可以始终保持最新状态。

提供用户自助服务工具使数据「大众化」
数据湖具有难以置信的灵活性,能够使具有完全不同技能、工具和语言的用户,一次性执行所有分析任务。

数据湖 vs. 数仓

数据湖的历史与演变
随着大数据分析和数据科学领域的发展,支持它们的数据架构也随之发展。 当下,对于希望收集和保留下一代数据分析、商业智能和机器学习所需的原始数据的公司而言,数据湖已成为一种极具吸引力的数据体系结构。

数据湖的挑战
数据可靠性
如果没有合适的工具,数据可靠性成为数据湖的一大困扰问题,这使得数据科学家和分析人员难以对数据进行推理。这些问题可能是由批处理、流数据合并困难、数据损坏和其他因素引起的。

查询性能
随着数据湖中数据量的增加,传统查询引擎的性能通常会变差。元数据管理、不正确的数据分区等都可能成为瓶颈。