数据湖
大数据厂商提出的概念
数据湖是一个未整合的、非面向主题的数据集合。高德纳咨询公司 Research 在其定义中添加了更多的背景:“原始数据源之外的各种数据资产存储实例的集合。这些资产存储在与源格式几乎完全一样(甚至完全一样)的副本中。”
数据湖的概念是由趋势演变而来的,因为企业迫切需要一种方法来处理传统数据仓库无法处理的日益增长的数据格式以及不断增长的数据规模和速度。数据湖可以存放来源不同的任何类型的数据,这些数据可以是结构化的、非结构化的、半结构化的或二进制的。它是你可以以可伸缩的方式存储和处理所有数据的地方。
在2006年引人Apache Hadoop之后,数据湖成为开源软件工具生态系统的同义词,简称“Hadoop”,其使用计算机网络为分布式存储和大数据处理提供了一个软件框架,来解决涉及大量数据和计算的问题。虽然大多数人会认为Hadoop只不过是一个数据湖,但它确实解决了多样性、速度和规模方面的一些挑战。
价值
数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。
隐忧
数据湖架构面向多数据源的信息存储,包括物联网在内。大数据分析或归档可通过访问数据湖处理或交付数据子集给请求用户。但数据湖架构可不仅仅是一个巨大的磁盘而已。
数据湖的数据持久性和安全却是需要优先考虑的因素。很多选择都能交付一个合理的成本,但并非所有都能满足数据湖的长期存储需求。挑战就在于数据湖中很多数据永远不会删除。这种数据的价值在于它要拿来分析以及和年复一年的数据进行比对,这将抵消其容量成本。
在数据湖架构中,信息安全作为另一项挑战往往被人忽视。相比于其它,这种类型的存储安全要更加重要。数据湖架构从定义上看是将所有的鸡蛋放在一个篮子中。而如果其中一个存储库的安全被破坏,那么未知方将可能访问所有数据。很多数据都以易于读取的格式存储,像是JPEG、PDF文件——如果你的数据湖架构不够安全,那么信息损失很容易。
参考资料
目录
概述
价值
隐忧
参考资料