数据湖,大数据的未来

云湖共生,重新定义数据湖

数据只有加以利用,才能体现其真正的价值。

让数据产生价值才能叫作成功。

十年前,我们讨论的是云计算和大数据的萌芽,五年前进入移动互联网的大时代,站在十年展望未来,整个社会都在全面进入数字经济时代。——逍遥子

在数字经济时代,如果大数据是石油,算力是发动机,那么如何有效的结合两者?我们相信云上数据湖是新一代最有效的大数据解决方案。它必定带来全面爆发的智慧化、数智化转型。

在十年前,已经有不少企业已经意识到,数据只有加以利用,才能体现其真正的价值。因此早期有不少公司引入各类原生系统,将企业各种结构化或非结构化的数据统加载至Hadoop环境中,希望能让自己的数据发挥更大的价值。

但是要将各类数据加以应用,使其发挥最大的价值,并不是一件容易的事情。2016年,Gartner公司估计,有60%的大数据项目遭遇失败。而在一年之后,他们表示60%的估计太过保守,这个数字应该会达到80%。

通过开源架构策略,现代化数字企业逐渐意识到自己的目标是通过业务实现数据的价值化,能在未来将更多的资源与精力投向在研究底层数据的价值与产品的研发。

为了赋能业务,快速应对挑战,数据湖的概念应运而生。

数据湖是一个集中式存储仓库,允许用户以任意规模存储所有结构化和非结构化数据。用户无需先对数据进行结构化处理,可按照原始形态直接存储,覆盖多种类型的数据输入源。同时,数据湖可无缝对接各类计算分析平台,对Hadoop生态支持良好,存储在数据湖中的数据可以直接对其进行数据分析、处理、查询,通过对数据深入挖掘与分析,洞察数据中蕴含的价值。

阿里云数据湖解决方案,基于对象存储OSS作为底座构建整个解决方案,可以全面满足数据的存储、离线分析、交互查询等业务需求。

阿里云数据湖解决方案,作为一套十分智能的解决方案,可对接多个业务体系,存储来自不同业务的多种数据源,如系统的原始数据、日志数据等。在数据汇聚到数据湖之后,它的上层系统可以同时兼容多种计算引擎,如开源大数据引擎Hadoop、Spark,阿里云EMR、DLA等。帮助用户便捷地实现数据处理与分析,不需要再重复拷贝。

因此阿里云认为,数据湖是一种不断演进中、可拓展地大数据存储、处理、分析的基础设施。以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多规模式处理与生命周期管理。并通过与各类外部异构数据源的交互集成,支持各类企业级应用。

在可拓展方面,数据湖的可拓展性包括规模的可拓展和能力的可拓展,即数据湖不但要能够随着数据量的增大,提供“足够”的存储和计算能力;还需要根据需求不断提供新的数据处理模式。可能一开始业务只需要批量处理能力,但随着业务的发展,可能需要交互式的分析能力;又随着业务的实效性要求不断提升,可能需要支持实时分析和机器学习等丰富的能力。

在数据为导向方面,数据湖对于用户来说,要足够的简单、易用,帮助用户从复杂的IT基础设施运维工作中解脱出来,关注业务、模型、算法和数据。

在数字经济时代,数据湖是一个能完美将大数据与计算互相结合的解决方案。在过去十年,我们一直在探索如何将数据与计算完美进行结合;而在未来十年,我们相信,数据湖将会是大数据最优的解决方案。