初探未来十年,Cloudera 对待数据的全新方式

1977 年 9 月 5 日,旅行者一号发射升空,携带了一张镀金铜质磁盘唱片记载着人类的声音,科学,影像,音乐,思想和情感,驶入了浩瀚的宇宙。这是人类具有历史意义的一次数据的时空迁移,将数据从地球发向宇宙深处,发送给未来的数据接收者。
时隔 50 多年后的今天,随着计算机技术,传感器技术以及互联网技术的发展,人类的数据总量已经达到了前所未有的规模。数据充斥着每个人的日常生活,对企业的每天都面临着管理数据以及使用数据的挑战。
随着数据规模的指数增长,存储数据的载体,数据的处理技术,数据的使用的方式方法都在不断的演进。企业用户对数据价值的预期也不断增加。因此企业用户期望通过数据能快速带来商业价值,同时对数据的安全,数据隐私与合规等要求越来越高。
根据哈佛的商业评论最近的一份的研究报告显示,越来越多的企业在寻求企业级的成熟稳定的平台解决方案,在完成基本的数据摄取、数据整合批处理以及数据仓库的功能的基础上,还能面向业务人员提供即时互动的分析工具, 以及提供建模、数据科学、机器学习,甚至是一些深度训练的平台工具。
在今天的这篇文章里,笔者想跟大家分享一下 Cloudera 这家企业,他们对于企业级数据管理有怎样的深刻理解,在数据管理需求不断更替的今天是如何推动开源和创新的。

2008 年, Cloudera
成立,此后便顺应技术发展潮流,持续关注如何能让用户更快的从数据里获取价值。2019 年,Cloudera 提出了全新的对待数据的方式—— Cloudera Data Platform
(以下简称 CDP),赋能企业 IT 从而应对新的商业挑战。据了解,CDP 是世界上第一款企业数据云平台产品。 同时,Cloudera 的开源的商业模式发展战略以及新的开源许可模式,为 CDP 未来的发展提供原动力。

一眼十年,数据管理需求日新月异

以 2020 年为时间节点,回看过去十年以及展望未来十年,企业对数据的应用需求有很大的不同。
过去的十年里,用户需求主要集中在解决高效的存储,并且能够同时处理大规模数据。通过分布式的方式把数据分散在不同的服务器上,以分而治之的方式来并发处理数据,避免网络传输带来的消耗和延迟等。Hadoop 在过去十年里解决用户需求的同时也在不断自我演进。Cloudera’s Distribution Including Apache Hadoop(CDH)作为众多 Hadoop 分支的一种,得到了企业用户广泛的认可和使用。
未来十年里,现有的数据管理使用架构与解决方案面临新的诸多挑战。例如庞大集群规模部署时间长,企业实际应用中缺乏高效数据隐私与安全管理,数据灾难恢复能力弱,多云及混合云跨云管理繁琐等。都需要在现有技术架构基础上进行延展从而来应对这些新的挑战。Cloudera 的全新 CDP 产品就是为了帮助用户应对未来的新挑战。

从 Cloudera 数据架构的迭代,看数据管理方式的转变

Cloudera 在 Hadoop 基础架构下发展出的商业版 CDH,是第一代架构的代表,主要关注在本地部署云上集中同位的存储和计算以及大型共享集群;Cloudera 认为的第二代架构,主要关注在公有云上的存储与计算解耦和多集群,例如 Amazon EMR;Cloudera 目前提出的平台方案 CDP 被认为是第三代架构,主要关注在多云以及混合云上的存储与计算解耦,多租户以及容器化的 SaaS 体验。
去年年初,Cloudera 正式完成与 Hortonwork 的合并,新公司采用 Cloudera 品牌,新数据平台将 HDP(Hortonworks 数据平台)和 CDH(Cloudera Distribution Hadoop)的功能进行结合,加入安全治理堆栈,支持百分百开源,同时支持国际主流的五大公有云平台。
此后,Cloudera 开始全面转变为一家数据云公司,致力于建设四个方面的能力:

  • 在任何云上面,不管是在公有云、私有云,混合云,还是公有云上的任何一朵云,都可以来运行 Cloudera 的数据平台。
  • 提供全数据生命周期支持,不只是提供 Hadoop 技术本身的支持,还提供在整个数据生命周期所有使用到的工具和平台,包括数据采集、IoT、数据分析、BI、数据仓库、机器学习、数据科学等。
  • 在数据安全和治理上,提出了共享的数据体验架构,实现存储层和计算层的解耦,更好的管理源数据,同时实现数据存储分离。对数据的安全、治理、血缘和审计方面,提供了单独的 SDX 工具
  • 延续 100% 开源宗旨,保证产品开源开放。

以上四方面能力最终转化为 Cloudera 的云数据平台软件即为 CDP 产品。
CDP 可以为企业从数据战略上提供完整的服务,其多云和混合云的统一平台解决方案,可以实现快速部署,并灵活适用于企业各自的云使用策略,节约成本同时实现快速上线。全数据生命周期的支持可以让企业更加高效的使用数据和挖掘数据,提升企业数据价值。同时数据安全治理为分布各种云上的数据提供有效管理。
因此,现在的 CDP,既能提供多云与混合云的统一平台解决方案,又可以支持企业全数据生命周期中提升数据价值,还能实现企业云上的数据安全治理。

管理多云、公有云、私有云与混合云的新理念

企业在使用云的策略上,通常会根据其业务特点选择公有云或私有云,有的企业也会选择公有云 + 私有云,并构建混合云环境。Cloudera 在多云以及混合云的使用方面提出了很多新的理念和实践。

1、私有云对象存储标准

对公有云来说,原生云服务商建立了相关的对象存储标准,但私有云目前确没有对应的标准。Cloudera 通过主推 Ozone
为私有云提供未来的对象存储标准。
Ozone 是 Cloudera 在 2019 年创建并引入的一个 Hadoop 子项目,是一个开源的对象存储项目。引入 Ozone 是为了能够彻底解决 HDFS 文件数量的限制的弱点。目前很多企业用户在部署大规模集群的时候,都需要使用 HDFS 联邦,而 HDFS 联邦在实际应用中也存在各种问题,并不是最佳的解决方案,随着集群规模不断的增长,局限性也越发的明显。
Cloudera 在不断研发一些底层的新的存储技术,计划在今后几年能够替换 HDFS,为企业用户部署大规模集群提供更加优化的解决方案。

2、数据存储与数据处理的集成

结合 CDP 存储跟计算分离的概念,Cloudera 将 Ozone 定位为私有云的数据存储引擎。Ozone 可以被理解为私有云里面的“S3”,所有数据都是存放在 Ozone 里面,而分离的计算集群都是通过源数据,网络远程处理。未来规划中,Hive、Spark、Impala 等一系列的处理引擎都会跟 Ozone 集成。
同时私有云版上跟公有云版进行映射,从而使存储的接口和计算引擎都可以在 Ozone 上面可以实施。由此不但可以满足用户使用对象存储接口的需求,而且可以灵活的去分配计算资源,给开发带来很多好处。

3、混合云体验

从不同云的使用上讲,CDP 提供公有云,Data Center,和私有云版本,提供体验相同的各种数据服务。例如流式处理,Hive 批量处理,Spark 和即时查询等。让用户在私有云环境里面,可以获得跟公有云一样的体验。
用户使用 CDP 在自己搭建部署的云和使用 CDP 在原生云服务商的公有云时,CDP 都会提供统一的用户界面和相同的使用的方式。避免了用户重复学习,同时大大节约了运维集群的时间。

开源商业模式及 CDP 发展战略

开源是整个软件技术创新的一个潮流,几乎所有最新的技术都是以开源的形式在传播和推广。同时开源会成就技术的多样化,一个百花齐放社区的文化可以持续不断的发展。因此,Cloudera 会借助开源强大的创新能力,不断提升对用户的服务。
Cloudera 曾公开表示,作为一家开源公司,Cloudera 会延续 100% 开源的宗旨,并保证产品的持续开源开放。Cloudera 的新的授权许可方式,整合了 Hortonworks 和 Cloudera 各自在之前使用的授权许可方式,并在合并 Hortonworks 之后做出了一些新的改变:

  • 在授权许可方面,Cloudera 所有产品均将采用 OSI 批准的许可证,即 Apache 软件许可证 (ASL) 或 Affero 通用公共许可证 (AGPL)。 在此基础上,Cloudera 贡献代码的由 Apache 软件基金会托管的所有开源项目将继续由 ASF 监管。同时,Cloudera 的代码贡献模式没有改变,第三方项目将继续采用 upstream first 方式。第三方项目代码库的公开源仅保持在 upstream。
  • Cloudera 将采用类似红帽的开源模式,市场及全球企业用户已接受该模式。从 2019 年 11 月开始,产品的二进制文件都将置于付费专区需订阅后才能访问。将二进制文件置于付费专区的原因是它为厂商提供了一定程度的保护。二进制文件包含 Cloudera 特定的知识产权,将许多分散的开源项目整合到企业级的功能系统中。
  • CDP 会对 Hadoop 开源组件进行精选与整合,结合新创建的开源项目,提供跨云服务,全数据生命周期支持,数据安全和治理等,满足企业级用户的需求,为企业提供完整的云数据服务。

Cloudera 对以上新的开源许可策略与其业务模型进行了有机的结合。在最终制定策略方向之前,详细的与客户,行业专家,律师,同行公司和员工进行了讨论与咨询。采用目前类似红帽开源模式,是更为友好的开源软件企业化商业模式服务于用户,突出了软件产品的“面向服务”本质,Cloudera 的软件产品按订阅方式提供,消除了购买软件的麻烦。
购买订阅服务与购买私有软件许可相比,订阅提供用户所需的一切,不需要用户端访问许可,不需要持续为升级投入成本,没有服务支持限制以及隐藏费用。购买订阅的用户可以获得诸多价值,例如:

  • 订阅使用户可以持续访问 Cloudera 的商业软件,获得更新与维护,包括所有安全更新和漏洞修复。
  • 订阅不依赖于特定的版本或架构,让用户无需任何代价即可升级系统,易于基于云的服务器上轻松部署。
  • 购买订阅可以获得 Cloudera 的全球服务支持,解决用户的后顾之忧。服务支持与用户合作过程中,也打开了用户与 Cloudera 研发团队的通道,在与用户充分的沟通过程中,研发团队也能更好的根据用户的反馈研发更加贴近用户需求的产品。
  • Cloudera 拥有 700 多个研发工程师,其中大概 300 名左右的 committers,同时其系列产品在全球几千个大型客户经过广泛的验证,用户之间的普遍问题可以得到快速的解决。因此企业用户订阅 Cloudera 的企业版产品,不需要建立各自的技术团队进行平台底层研发和日常维护,让企业最大限度的节省平台成本投入。
  • 用户订阅本质上是购买 Cloudera 所提供的服务,使用户能够释放出维护软件版本所需的大量宝贵的工程师资源,也不必担心转换平台供应商所带来的成本投入。令用户能将更多资源投入在能产生更多收入的应用和产品服务上。
  • Cloudera 开发了许多开源项目,这些项目已经成为行业标准,但是没有一家公司可以成为创新唯一来源。通过投资 Spark,Kbernetes 和 Kafka 等开源项目,通过订阅服务,用户可以获得可持续发展的长期架构。

Cloudera 通过以上开放包容的商业策略,最大限度的发挥开源社区创新的原动力,真诚的服务于广大用户。

结语

在应对企业用户新需求方面,CDP 通过简化操作,减少了在整个企业机构内上线新用例的时间。同时使用机器学习来智能地自动调整工作负载,以便更经济有效地使用云基础架构。如此一来,CDP 可以管理任何环境中的数据,包括多种公共云、裸机、私有云和混合云环境。
此外,借助共享数据体验技术(SDX)、CDP 中的安全和治理功能,IT 人员可以放心地在任何地方提供针对数据运行的安全分析。
综上,笔者系统介绍了 Cloudera 的集成数据平台解决方案,它的特点是让企业可以更加灵活的组建符合各自需求的云服务,最终通过使用 CDP 进行统一管理。同时,其数据隐私以及安全管理方面的设计,可以帮助企业保证日常的安全运营。此外,Cloudera 在坚持开源的基础上,持续探索关于开源生态、商业模式的更多可能性。
未来,我们期待可以看到 Cloudera 创造更多的产品模式和服务,为企业数据管理带来更多本质上的进化。