序章:CFP of ISC/VHPC20

摘要

容器是否能够运行HPC作业,或者说Kubernetes是否能够运行HPC作业?虽然还没有结论,但探索早已开始!

现状

容器流行之初,微服务一直是各个社区、平台 (e.g. k8s, mesos, swarm) 的主要应用场景;但随着容器技术的逐渐成熟,越来越多的用户希望将容器应用到其它领域。 特别是在Kubernetes成为主流以后,AI与大数据分别开始以Kubernetes为基础平台构建服务,例如 kubeflow, spark,并已经有多个成功的生产案例;HPC 用户也 开始了相应的探索。而且针对这些领域的系统,例如 Volcano,也得到了各个领域的广泛关注。

CERN

在2018和2019年欧洲KubeCon的Keynote上,Ricardo Rocha介绍了Kuberntes在CERN的应用情况,Ricardo更是在2019年的KubeCon现场演示70TB的数据处理; 该平台以Kubernetes为基础,构建了一个典型的批处理平台:

在社区惊呼CERN提升了Keynotes现场演示门槛的同时,CERN也向社区展示了使用Kubernetes运行HPC作业的可能性。但CERN现在的解决方案仍需改进; 该解决方案通过Kubernetes Federation扩展了Kubernetes集群的规模,但是调度层面还是依赖了传统的批处理系统 HTCondor。 在线下的交流中,CERN也表示希望可以在Kubernetes上直接运行,以减少多个平台的运维成本。

欧洲核子研究组织(法语:Conseil Européenn pour la Recherche Nucléaire;英语:European Organization for Nuclear Research,1954年9月29日- ), 通常被简称为CERN,是世界上最大型的粒子物理学实验室,也是万维网的发源地。它的内部深藏着一个升降机,整个机构位于瑞士日内瓦西部接壤法国的边境。 它成立于1954年9月29日,为科学家提供必要的工具。他们在那里研究物质如何构成和物质之间的力量。最初,欧洲核子研究组织的签字发起人只有12位,会员增加到21名成员国。 以色列是第一个也是唯一一个非欧洲成员国。《百度百科》

University of Michigan

由于时间的问题,CERN没有在Keynote中展示更多的细节。但在同一届的KubeCon上,来自密歇根大学的Bob Killen和布鲁克大学的Lindsey Tulloch分别介绍了 基于Kubernetes构建的科研平台。Lindsey Tulloch介绍了Compute Canada在使用Kubernetes的一些经验,并表示Compute Canada和CERN都希望使用 Kubernetes做为批处理系统。Bob介绍了密歇根大学的科研平台,除了传统的HPC作业之外,还包含了AI和大数据等作业;同时也希望以Kubernetes为基础构建 科研平台,用以支持 HPC, AI 和 大数据作业。

CNCF Research User Group

2018年以后,越来越多科研领域的用户希望基于Kubernetes构建统一的科研平台,因此在多轮线下讨论过后,大家建议在CNCF下创建一个面向科研领域的用户组; 用以帮助科研用户更快的使用云原生技术,例如 Kuberntes, Volcano。目前,有来自 华为,G-Research, CERN,密歇根大学等多个企业和组织参与到 CNCF Research User Group的工作中,帮助科研用户更快的使用云原生技术。

VHPC

VHPC是与ISC(International Supercomputing Conference)一起举办的workshop,旨在推广虚拟化技术在HPC领域的应用;目前已经举办14届了。 在今年(2020)的第15届会议中,加入了 Kubernetes 相关的议题。这也意味着Kubernetes也开始被HPC领域的用户接受,用于构建新一代的HPC平台。

The ISC High Performance, formerly known as the International Supercomputing Conference is a yearly conference on supercomputing which has been held in Europe since 1986. It stands as the oldest supercomputing conference in the world. 《wikipedia》

与往年一样,今年的 VPHC 同样包含了多个议题;但今年值得注意的是新加了关于Kubernetes的多个议题,包含 HPC Orchestration (Kubernetes) 和 Kubernetes Batch。 在Kubernetes Batch中包含了以下几个关注点:

  • Scheduling, job management: 作业调度与作业管理,例如 gang-scheduling, backfill, reservation等
  • Execution paradigm – workflow: 面向HPC作业的工作流,例如 作业依赖
  • Data management: 数据管理,例如,数据位置,缓存等
  • Deployment paradigm: HPC 场景下 Kubernetes 的部署及配置
  • Multi-cluster/scalability: 多集群和集群规模提升;例如,CERN对集群规模有比较高的要求
  • Performance improvement: 针对HPC作业的性能提升

目前,CFP已经开放,几个关键时间点如下;可以访问 http://vhpc.org 获取详细信息,并提交议题:

  • Apr 5th, 2020 – Paper submission deadline (Springer LNCS)
  • Apr 26th, 2020 – Acceptance notification
  • June 25th, 2020 – Workshop Day
  • July 10th, 2020 – Camera-ready version due

参考