技术资讯|机器学习-Ceph存储之不完全指南
了解Ceph的人,大都会认为Ceph是一个相对复杂的系统,尤其当磁盘规模达到千块甚至万块时。Ceph经受住了长时间的应用考验,也说明其架构设计非常之优秀。
在OPPO的机器学习平台里,Ceph也在发挥着极其重要的作用,提供了诸如深度模型 分布式训练 、 代码 和 数据共享 、 训练任务容灾 、 模型急速发布 等能力。Ceph的应用场景远不仅如此,但因为Ceph系统太过“复杂”,导致很多架构师或者技术经理不敢轻易触碰。
诚然,采纳和应用一门新技术,向来不是一个简单容易的过程,但认识或者理解一门新技术,对于我们这些混迹于IT和互联网圈的同学,可能从来都不是什么难事儿。
叁
如何快速认识Ceph/CephFS,最简单的方式就是快速应用它 。 如果想要理解它的原理,看代码便是最直接的方式。后面,我们用源码构建并运行一个小型的Ceph,全面感知下Ceph的魅力。对于了解Docker的同学,可以在容器里进行这个尝试。
以下演示如何快速编译并启动一个 管理三块磁盘 的 分布式文件系统 。图中Rados Cluster即为构造的Ceph存储集群, CephFS Kernel Client 是实现Linux VFS标准的内核模块,两者通过网络传递磁盘IO。
准备阶段
假设物理机ip为10.13.33.36,新启的容器ip为10.244.0.5
第一步: 准备好编译和运行的操作系统容器
第二步: 在容器内安装编译和运行Ceph的环境依赖库
第三步: 下载Ceph源代码并解压进入代码工程目录
第四步: 依赖准备
第五步: 编译Ceph
第六步: 启动Ceph集群并检查Ceph Cluster状态
第七步:客户端挂载CephFS文件系统
第八步: 客户端检测并使用CephFS文件系统