技术资讯|机器学习-Ceph存储之不完全指南

2012 年 11 月 13 日

了解Ceph的人，大都会认为Ceph是一个相对复杂的系统，尤其当磁盘规模达到千块甚至万块时。Ceph经受住了长时间的应用考验，也说明其架构设计非常之优秀。

在OPPO的机器学习平台里，Ceph也在发挥着极其重要的作用，提供了诸如深度模型 分布式训练 、代码和 数据共享 、 训练任务容灾 、 模型急速发布 等能力。Ceph的应用场景远不仅如此，但因为Ceph系统太过“复杂”，导致很多架构师或者技术经理不敢轻易触碰。

诚然，采纳和应用一门新技术，向来不是一个简单容易的过程，但认识或者理解一门新技术，对于我们这些混迹于IT和互联网圈的同学，可能从来都不是什么难事儿。

叁

如何快速认识Ceph/CephFS，最简单的方式就是快速应用它。如果想要理解它的原理，看代码便是最直接的方式。后面，我们用源码构建并运行一个小型的Ceph，全面感知下Ceph的魅力。对于了解Docker的同学，可以在容器里进行这个尝试。

以下演示如何快速编译并启动一个 管理三块磁盘 的 分布式文件系统 。图中Rados Cluster即为构造的Ceph存储集群， CephFS Kernel Client 是实现Linux VFS标准的内核模块，两者通过网络传递磁盘IO。

准备阶段

假设物理机ip为10.13.33.36，新启的容器ip为10.244.0.5

第一步：准备好编译和运行的操作系统容器

第二步：在容器内安装编译和运行Ceph的环境依赖库

第三步：下载Ceph源代码并解压进入代码工程目录

第四步：依赖准备

第五步：编译Ceph

第六步：启动Ceph集群并检查Ceph Cluster状态

第七步：客户端挂载CephFS文件系统

第八步：客户端检测并使用CephFS文件系统

演道网