有关云平台存储容器化,你想问的也许都在这里

Q1:基于K8S的在线集群实现离线任务的混合部署,有什么心得吗?

A: 目前我们线上的转码job就是部署在在线集群,由于离线任务用到的cpu比较多,部署的时候需要通过affinity策略设置pod强制分散在各个物理机,不过最重要还是要看整个集群的监控大盘,根据负载设置离线任务的资源。

Q2:老师这边用的是什么监控?做了什么改进吗?

A: 我们这边是自研的监控,监控核心是tsdb,我们这边自研了一个分布式的tsdb,性能非常强大,每秒支撑上千万的metrics入库,所以我们现在是每秒采集一次监控指标,相比于普遍的30秒采集一次,我们在分析性能峰刺的问题有更多数据可以参考。

Q3:自研监控和Prometheus相比,对于监控是怎么取舍的?

A:我们这边的tsdb是监控Prometueus的接口,能够充分利用Prometheus的开源生态,相当于是分布式版本的Prometheus。

Q4:存储的伸缩性是怎么处理的?

A: 这里不知道是指哪个伸缩性哈,我理解的有两个:

  • 存储集群的伸缩性:有存储集群本身的扩缩容机制保证;

  • 存储卷的伸缩性,csi提供了expand接口,可以通过这次接口实现对卷的扩缩容。

Q5:K8S每次更新pod版本判断服务ready有什么好的方法吗?

A: 我们这边是写了个controller watch了K8S pod的事件,通过事件判断pod是否ready。

Q6:除了通过storageclass、pv/pvc对接存储外,有尝试过把ceph、hdfs等存储集群自身也部署到容器集群内吗?

A: 有的,我们目前有部分存量数据用了ceph,storageclass、pv、pvc这三个是K8S对于整个分布式存储的抽象,想要灵活高效的使用存储都避不开这三个,此外 K8S 还提供了flexvolume,这个是以二进制的形式扩展到 K8S 里面的,比较简单,没有controller做中控,对动态扩容、快照之类的功能支持的比较弱。

获取本期PPT

请添加右侧二维码微信

随着云时代的来临,运维迎来了新的契机,想破解运维转型困局,让 Gdevops全球敏捷运维峰会北京站 给你新思路:

  • 《浙江移动AIOps实践》 浙江移动云计算中心NOC及AIOps负责人 潘宇虹

  • 《数据智能时代: 构建能力开放的运营商大数据DataOps体系》 中国联通大数据基础平台负责人/资深架构师 尹正军

  • 《银行日志监控系统优化手记》 中国银行DevOps负责人 付大亮 & 中国银行高级软件工程师 李晓宁

  • 《民生银行智能运维平台实践之路(拟)》 民生银行智能运维平台负责人/应用运维专家 张舒伟

  • 《建设敏捷型消费金融中台及云原生下的DevOps实践》 中邮消费金融总经理助理 李远鑫

让我们在新技术的冲击下站稳脚跟,攀登运维高峰!那么 2020年9月11日 ,我们在 北京 不见不散。