etcd-operator快速入门完全教程

2009 年 5 月 4 日

周三晚上8:30，在线培训《Windows容器面面观》将准时开播，Windows容器功能开发工程师从创建Windows容器开始，为你全面介绍Windows容器。点击【阅读原文】或复制下方链接到浏览器即可报名：
http://www.itdks.com/Home/Live/detail?id=28583

Operator是指一类基于Kubernetes自定义资源对象(CRD)和控制器(Controller)的云原生拓展服务，其中CRD定义了每个operator所创建和管理的自定义资源对象，Controller则包含了管理这些对象所相关的运维逻辑代码。
对于普通用户来说，如果要在k8s集群中部署一个高可用的etcd集群，那么不仅要了解其相关的配置，同时又需要特定的etcd专业知识才能完成维护仲裁，重新配置集群成员，创建备份，处理灾难恢复等等繁琐的事件。
而在operator这一类拓展服务的协助下，我们就可以使用简单易懂的YAML文件(同理参考Deployment)来声明式的配置，创建和管理我们的etcd集群，下面我们就来一同了解下etcd-operator这个服务的架构以及它所包含的一些功能。

目标

了解etcd-operator的架构与CRD资源对象
部署etcd-operator
使用etcd-operator创建etcd cluster
基于etcd-operator备份和恢复etcd cluster

服务架构

etcd-operator的设计是基于k8s的API Extension机制来进行拓展的，它为用户设计了一个类似于Deployment的Controller，只不过这个Controller是用来专门管理etcd这一服务的。
用户默认还是通过kubectl或UI来与k8s的API进行交互，只不过在这个k8s集群中多了一个用户自定义的控制器（custom controller），operator controller的服务是以Pod的方式运行在k8s集群中的，同时这个服务也需要配置所需的RBAC权限（比如对Pod,Deployment,Volume等使用到的资源进行增删改查的操作），下面我们用一个简单的架构图来进行阐述：

etcd-operator的自定义资源对象（CRD）

在k8s中，所有自定义的Controller和其自定义的资源对象（CRD）都必须满足k8s API的规范（参考下图）:

apiVersion
描述了当前自定义资源对象的版本号
Kind
表示自定义资源对象的名称，用户可通过执行kubectl get $KIND_NAME来获取所创建的CRD对象
Metadata
继承了原生k8s的metadata，用于添加标签，Annotations等元数据
Spec
是用户可自定义设计的服务配置参数，如镜像版本号，节点数量，资源配置等等..
Status
包含了当前资源的的相关状态，每个operator controller可自定义status所包含的信息,一般会选择添加如conditions，updateTime和message等一类的信息。

下面先我们来了解一下etcd-operator所包含的几个自定义资源对象(CRDs):

1、 EtcdCluster
: etcdcluster
用来描述用户自定义的etcd集群，可一键式部署和配置一个相关的etcd集群。

apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdCluster metadata: name: etcd-cluster spec: size: 3 version: 3.2.25

2、 EtcdBackup
: etcdbackup
用来描述和管理一个etcd集群的备份，当前支持定期备份到云端存储，如AWS s3, Aliyun oss(oss当前需使用quay.io/coreos/etcd-operator:dev镜像)。

apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdBackup metadata: name: etcd-backup spec: etcdEndpoints: [] storageType: OSS #options are S3/ABS/GCS/OSS backupPolicy: backupIntervalInSecond: 125 maxBackups: 4 oss: #"/" path: ossSecret: # Details about regions and endpoints, see https://www.alibabacloud.com/help/doc-detail/31837.htm endpoint:

3、 EtcdRestore:
etcdrestore
用来帮助将 etcdbackup
服务所创建的备份恢复到一个指定的etcd的集群。

apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdRestore metadata: # name must be same to the spec.etcdCluster.name name: example-etcd-cluster spec: etcdCluster: name: example-etcd-cluster backupStorageType: OSS oss: path: ossSecret: endpoint:

如何部署和使用etcd-operator

1、部署etcd-operator

在Rancher最新的stable v2.3.2 的版本中，用户可通过应用商店（Catalog）来一键式部署 etcd-operator v0.9.0版本，同时原生k8s也可下载rancher/charts到本地后通过helm install的方式进行部署。

1）（可选）部署etcd-operator时可选择同时创建一个etcd集群（此集群在etcd-operator被删除时会被一同移除），当然用户也可待etcd-operator部署完成通过kubectl apply -f myetcd.yaml来创建一个新的etcd集群。

2）部署时，如果用户选择启动 Enable Clusterwide of etcd Operator
这个选项，那么这个 etcd-operator
将作为集群层级对象来使用（否则为namespaced隔离），如果enable这个选项，那么在创建etcd集群时需添加以下注释才能创建创建:

kind: EtcdCluster metadata: name: etcd-cluster # add this annotation when the clusterWide is enabled annotations: etcd.database.coreos.com/scope: clusterwide

2、创建etcd集群

接下来我们就可以使用上述的CRD自定义资源对象对来创建和管理我们的etcd集群了。
2.1 手动创建etcd集群

cat <<EOF | kubectl apply -f - apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdCluster metadata: name: "etcd-cluster" spec: size: 3 # 默认etcd节点数 version: "3.2.25" # etcd版本号 EOF

2.2 部署后可通过CRD对象来查看我们创建的etcd集群和pod状态

$ kubectl get etcdcluster NAME AGE etcd-cluster 2m
$ kubectl get pod NAME READY STATUS RESTARTS AGE etcd-cluster-g28f552vvx 1/1 Running 0 2m etcd-cluster-lpftgqngl8 1/1 Running 0 2m etcd-cluster-sdpcfrtv99 1/1 Running 0 2m

2.3 可以往etcd集群任意的写入几条数据验证etcd集群是正常工作的（后续也可用来验证集群的备份和恢复功能）

$ kubectl get svc NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE etcd-cluster ClusterIP None 2379/TCP,2380/TCP 17h etcd-cluster-client ClusterIP 10.43.130.71 2379/TCP 17h ## write data $ kubectl exec -it any-etcd-pod -- env "ETCDCTL_API=3" etcdctl --endpoints http://etcd-cluster-client:2379 put foo "Hello World" ## get data $ kubectl exec -it any-etcd-pod -- env "ETCDCTL_API=3" etcdctl --endpoints http://etcd-cluster-client:2379 get foo foo Hello World

3、基于operator备份etcd cluster

3.1 确认了etcd集群正常运行后，作为devops后面要考虑的就是如何创建etcd集群的自动化备份，下面以阿里云的OSS举例：

cat <<EOF | kubectl apply -f - apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdBackup metadata: name: example-etcd-cluster-periodic-backup spec: etcdEndpoints: [http://etcd-cluster-client:2379] #内网可使用svc地址，外网可用NodePort或LB代理地址 storageType: OSS backupPolicy: backupIntervalInSecond: 120 #备份时间间隔 maxBackups: 4 #最大备份数 oss: path: my-bucket/etcd.backup ossSecret: oss-secret #需预先创建oss secret endpoint: oss-cn-hangzhou.aliyuncs.com EOF

3.2 若 OSS Secret
不存在，用户可先手动创建，具体配置可参考如下：

cat << EOF | kubectl apply -f - apiVersion: v1 kind: Secret metadata: name: oss-secret type: Opaque stringData: accessKeyID: myAccessKey accessKeySecret: mySecret EOF

3.3 待 etcdbackup
创建成功后，用户可以通过 kubectl describe etcdbackup
或查看e tcd-backup controller
日志来查看备份状态，如状态显示为 Succeeded: true
，可以前往oss查看具体的备份内容。

4、基于operator恢复etcd cluster

最后，假设我们要将etcd集群A的备份数据恢复到另一个新的etcd集群B，那么我们先手动创建一个名为 etcd-cluster2
的新集群(oss备份/恢复当前需使用quay.io/coreos/etcd-operator:dev镜像)。

cat <<EOF | kubectl apply -f - apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdCluster metadata: name: "etcd-cluster2" spec: size: 3 version: "3.2.25" EOF

然后通过创建 etcdresotre
将备份数据恢复到etcd-cluster2集群

cat <<EOF | kubectl apply -f - apiVersion: etcd.database.coreos.com/v1beta2 kind: EtcdRestore metadata: # name必须与下面的spec.etcdCluster.name保持一致 name: etcd-cluster2 spec: etcdCluster: name: etcd-cluster2 backupStorageType: OSS oss: path: my-bucket/etcd.backup_v1_2019-08-07-06:44:17 ossSecret: oss-secret endpoint: oss-cn-hangzhou.aliyuncs.com EOF

待 etcdresotre
对象创建成功后，可以查看 etcd-operator-restore
的日志，大致内容如下，

$ kubectl logs -f etcd-operator-restore

...

time="2019-08-07T06:50:26Z" level=info msg="listening on 0.0.0.0:19999"

time="2019-08-07T06:50:26Z" level=info msg="starting restore controller" pkg=controller

time="2019-08-07T06:56:25Z" level=info msg="serving backup for restore CR etcd-cluster2"

通过kubectl查看pod我们可以看到 etcd-cluster2
集群的etcd节点被删除重建：

NAME READY STATUS RESTARTS AGE etcd-cluster2-5tq2d5bvpf 0/1 Terminating 0 93s etcd-cluster2-kfgvc692pp 1/1 Terminating 0 101s etcd-cluster2-xqkgz8chb8 0/1 Init:1/3 0 6s etcd-cluster2-pf2qxgtg9d 1/1 Running 0 48s etcd-cluster2-x92l9vpx97 1/1 Running 0 40s

最后可通过 etcdct
l
来验证之前的数据是否存在（需设置 ETCDCTL_API=3
）：

$ kubectl exec -it etcd-pod -- env "ETCDCTL_API=3" etcdctl --endpoints http://etcd-cluster2-client:2379 get foo foo Hello World

小结

Etcd作为当前非常流行的key-value分布式文件存储，它本身的强一致性和较优的性能可以为许多分布式计算解决分布式存储的需求，如果你的微服务和应用需要用到此类的数据库，不妨来试试Rancher Catalog应用中的etcd-operator吧，Just do it!
相关资料：
https://github.com/coreos/etcd-operator
https://coreos.com/blog/introducing-the-etcd-operator.html
https://github.com/rancher/charts/tree/master/charts/etcd-operator/v0.9.0

About Rancher Labs

Rancher Labs由CloudStack之父梁胜创建。旗舰产品Rancher是一个开源的企业级Kubernetes管理平台，实现了Kubernetes集群在混合云+本地数据中心的集中部署与管理。Rancher一向因操作体验的直观、极简备受用户青睐，被Forrester评为2018年全球容器管理平台领导厂商，被Gartner评为2017年全球最酷的云基础设施供应商。
目前Rancher在全球拥有超过一亿的下载量，并拥有包括中国人寿、华为、中国平安、兴业银行、民生银行、平安证券、海航科技、厦门航空、上汽集团、海尔、米其林、丰田、本田、中船重工、中联重科、迪斯尼、IBM、Cisco、Nvidia、辉瑞制药、西门子、CCTV、中国联通等全球著名企业在内的共27000家企业客户。

点击【阅读原文】，报名第2期课程！
↓↓↓

演道网