为 Jaeger 安装环境搭建监控基础设施

2009 年 3 月 18 日

本文最初发表于 RedHat 开发者博客
，经原作者 Juraci Paixão Kröhling 和 RedHat 授权由 InfoQ 中文站翻译分享。

在生产环境中部署 Jaeger
时，持续观察 Jaeger 实例，保证它的行为符合预期是非常重要的。毕竟，Jaeger 停机将会意味着跟踪数据的丢失，这样的话，我们很难理解生产环境的应用中究竟出现了什么问题。
本文将会介绍如何为 Jaeger 安装环境构建监控基础设施。首先，我们会为那些急切想监控 Jaeger 的读者提供现成资源的链接。

在第二部分中，我们会深入了解如何在 Kubernetes
集群中安装所有的工具，包括 Prometheus
、 Grafana
和 Jaeger 本身，同时还会学习如何安装所需的工具，从而基于 Jaeger 官方的监控 mixin 自定义告警规则和 dashboard。
提示：如果你已经具有 Grafana、Prometheus 和 Jaeger 组成的可运行环境的话，那么你可能只关心基础 dashboard 和告警定义在什么地方，它们的地址如下：

Dashboard
；
告警
。

如果你已经熟悉 mixin 的话，Jaeger 的官方监控 mixin 就可以在主资源仓库获取
。

预备条件

本指南假设你具备 Kubernetes 的 admin 访问权限。如果以测试为目的的话，有一种了解 Kubernetes 集群的简便方式，那就是在本地运行 Minikube
。

本指南还需要用到 jsonnet
和 jb (jsonnet-bundler)
。它们可以借助 go get，在本地机器通过如下命令安装：

1.  $ go get github.com/google/go-jsonnet/cmd/jsonnet
2.  $ go get github.com/jsonnet-bundler/jsonnet-bundler/cmd/jb

安装 Prometheus、Alertmanager 和 Grafana

在 Kubernetes 之上安装 Prometheus 可以通过多种方式来实现。其中一种方式是使用 kube-prometheus
项目，但是也可以直接使用 Prometheus Operator
，还可以使用 Prometheus Operator 的社区 Helm chart
。在本指南中，我们会使用 kube-prometheus 来获取 Prometheus、Alertmanager 和 Grafana 实例。
首先，我们使用 jb 生成一个基础 jsonnet 文件，该文件描述了我们的安装需求，将 kube-prometheus 作为依赖添加进来：

1.  $ jb init
2.  $ jb install \
3.   github.com/jaegertracing/jaeger/monitoring/jaeger-mixin@master \
4.   github.com/grafana/jsonnet-libs/grafana-builder@master \
5.   github.com/coreos/kube-prometheus/jsonnet/kube-prometheus@master

完成之后，我们需要有一个名为 jsonnetfile.json 的 manifest 文件，它大致如下所示：

1.  {
2.     "dependencies": [
3.         {
4.             "name": "mixin",
5.             "source": {
6.                 "git": {
7.                     "remote": "https://github.com/jpkrohling/jaeger",
8.                     "subdir": "monitoring/mixin"
9.                 }
10.             },
11.             "version": "1668-Move-Jaeger-mixing-to-main-repo"
12.         },
13.         {
14.             "name": "grafana-builder",
15.             "source": {
16.                 "git": {
17.                     "remote": "https://github.com/grafana/jsonnet-libs",
18.                     "subdir": "grafana-builder"
19.                 }
20.             },
21.             "version": "master"
22.         },
23.         {
24.             "name": "kube-prometheus",
25.             "source": {
26.                 "git": {
27.                     "remote": "https://github.com/coreos/kube-prometheus",
28.                     "subdir": "jsonnet/kube-prometheus"
29.                 }
30.             },
31.             "version": "master"
32.         }
33.     ]
34.  }

install 命令应该还会创建一个名为 vendor 的目录，其中包含了所有的 jsonnet 依赖。现在，我们所需要就是一个 deployment 描述符：创建一个名为 monitoring-setup.jsonnet 的文件，内容如下：

1.  local kp =
2.   (import 'kube-prometheus/kube-prometheus.libsonnet') +
3.   {
4.     _config+:: {
5.       namespace: 'monitoring',
6.     },
7.   };
8.  
9.  { ['00namespace-' + name + '.json']: kp.kubePrometheus[name] for name in std.objectFields(kp.kubePrometheus) } +
10.  { ['0prometheus-operator-' + name + '.json']: kp.prometheusOperator[name] for name in std.objectFields(kp.prometheusOperator) } +
11.  { ['node-exporter-' + name + '.json']: kp.nodeExporter[name] for name in std.objectFields(kp.nodeExporter) } +
12.  { ['kube-state-metrics-' + name + '.json']: kp.kubeStateMetrics[name] for name in std.objectFields(kp.kubeStateMetrics) } +
13.  { ['alertmanager-' + name + '.json']: kp.alertmanager[name] for name in std.objectFields(kp.alertmanager) } +
14.  { ['prometheus-' + name + '.json']: kp.prometheus[name] for name in std.objectFields(kp.prometheus) } +
15.  { ['prometheus-adapter-' + name + '.json']: kp.prometheusAdapter[name] for name in std.objectFields(kp.prometheusAdapter) } +
16.  { ['grafana-' + name + '.json']: kp.grafana[name] for name in std.objectFields(kp.grafana) }

这样，我们就能生成所需的 deployment manifest，并应用它们：

1.  $ jsonnet -J vendor -cm manifests/ monitoring-setup.jsonnet
2.  $ kubectl apply -f manifests/

第一次使用的时候，自定义资源定义（Custom Resource Definition，CRD）可能尚未就绪，这会导致如下的信息：

1.  no matches for kind "ServiceMonitor" in version "monitoring.coreos.com/v1"

如果出现这种情况的话，只需要再次应用一下这些 manifest 即可，因为它们是幂等的。
几分钟之后，我们应该就会有几个可用的 _Deployment_ 和 _Statefulset_ 资源了：

1.  $ kubectl get deployments -n monitoring 
2.  NAME                  READY     UP-TO-DATE   AVAILABLE   AGE
3.  grafana               1/1       1            1           56s
4.  kube-state-metrics    1/1       1            1           56s
5.  prometheus-adapter    1/1       1            1           56s
6.  prometheus-operator   1/1       1            1           57s
7.  
8.  $ kubectl get statefulsets -n monitoring
9.  NAME                READY     AGE
10.  alertmanager-main   3/3       60s
11.  prometheus-k8s      2/2       50s

我们可以直接连接服务的端口，检查一下 Prometheus 是否已经启动：

1.  $ kubectl port-forward -n monitoring service/prometheus-k8s 9090:9090
2.  $ firefox http://localhost:9090

对 Grafana 执行相同的检查，默认凭证的用户名和密码都是 _admin_：

1.  $ kubectl port-forward -n monitoring service/grafana 3000:3000`
2.  `$ firefox http://localhost:3000`

安装 Jaeger

Jaeger Operator 默认会安装到“observability”命名空间中。在本指南中，我们会将它放到“monitoring”命名空间中，与 Prometheus 和 Grafana 放到一起。为了实现这一点，我们需要通过 curl 获取 manifest，并将“observability”替换为“monitoring”，然后将输出提供给 kubectl：

1.  $ kubectl create -f https://raw.githubusercontent.com/jaegertracing/jaeger-operator/v1.13.1/deploy/crds/jaegertracing_v1_jaeger_crd.yaml
2.  $ curl -s https://raw.githubusercontent.com/jaegertracing/jaeger-operator/v1.13.1/deploy/service_account.yaml | sed 's/observability/monitoring/gi' | kubectl apply -f -
3.  $ curl -s https://raw.githubusercontent.com/jaegertracing/jaeger-operator/v1.13.1/deploy/role.yaml | sed 's/observability/monitoring/gi' | kubectl apply -f -
4.  $ curl -s https://raw.githubusercontent.com/jaegertracing/jaeger-operator/v1.13.1/deploy/role_binding.yaml | sed 's/observability/monitoring/gi' | kubectl apply -f -
5.  $ curl -s https://raw.githubusercontent.com/jaegertracing/jaeger-operator/v1.13.1/deploy/operator.yaml | sed 's/observability/monitoring/gi' | kubectl apply -f -

在撰写本文的时候，最新版本为 v1.13.1，所以你可以修改上述 URL 以匹配所需的版本。几分钟之后，Jaeger Operator 就能启动并运行了：

1.  $ kubectl get deployment/jaeger-operator -n monitoring
2.  NAME              READY     UP-TO-DATE   AVAILABLE   AGE
3.  jaeger-operator   1/1       1            1           23s

Jaeger Operator 准备就绪之后，我们就可以创建名为 tracing 的 Jaeger 实例了：

1. kubectl apply -f - < 稍等片刻，Jaeger 实例就会准备就绪：

1.  $ kubectl get deployment/tracing -n monitoring 
2.  NAME      READY     UP-TO-DATE   AVAILABLE   AGE
3.  tracing   1/1       1            1           17s
4.  
5.  $ kubectl get ingress -n monitoring 
6.  NAME            HOSTS     ADDRESS           PORTS     AGE
7.  tracing-query   \*         192.168.122.181   80        26s

我们可以在 Web 浏览器中通过给定的 IP 地址访问 Jaeger UI。在本例中，也就是 http://192.168.122.181/，但是你的 IP 可能会有所不同。

现在，所有的内容都运行起来了，接下来我们安装业务应用，并通过 instrument 操作让它为接收到的每个请求都创建 span：

1.  $ kubectl apply -n default -f https://raw.githubusercontent.com/jaegertracing/jaeger-operator/v1.13.1/deploy/examples/business-application-injected-sidecar.yaml

部署完成之后，我们可以直接打开一个到 Pod 的连接并向其发送请求：

1.  $ kubectl get -n default deployment/myapp 
2.  NAME      READY     UP-TO-DATE   AVAILABLE   AGE
3.  myapp     1/1       1            1           26s
4.  
5.  $ kubectl port-forward deployment/myapp 8080:8080
6.  $ watch -n 0.5 curl localhost:8080

这样每秒钟会生成两个 HTTP 请求，在 Jaeger UI 中，我们应该会看到每个 HTTP 请求都会有一个 trace。

创建 PodMonitor

现在，我们已经有了一组功能齐全的监控服务：Prometheus、Grafana、Alertmanager 和 Jaeger。但是，Jaeger deployment 所生成的指标并没有被 Prometheus 所捕获：我们需要创建一个 ServiceMonitor 或 PodMonitor，以便于告诉 Prometheus 到哪里获取数据。

根据组件的不同，指标会由不同的端口来提供：

组件	端口
Agent	14271
Collector	14269
Query	16687
All in one	14269

我们所创建的 Jaeger 实例并没有指定 strategy ，所以将会使用默认的 strategy，即 allInOne。我们的 PodMonitor 要告诉 Prometheus 从 14269 端口获取指标：

1. $ kubectl apply -f - < Prometheus 可能需要花费几分钟的时间才能找到这个新的 target。进入 Targets 页面，查找 monitoring/tracing/0 这个 target。Prometheus 捕获到 Jaeger 的指标端点之后，我们就可以在 Prometheus Graph 视图中看到 Jaeger 的指标了。例如，进入 jaeger_collector_traces_saved_by_svc_total 并点击 Execute。图中显示的 trace 数量应该随着时间的推移而增加，它反映了前面步骤中针对业务应用程序运行的 HTTP 请求的数量。

适配 mixin

现在，我们已经在 Prometheus 中获得了来自 Jaeger 实例的指标数据，但是应该在 dashboard 上显示哪些指标，在什么情况下应该生成哪些告警呢？很难找到一个通用的、适合所有情况的答案来回答这些问题，但是我们在 Grafana 实验室的朋友们为 Jaeger 设计了一个 mixin，它可以作为你自己的 dashboard 和告警的一个起点。此后，该 mixin 贡献了给 Jaeger 项目，并且可以在主存储库下访问。让我们回到最初的 monitoring-setup.jsonnet，并添加 Jaeger 特定的 dashboard 和告警规则：

1.  local jaegerAlerts = (import 'jaeger-mixin/alerts.libsonnet').prometheusAlerts;
2.  local jaegerDashboard = (import 'jaeger-mixin/mixin.libsonnet').grafanaDashboards;
3.  
4.  local kp =
5.   (import 'kube-prometheus/kube-prometheus.libsonnet') +
6.   {
7.     _config+:: {
8.       namespace: 'monitoring',
9.     },
10.     grafanaDashboards+:: {
11.       'jaeger.json': jaegerDashboard['jaeger.json'],
12.     },
13.     prometheusAlerts+:: jaegerAlerts,
14.   };
15.  
16.  { ['00namespace-' + name + '.json']: kp.kubePrometheus[name] for name in std.objectFields(kp.kubePrometheus) } +
17.  { ['0prometheus-operator-' + name + '.json']: kp.prometheusOperator[name] for name in std.objectFields(kp.prometheusOperator) } +
18.  { ['node-exporter-' + name + '.json']: kp.nodeExporter[name] for name in std.objectFields(kp.nodeExporter) } +
19.  { ['kube-state-metrics-' + name + '.json']: kp.kubeStateMetrics[name] for name in std.objectFields(kp.kubeStateMetrics) } +
20.  { ['alertmanager-' + name + '.json']: kp.alertmanager[name] for name in std.objectFields(kp.alertmanager) } +
21.  { ['prometheus-' + name + '.json']: kp.prometheus[name] for name in std.objectFields(kp.prometheus) } +
22.  { ['prometheus-adapter-' + name + '.json']: kp.prometheusAdapter[name] for name in std.objectFields(kp.prometheusAdapter) } +
23.  { ['grafana-' + name + '.json']: kp.grafana[name] for name in std.objectFields(kp.grafana) }

接下来，生成新的 manifest：

$ jsonnet -J vendor -cm manifests/ monitoring-setup.jsonnet

这里只会改变几个 manifest，但是我们可以安全地再次应用所有的 manifest：

1.  $ kubectl apply -f manifests/

稍等片刻之后，将会有一个新的 Grafana pod 替代之前的：

1.  $ kubectl get pods -n monitoring -l app=grafana
2.  NAME                       READY     STATUS    RESTARTS   AGE
3.  grafana-558647b59-fkmr4    1/1       Running   0          11m
4.  grafana-7bcb7f5b9b-6rv2w   0/1       Pending   0          8s

注意：当使用 Minikube 时，新 pod 可能会由于 Insufficient cpu 而处于 Pending 状态。我们可以通过运行 kubectl describe -n monitoring pod POD_NAME 来检查原因，并使用 kubectl delete -n monitoring pod POD_NAME 手动删除旧的 pod，或者使用标记–cpus 以更高的值来启动 minikube。

新的 Grafana pod 启动并运行之后，我们应该会看到 Grafana 有一个新的 Jaeger 仪表板，显示 Prometheus 提供的数据。类似地，Prometheus 中也会有一个新的告警规则：查找名称中带有“Jaeger”的规则，比如 JaegerCollectorQueueNotDraining：

总结

在云原生微服务领域中，部署可观察性工具为业务应用程序提供洞察能力是必备的，另外，监视这些工具本身的行为也是必要的。本文展示了在 Kubernetes 中搭建完整技术栈并运行起来的一种方法，最终目标是使用 Jaeger 自己的内部指标来监视 Jaeger。相同的方式可以扩展至让 Prometheus 获取业务应用的指标，并以 Grafana 作为 dashboard 工具来对数据进行可视化。

演道网

为 Jaeger 安装环境搭建监控基础设施

预备条件

安装 Prometheus、Alertmanager 和 Grafana

安装 Jaeger

创建 PodMonitor

适配 mixin

总结

About The Author

stack

2025年八月
M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

预备条件

安装 Prometheus、Alertmanager 和 Grafana

安装 Jaeger

创建 PodMonitor

适配 mixin

总结

Related Posts

About The Author

stack