2024-02-19
Blackbox网络监控
2024-02-19 ~ 2024-02-20
背景 公司服务器ng-ec-pay-1到 三方VPN 多次中断,由于没有监控及告警,均没能再第一时间处理故障。为了及时发现问题并处理,因此需要通过 Prometheus 对 VPN 链路进行监控。
2024-01-02
Prometheus
2024-01-02 ~ 2024-02-06
监控概述 什么是监控 监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题。 目前业界有很多不错的开源产品可供选
2023-12-18
Prometheus监控华为云服务
2023-12-18 ~ 2023-12-26
公司内使用部分华为云云服务,针对云服务可以采用云监控服务CES进行监控。但是有较多的人员需要看监控图表,这就需要开通很多华为云账号。所以决定将部分华为云服务的监
2023-12-13
GPU监控
2023-12-13 ~ 2023-12-13
公司内有一批GPU服务器,需要针对GPU使用的情况进行监控。 通过nvidia_gpu_exporter可实现对GPU的监控。 安装nvidia_gpu_expor
2023-12-13
MinIO监控
2023-12-13 ~ 2023-12-13
MinIO配置 minio自身提供了Prometheus监控的指标数据,分为两种形式获取: 开放形式获取(不需要任何认证) 需要通过认证获取 通常我们会采用通过认证的方
2023-12-08
ES集群监控
2023-12-08 ~ 2023-12-08
安装elasticsearch_exporter 公司内部有elasticsearch集群,针对es集群可通过elasticsearch_exporter监控。 在
2023-11-24
主机监控
2023-11-24 ~ 2024-01-02
安装node-exporter 脚本地址,点击下载。 下载安装 1 2 3 4 cd /usr/local/src wget https://github.com/prometheus/node_exporter/releases/download/v0.18.0/node_exporter-0.18.0.linux-amd64.tar.gz tar xf node_exporter-0.18.0.linux-amd64.tar.gz -C /opt/ ln -s /opt/node_exporter-0.18.0.linux-amd64/ /opt/node_exporter 以ops用户启动,需要先创建用户并授权。 1 2 useradd ops chown -R ops. /opt/node_exporter* 服务启动 sy
2023-11-16
进程监控
2023-11-16 ~ 2023-12-28
安装process-exporter 脚本地址,点击下载。 下载安装。 1 2 3 4 cd /usr/local/src wget https://github.com/ncabatoff/process-exporter/releases/download/v0.7.10/process-exporter-0.7.10.linux-amd64.tar.gz tar xf process-exporter-0.7.10.linux-amd64.tar.gz -C /usr/local/ ln -s /usr/local/process-exporter-0.7.10.linux-amd64/ /usr/local/process-exporter 配置监控所有进程。 1 2 3 4 5 6 cat > /usr/local/process-exporter/process-all.yaml << EOF process_names: - name: "{{.Comm}}" cmdline: - '.+' EOF 若只
2023-11-14
RabbitMQ监控
2023-11-14 ~ 2023-12-23
RabbitMQ安装rabbitmq_prometheus插件后,可支持Prometheus监控。 可参考官方文档。 推荐直接使用官方方案,以下方案为三方方案。 背景