前言一台服务器跑着重要业务你人在外面突然服务挂了——等你发现的时候可能已经过了半小时。这种场景但凡碰上过一次就会明白监控这件事拖不得。今天聊的这套方案用的是四个开源组件Prometheus 负责采集指标和定义告警规则Node_Exporter 是个轻量级指标暴露器装在服务器上一键启用Alertmanager 作为告警中枢把消息推出去cpolar 做内网穿透让公网能访问到本地服务。整套搭下来大概 10 分钟能跑通之后你的 QQ 邮箱就能收到服务器发来的告警邮件了不管你在哪。最顺手的地方是这条链路的可控性Prometheus 什么时候查指标、什么条件触发告警、Alertmanager 用什么邮箱发出去、cpolar 映射到哪个公网地址全部可以自己改配置不需要依赖任何商业平台。Node_Exporter 占用的资源几乎可以忽略跑在生产服务器上也不心疼。这套方案比较适合有 Linux 服务器的开发者、运维新手或者自己跑着几个小项目的个人玩家。跟着文档一步步走零基础也能全程实操不用先懂原理才能动手。1.在Centos7上安装Alertmanager在安装alertmanager前需要安装node_exporter和prometheus接下来跟我进入监控告警的世界吧去官网下载安装文件找到linux版下载下载完成后记住下载路径。创建alertmanager的目录mkdir-p/app/alertmanager进入到这个目录cd/app/alertmanager手动上传下载好的alertmanager文件。上传成功后解压tar-vxzfalertmanager-0.28.1.linux-amd64.tar.gz改名方便记忆mvalertmanager-0.28.1.linux-amd64 alertmanager将Altermanager配置为系统服务:cd/usr/lib/systemd/systemvimalertmanager.service[Unit]Descriptionhttps://prometheus.io[Service]Restarton-failureExecStart/app/alertmanager/alertmanager--config.file/app/alertmanager/alertmanager.yml[Install]WantedBymulti-user.target加载system文件启动alertmanager这个服务并设置开机启动systemctl daemon-reload systemctl start alertmanager.service systemctlenablealertmanager.service也可以后台手动启动nohup./alertmanager--config.filealertmanager.yml/app/alertmanager/alertmanager/alertmanager.out21catalertmanager.out启动成功后访问Altermanagerip9093默认端口为 9093。假如我们想用手机或者平板随时随地可以查看告警消息我们应该怎么做呢接下来cpolar就派上用场啦2.安装cpolar实现随时随地开发cpolar 可以将你本地电脑中的服务如 SSH、Web、数据库映射到公网。即使你在家里或外出时也可以通过公网地址连接回本地运行的开发环境。❤️以下是安装cpolar步骤使用一键脚本安装命令sudocurlhttps://get.cpolar.sh|sh安装完成后执行下方命令查看cpolar服务状态如图所示即为正常启动sudosystemctl status cpolarCpolar安装和成功启动服务后在浏览器上输入虚拟机主机IP加9200端口即:【http://192.168.42.101:9200】访问Cpolar管理界面使用Cpolar官网注册的账号登录,登录后即可看到cpolar web 配置界面,接下来在web 界面配置即可打开浏览器访问本地9200端口使用cpolar账户密码登录即可,登录后即可对隧道进行管理。3.配置公网地址登录cpolar web UI管理界面后,点击左侧仪表盘的隧道管理——创建隧道隧道名称可自定义本例使用了:alertmanager注意不要与已有的隧道名称重复协议http本地地址9093域名类型随机域名地区选择China Top创建成功后打开左侧在线隧道列表,可以看到刚刚通过创建隧道生成了公网地址接下来就可以在其他电脑或者移动端设备异地上使用地址访问。访问成功。4.在prometheus上配置alertmanager进入prometheus的配置文件加入alertmanager告警规则vi/app/prometheus/prometheus.yml加入以下内容后Prometheus可以通过这个公网地址4246d47e.r2.cpolar.top刚才用cpolar打通的公网地址也可以用localhost:9093访问到运行在本地9093端口的Alertmanager服务从而抓取系统指标。- targets:[4246d47e.r2.cpolar.top]labels: app:alertmanager这一步配置的作用是告诉 Prometheus当监控规则触发告警时应该把告警信息发送到哪个 Alertmanager 服务进行处理便于一会监控node_exporter也可以监控mysqld_exporter等等。alerting: alertmanagers: - static_configs: - targets:[4246d47e.r2.cpolar.top]重新启动prometheussystemctl restart prometheus抓取成功5.利用alertmanager来配置node_exporter告警在第四章节我们已经成功配置告警信息发送到alertmanager接下来我们来验证一下是否可以成功发送我们这里举例倘若node_exporter关闭则发送告警。node_exporter还可以监控主机的 CPU 使用率内存使用量文件系统用量等等。我们先改写prometheus的配置文件改以下内容vi/app/prometheus/promethues.yml进入到prometheus配置目录下写一个配置文件1.ymlvi/app/prometheus/1.ymlgroups: - name: node-alerts rules:# 实例宕机- alert: node_exporter实例宕机 expr: up{jobnode_exporter,instancelocalhost:9100}0for: 15s labels: severity: critical annotations: summary:实例 {{$labels.instance }} 已停止运行超过 15 秒description:作业 {{$labels.job }} 的实例 {{$labels.instance }} 无法抓取。- name: prometheus rules:# 实例宕机- alert: 实例宕机 expr: up{jobprometheus}0for: 15s labels: severity: critical annotations: summary:实例 {{$labels.instance }} 已停止运行超过 15 秒description:作业 {{$labels.job }} 的实例 {{$labels.instance }} 无法抓取。重启prometheussystemctl restart prometheus打开prometheus网页发现加入成功。接下来我们验证一下关闭node_exporter会不会告警systemctl stop node_exporter再次打开prometheus网页告警成功打开alertmanager网页我们发现那两条告警也显示成功。这样我们就成功配置prometheus告警啦6.使用Alertmanager发送服务器告警至QQ邮箱QQ 邮箱默认不允许外部应用直接使用密码登录SMTP服务器因此你需要获取一个授权码登录QQ 邮箱进入设置-账户。找到SMTP/IMAP/POP3/Exchange 服务开启SMTP 服务。开启后会提示你获取一个授权码。接下来我们进入alertmanager安装目录修改alertmanager配置文件alertmanager.ymlvi/app/alertmanager/alertmanager/alertmanager.yml添加以下内容来配置告警规则global: resolve_timeout: 5m smtp_from:你的QQ邮箱smtp_smarthost:smtp.qq.com:465smtp_auth_username:你的QQ邮箱smtp_auth_password:你的QQ邮箱授权码smtp_require_tls:falsesmtp_hello:qq.comroute: group_by:[alertname]group_wait: 5s group_interval: 5s repeat_interval: 5m receiver:emailreceivers: - name:emailemail_configs: - to:你的QQ邮箱send_resolved:true这样有告警消息就可以发送到QQ邮箱啦我们来验证一下配置有没有问题./alertmanager--config.filealertmanager.yml--log.leveldebug手动运行测试没报错即正确重启alertmanagersystemctl restart alertmanager systemctl status alertmanager登录邮箱查看node_exporter挂机是否发邮件接收到邮件说明我们配置正确这样我们就可以随时随地查看告警信息了7.保留固定公网地址使用cpolar为其配置二级子域名该地址为固定地址不会随机变化。点击左侧的预留选择保留二级子域名地区选择china Top然后设置一个二级子域名名称我这里演示使用的是alertmanager大家可以自定义。填写备注信息点击保留。登录cpolar web UI管理界面点击左侧仪表盘的隧道管理——隧道列表找到所要配置的隧道alertmanager点击右侧的编辑。修改隧道信息将保留成功的二级子域名配置到隧道中域名类型选择二级子域名Sub Domain填写保留成功的二级子域名地区: China Top点击更新更新完成后打开在线隧道列表此时可以看到随机的公网地址已经发生变化地址名称也变成了保留和固定的二级子域名名称。最后我们使用固定的公网地址在任意设备的浏览器中访问可以看到成功访问本地部署的alertmanager页面这样一个永久不会变化的二级子域名公网网址即设置好了。有了cpolar我们可以在任意一台服务器使用此alertmanager监控你的同事也可以一键监控是不是特别方便呢~总结一台服务器跑着重要业务你人在外面突然服务挂了——等你发现的时候可能已经过了半小时。这种场景但凡碰上过一次就会明白监控这件事拖不得。今天聊的这套方案用的是四个开源组件Prometheus 负责采集指标和定义告警规则Node_Exporter 是个轻量级指标暴露器装在服务器上一键启用Alertmanager 作为告警中枢把消息推出去cpolar 做内网穿透让公网能访问到本地服务。整套搭下来大概 10 分钟能跑通之后你的 QQ 邮箱就能收到服务器发来的告警邮件了不管你在哪。最顺手的地方是这条链路的可控性Prometheus 什么时候查指标、什么条件触发告警、Alertmanager 用什么邮箱发出去、cpolar 映射到哪个公网地址全部可以自己改配置不需要依赖任何商业平台。Node_Exporter 占用的资源几乎可以忽略跑在生产服务器上也不心疼。这套方案比较适合有 Linux 服务器的开发者、运维新手或者自己跑着几个小项目的个人玩家。跟着文档一步步走零基础也能全程实操不用先懂原理才能动手。星辰徐哥一个探索和分享的有趣博主点击了解