Linux自动化监控脚本教程_PythonShell批量监控实践_技术学院_宜昌市隼壹珍商贸有限公司

您好,欢迎访问宜昌市隼壹珍商贸有限公司

400 890 5375
当前位置: 主页 > 新闻动态 > 技术学院

Linux自动化监控脚本教程_PythonShell批量监控实践

发布时间:2026-01-04  |  点击率:
自动化监控应优先用Shell处理基础指标检查,复杂逻辑用Python;Shell轻量高效,Python结构化强、易扩展;需注重稳定性、可读性、日志记录与自身监控。

用 Python 或 Shell 写自动化监控脚本,核心不是语法多炫酷,而是稳定、可读、易维护、能快速定位问题。实际运维中,90% 的监控需求靠几行 Shell 就能解决;复杂逻辑(如聚合分析、告警分级、对接 Webhook)再交给 Python。

Shell 脚本:轻量级服务与资源监控

适合每分钟检查一次 CPU、内存、磁盘、端口、进程状态等基础指标。

  • top -bn1free -m 提取数值,配合 awkif 判断阈值,超限就发邮件或写日志
  • 检查 Nginx 是否存活:curl -s --head http://127.0.0.1 | grep "200 OK" > /dev/null || systemctl restart nginx
  • 避免死循环占用资源:脚本末尾加 sleep 60,用 crontab -e 替代后台常驻(更安全可控)

Python 脚本:结构化采集 + 智能告警

当需要统一采集多个服务器、做趋势判断、或对接企业微信/钉钉时,Python 更合适。

  • psutil 库跨平台获取 CPU、内存、磁盘使用率,比解析 dftop 输出更可靠
  • requests 调用 Prometheus API 或自建 HTTP 接口上报数据,避免本地文件堆积
  • 告警去重很关键:同一台机器连续 3 次触发“磁盘超 90%”,只发一次通知,用时间戳+主机名生成唯一 key 缓存最近告警

批量部署与执行:别手动传脚本

几十台服务器挨个 scpchmod 是反模式。

  • ansible 批量分发 Shell 脚本并设置定时任务:ansible all -m cron -a "name='disk-check' job='/opt/mon/check_disk.sh' minute='*/5'"
  • Python 脚本建议打包成 pip install 可安装包,或用 pyinstaller 编译为单文件,免环境依赖
  • 所有脚本开头加 #!/usr/bin/env bash#!/usr/bin/env python3,确保解释器路径兼容不同发行版

日志与调试:监控脚本自己也要被监控

脚本挂了没人知道,比被监控服务宕机更危险。

  • 每轮执行记录开始/结束时间、退出码、关键判断结果到 /var/log/monitor/ 下按天分割的日志文件
  • set -e(Shell)或 try/except(Python)捕获异常,失败时主动发一条“监控自身异常”通知
  • 加一个 --dry-run 参数:只打印将要执行的操作,不真实调用重启或发送告警,上线前必测

不复杂但容易忽略。脚本写完,先在一台测试机跑 24 小时看日志和行为,再推集群。真正的自动化,是让故障还没发生,你就已经收到提醒。

全国统一服务电话

400 890 5375

电子邮箱:879577@qq.com

公司地址:宜昌市西陵区黄河路5号三峡明珠10栋1051室

咨询微信

TEL:13680874598