1. 常规监控指标及阈值设置
- CPU:单核平均利用率超过70%,整体负载(1/5/15分钟)超过CPU核数的2倍触发告警。
- 内存:可用内存低于15%或Swap使用超过20%触发告警。
- 磁盘:单盘I/O等待(iowait)超过30%或磁盘使用率超过85%触发维护。
- 网络:丢包率超过1%、RTT高于200ms或带宽使用超过75%需升级链路或启用CDN。
- 进程/连接:tcp连接数持续超过100k或nginx/worker异常退出需自动重启与报警。
- 日志:错误率(5分钟内500/502/504)占比超过2%触发告警并关联trace id。
2. 监控工具与采集方案
- 推荐Stack:Prometheus + node_exporter + cAdvisor + Alertmanager + Grafana。
- 辅助工具:使用sar/iostat/vmstat采样历史性能,iftop/vnstat监控实时带宽。
- 网络诊断:使用mtr/traceroute/tcpdump捕获链路丢包与延迟问题。
- 日志聚合:ELK或Loki接收应用日志并配置日志告警。
- 自动化恢复:systemd或supervisor配置进程守护,配合Ansible定期巡检。
- 数据保留:监控数据保留90天,采样粒度1m,告警策略按小时与天分级。
3. 常见故障排查流程与命令
- CPU/内存问题:top/htop,ps aux --sort=-%mem/-%cpu 找出占用进程。
- 磁盘问题:df -h 查看容量,iostat -x 1 3 查看I/O等待。
- 网络问题:ss -tunp / netstat -anp 查看连接;mtr -r -c 100 域名检查路由。
- DNS/域名问题:dig +short @8.8.8.8 domain.com 与TTL检查;同时检查域名备案/解析是否被篡改。
- CDN与缓存:检查CDN回源响应时间与状态码,清理缓存或切换回源策略以定位问题。
- DDoS检测:使用tcpdump -i eth0 port 80 捕获异常SYN或UDP泛洪,并统计源IP频次。
4. 示例配置与性能数据(示例表格)
- 以下为一台典型香港VPS示例配置与监控快照,便于参考与比对。
| 项目 | 示例值 | 说明 |
| 主机名 | HK-VPS-01 | 香港机房测试机 |
| CPU | 4 vCPU | Intel Xeon |
| 内存 | 8 GB | 可跑中小型站点 |
| 磁盘 | 120 GB NVMe | I/O 读写 500 MB/s |
| 带宽 | 1 Gbps 共享 | 防护峰值10 Gbps |
| SLA | 99.98% | 含DDoS基础防护 |
- 表中数据用于阈值设定与容量规划参考。
5. 真实案例:DDoS突发与处理步骤
- 背景:某电商在促销期间被UDP泛洪攻击,带宽使用瞬时达到850 Mbps,丢包率达5%。
- 发现:Prometheus网络带宽告警触发,同时nginx 502错误率上升到4%。
- 临时措施:立即启用上游清洗服务(ISP/云厂商)并切换到CDN的“回源限流”策略,封禁恶意源IP段。
- 深入排查:用tcpdump记录前5分钟流量,使用ntop统计源IP,发现前100个IP占流量的62%。
- 恢复与总结:流量恢复后调整防护策略,新增基于地理位置与协议的白名单与黑名单规则,并将报警阈值下调10%以提前预警。
6. 日常维护清单与建议
- 每日:检查监控面板,确认CPU/内存/磁盘/网络无异常;查看error日志。
- 每周:更新系统补丁与安全组件(fail2ban/iptables),备份重要配置并验证可恢复性。
- 每月:进行容量评估,磁盘碎片整理与数据库优化(OPTIMIZE TABLE)。
- 灾备:配置异地备份(至少一处香港以外机房),并演练故障切换流程。
- 文档与权限:维护运维Runbook与SSH密钥管理,定期审核用户与API权限。
- 报表:生成每月SLA与攻击统计报表,作为采购带宽与防护能力依据。
来源:维护手册ps注册香港服务器后常规监控与故障排查流程