1.
巡检前的准备与清单管理
巡检前1:确认当日机房入口与安检证件、联络人信息、PCCW机房工单号。
巡检前2:核对机柜设备清单(机柜号、设备ID、U位、SN、OS版本)。
巡检前3:检查监控看板与阈值(CPU>70%、内存>80%、磁盘使用>85%)。
巡检前4:备份配置与快照(主机配置、路由表、ACL、域名DNS记录)。
巡检前5:准备应急工具(串口线、KVM、备用网线、移动光衰减器)。
巡检前6:记录巡检时间窗口与变更窗口,避免业务高峰作业。
2.
现场巡检项与数据采集
巡检项1:主机状态:CPU、内存、磁盘IO、负载1/5/15。
巡检项2:网络链路:丢包率、延迟、BGP会话、端口错误统计。
巡检项3:存储监控:RAID健康、SMART、快照成功率。
巡检项4:服务层:Web(80/443)、数据库(3306/5432)、缓存(6379)进程存活。
巡检项5:安全设备:防火墙策略一致性、IDS/IPS告警。
巡检项6:采集方式:SNMP、Prometheus、Zabbix、SFlow定时抓取并入库。
3.
自动化监控与告警策略
策略1:阈值告警分级(Warning/Critical/Recover)。
策略2:指标举例:CPU>85% 5min触发Warning,10min触发Critical。
策略3:网络阈值:链路丢包>0.5%或延迟增加>100ms触发告警。
策略4:告警渠道:PagerDuty电话+Slack频道+邮件,On-call响应15分钟内确认。
策略5:告警免打扰窗口与抑制规则,避免重复告警风暴。
策略6:自动化工单:重要告警自动创建PCCW变更/故障单并附诊断包。
4.
故障响应流程与分工
流程1:接警->确认影响范围->快照日志->初步定位。
流程2:分工:一人网络排查(交换/路由/BGP)、一人主机修复(重启服务/回滚配置)、一人对外沟通。
流程3:常用命令:netstat/ss, tcpdump, ethtool, iostat, smartctl, journalctl。
流程4:回滚策略与变更单审批,必要时启用回滚脚本。
流程5:记录MTTR目标:一般故障MTTR<=45分钟,复杂故障<=4小时。
流程6:事后复盘撰写Root Cause Analysis并更新Runbook。
5.
DDoS防护与CDN协同策略
防护1:流量基线:平时HTTP峰值约3Gbps,突发阈值设为10Gbps警告。
防护2:PCCW链路接入采用10Gbps/40Gbps冗余上行并配置BGP多重出口。
防护3:遇到攻击:启用BGP黑洞或导流至清洗中心(scrubbing),并结合CDN回源保护。
防护4:CDN策略:缓存缓存规则、动态加速、WAF规则推送与秒级下发。
防护5:阈值举例:当入站流量>100Gbps时自动下发清洗工单并切换至双向清洗。
防护6:与PCCW协作确认ACL/ACL速率限制与流量镜像点位。
6.
真实案例:2024-03 PCCW机房DDoS处置
案例背景:2024年3月某电商在香港PCCW机房遭遇多向量DDoS,峰值约320Gbps。
处置步骤1:监控告警触发,On-call 8分钟内确认并创建故障单。
处置步骤2:与PCCW联动,采用BGP导流至清洗中心并启用CDN回源过滤。
处置步骤3:快速调整防火墙策略与WAF规则拦截异常HTTP洪水。
处置步骤4:流量在20分钟内降至可接受范围,整体MTTR 1小时10分钟。
处置步骤5:后续优化:增加边缘规则、调整Origin ACL、扩容清洗带宽至500Gbps。
7.
示例服务器配置与巡检数据表
示例1:生产数据库节点:2x Intel Xeon E5-2680 v3 12C/24T, 256GB RAM, 2x480GB SSD RAID1, 10Gbps网卡。
示例2:应用节点:4x Intel Xeon Silver, 128GB RAM, 4x1TB NVMe RAID10, 40Gbps uplink。
示例3:监控阈值:CPU告警70%/85%,内存告警75%/90%,磁盘使用70%/85%。
示例4:巡检数据样例表如下(单位:时间/带宽/人数/MTTR)。
| 时间 | 事件 | 峰值流量 | 处理方式 | MTTR |
| 2024-03-12 02:18 | DDoS | 320 Gbps | BGP导流+CDN清洗 | 1h10m |
| 2024-04-05 11:05 | 链路抖动 | - | 重启交换机端口,替换SFP | 35m |
| 2024-05-20 22:40 | 数据库IO高 | - | 磁盘检查+IO调优 | 50m |
来源:运维支持香港电讯pccw机房的巡检响应与故障处理流程详解