1. 监测与初步识别
- 先判定异常指标:监控(Zabbix/Prometheus/Grafana)CPU、内存、网口流量、接口丢包和连接数是否瞬间飙升。
- 检查外部可视化:使用流量分析(sFlow/netflow)和路由状态(BGP looking glass、HKIX监控)确认是否来自单一ASN或多源分布式。
- 快速命令排查:在边界路由/防火墙上运行:ss -s / netstat -ant | head、tcpdump -n -i eth0 'tcp[tcpflags] & tcp-syn != 0' -c 1000,查看SYN泛滥或UDP洪泛。
2. 立即告警与通报流程
- 启动预定义的incident playbook,通知NOC/SEC/上游承载商及管理层(用群组短信、电话、PagerDuty)。
- 列出影响范围:列出受影响机柜、交换机、路由器和服务(web、DNS、邮件、数据库)。并在工单系统记录初始时间戳与报警截图。
- 设定临时通信渠道(VPN/隔离管理VLAN)以避免公共链路干扰。
3. 网络层快速缓解(边界与上游)
- 与上游ISP联络,请求临时流量清洗(scrubbing)、BGP Flowspec规则或黑洞(as last resort)。提供受攻击的目标IP/Prefix、攻击特征(协议/端口/流量模式)。
- 本地措施:对边界路由器下发acl限制、rate-limit、SYN cookies启用,或者将流量导到流量清洗器(Akamai/Cloudflare/本地ADC)。
- 若为DDoS且无法清洗,按业务优先级实施部分服务的流量切断或DNS指向备用机房。
4. 机房内快速隔离与主机层应对
- 在交换机上将受感染/异常流量来源的物理端口隔离(shutdown或move到隔离VLAN)。
- 对关键主机做快速快照/镜像(VMware snapshot、LVM snapshot、ZFS snapshot)并保留原始磁盘映像以便取证。不要在原盘上做写操作。
- 针对应用层异常,临时在负载均衡层启用连接限制、请求速率限制和WAF规则阻断攻击模式。
5. 启动容灾切换(DR)步骤
- 执行预案:根据RTO/RPO优先级,先切换DNS TTL低值记录,指向备用机房或云端灾备(提前准备好DNS failover记录与证书同步)。
- 数据层:如果使用主从复制(MySQL/MongoDB等),确认replica健康后提升只读副本为主库,或启用基于快照的恢复。校验数据完整性(校验和、行计数)。
- 业务验证:一台一台服务切换并运行健康检查(synthetic transaction),记录切换时间与影响。
6. 日志/证据保存与回溯(Forensics)
- 收集点:路由器/防火墙ACL、边界流量pcap(tcpdump -w)、IDS/IPS日志、主机系统日志(/var/log)、应用访问日志、数据库binlog。
- 保存原则:先采集易失性数据(内存镜像用ftpmemcapture/volatility),再采集磁盘镜像(dcfldd/ewfacquire),对每份映像做sha256哈希记录并写入证据链日志。
- 时间同步:将所有日志按UTC并校验NTP时间戳,避免时间偏移导致关联失败。
7. 详细回溯调查步骤
- 构建时间线:按照攻击的时间段,把网络流量、登录记录、异常进程、文件变更等事件关联,使用ELK/Splunk集中查询。
- 指纹与源识别:分析pcap找到攻击特征(SYN包大小、UDP payload特征),结合netflow确认源ASN与分布,查询whois/routeviews确认可阻断路径。
- 恶意代码取证:在隔离环境下对可疑二进制做静态与动态分析(strings, ltrace, strace, yara, sandbox),记录IOC并更新防护策略。
8. 恢复后检查与改进
- 回归测试:服务恢复后做压力测试(wrk/ab/jMeter)并观察系统在高并发下的表现,确认无功能回归。
- 编写事故报告:包含时间线、根因、恢复步骤、影响范围、损失估算、改进点与待做项(如更换设备、增设清洗通道、调整DNS策略)。
- 更新SOP与演练:将实际问题加入演练剧本,定期做故障演练并调整监控阈值与告警链路。
9. 常见问答:如何判断这是DDoS还是运营故障?
问:短时间内流量暴增但没有对应配置变更,怎么快速判断是DDoS?
答:看流量特征:大量来自分散ASN/地理位置、目标端口一致(如80/443/SYN或UDP),并伴随连接半开或高错误率,通常为DDoS;若只有内部链路拥塞且流量模式正常,可能是配置或后端故障。结合BGP流量镜像与上游反馈可以确认。
10. 常见问答:证据链如何保存才合法有效?
问:我如何保证采集的磁盘镜像能在后续法律/合规中使用?
答:使用只读设备或写阻断器导出镜像,记录采集时间、工具、操作人,生成并保存sha256/sha1哈希,保留采集日志与存取权限记录,尽量按机房与公司法律顾问建议保全链路。
11. 常见问答:香港机房特有注意事项是什么?
问:在
香港机房应急有无地方法规或运营侧差异需要注意?
答:注意数据保护与跨境传输合规、与香港本地网络提供商(HKIX、本地ISP)沟通渠道,提前确认清洗服务与法务协助电话;同时考虑低延迟备份点(邻近亚洲节点)以满足RTO要求。
来源:如何快速识别香港机房遭受大攻击并启动容灾与回溯调查