1) 明确故障范围:确认是单节点问题、机房链路问题还是运营商回程问题;
2) 工具准备:准备 ping、mtr、iperf3、tcpdump、ss、netstat、ethtool、dstat 等;
3) 登录与权限:确保可切换到 root,保存当前配置快照与日志备份;
4) 数据采集窗口:选择低峰与高峰时间段,分别采集 5-10 分钟的样本;
5) 指标定义:延迟(ms)、抖动、丢包率(%)、带宽(Mbps)、连接数与 CPU/内存占用;
6) 备份与回滚:记录原 sysctl 与网络配置,便于回滚以防次优调整造成二次故障。
1) 基线测试:使用 ping -c 60 -i 0.2 测试典型目标(中国内地出口与外网),统计平均/最大延迟与丢包;
2) 路径排查:用 mtr -r -c 100 目标IP,观察丢包集中在哪一跳(机房侧或骨干侧);
3) 带宽测试:运行 iperf3 -c server -P8 -t60,记录吞吐(如:上游 480Mbps,下游 500Mbps);
4) 抓包分析:tcpdump -i eth0 -s 0 -w cap.pcap,分析 SYN/ACK 丢失、重复 ACK 或 MTU 片段;
5) 端口检查:用 ss -tan | wc -l 查看连接数,排查是否到达系统 conntrack 或 fd 限制;
6) 实时监控:部署 Netdata 或 Prometheus 收集延迟、丢包、带宽与队列长度数据以便对比。
1) 验证路由:检查 ip route 和 ip -6 route,确认默认路由和多链路策略是否指向 CN2 专线;
2) BGP 信息:若有 BGP,可查看 routing table、AS path,确认是否存在回程劣化或策略变更;
3) MTU 检测:使用 ping -M do -s 1472 测试,确认不发生分片,建议 MTU 1500/9000 对应设置;
4) 互联商切换:在多链路时,使用 ip rule 与 ip route 做流量打标,验证切换时延与会话保持;
5) 路由黑洞与策略:检查防火墙/路由策略是否误丢包或限速,比如策略路由下的 policer 限制;
6) AS 路径收敛:遇到抖动时检查是否是外部 BGP 收敛问题,并与带宽提供商沟通确认。
1) TCP 参数:推荐设置 net.core.rmem_max=268435456、net.core.wmem_max=268435456、net.ipv4.tcp_rmem=4096 87380 268435456;
2) 并发/连接:调整 net.netfilter.nf_conntrack_max=2000000、fs.file-max=3000000,避免 conntrack/文件描述符瓶颈;
3) 拥塞控制:启用 BBR:net.ipv4.tcp_congestion_control=bbr,查看 tcp_available_congestion_control;
4) TIME_WAIT 回收:net.ipv4.tcp_tw_reuse=1、net.ipv4.tcp_fin_timeout=30,缩短 TIME_WAIT 占用;
5) 中断与网卡:使用 ethtool -K eth0 tso off gso off gro off(在特定场景可能关闭),并做 irqbalance 调整;
6) 磁盘与 IO:NVMe 的调度器设为 noop 或 mq-deadline,确保高并发下磁盘 IO 不拖慢网络响应。
1) 应用连接池:Web 服务调整 keepalive 超时与 max_clients,示例 nginx keepalive_timeout 65;
2) 缓存与压缩:启用静态资源 CDN、gzip、brotli,减小带宽占用与加速回源;
3) CDN 分流:将静态资源与重流量点放到离用户更近的节点,减少 CN2 专线压力;
4) DDoS 防护:在边缘启用黑洞/清洗策略,使用云端清洗与本地 ACL 结合;
5) 防爆发连接策略:配合 fail2ban、rate-limit 与 SYN cookies 防止半连接洪泛;
6) 监控告警:设置阈值告警(如丢包>2%、延迟>80ms、流量突增>200%)并自动触发清洗或切换。
1) 案例背景:客户 HK-CN2 500Mbps 专线,用户投诉到内地访问延迟高且偶发丢包;
2) 初始观测:ping 平均 45ms、抖动 12ms、丢包 3%(高峰期);iperf3 测试稳定吞吐 460Mbps;
3) 调整项:调整 sysctl(见第4段)、修正 MTU 从 9000 改为 1500 并修补路由策略;
4) 优化后:延迟降为 平均 18ms、抖动 3ms、丢包降至 0.2%,iperf3 吞吐维持 480Mbps;
5) 结论:主要问题为回程链路不稳与 MTU 不一致,且部分丢包来源于机房防火墙限速策略;
6) 配置示例:服务器配置:Intel Xeon E5-2630 v4 x8 核,RAM 64GB,NVMe 1TB,带宽 500Mbps CN2;见下表。
| 项 | 优化前 | 优化后 |
|---|---|---|
| 平均延迟 | 45 ms | 18 ms |
| 丢包率 | 3.0 % | 0.2 % |
| iperf3 吞吐 | 460 Mbps | 480 Mbps |
| 服务器配置 | Intel Xeon E5-2630 v4 8c/16t, 64GB RAM, NVMe 1TB, CN2 500Mbps | |
1) 建议建立标准化故障单流程,包含 baseline 数据采集与对比模板;
2) 定期与 CN2 供应商沟通链路质量,保留 MTR/pcap 证据便于回溯;
3) 对外提供 SLA 报表,监控延迟、丢包与可用性,并做容量预估;
4) 多层防护:边缘 CDN + 机房清洗 + 本地限流三层结合,既减轻回源又防止放大攻击;
5) 自动化运维:脚本化 sysctl、网络调优与告警响应,降低人工误操作概率;
6) 持续复盘:每次事件后记录故障根因、修复步骤与时间点,形成知识库便于团队共享。