1) 统计并发连接与峰值带宽:用历史流量(NetFlow/日志)估算并发连接数和峰值吞吐,乘以冗余(1.3~1.5)。
2) 确定目标用户与目的地:若目标为中国大陆优先选择CN2 GIA/Gt线路;若全球用户优先香港国际多线。
3) 决定冗余与SLA:至少两条物理/运营商链路,BGP冗余,实现线路容灾与负载均衡。
1) CN2 GIA vs CN2 GT:GIA延迟更稳定,适合对时延敏感业务(游戏、VoIP);GT性价比高。
2) 在香港选择有直连CN2骨干的IDC/电信点(如Telehouse、Equinix HK):询问是否支持BGP直连、VLAN、MPLS。
3) 获取链路指标:承诺带宽、丢包率SLA、抖动、单向延迟样本。
1) 端口与VLAN配置:与ISP约定子接口(VLAN)和IP段,示例(Cisco)interface Gig0/1.100 encapsulation dot1q 100 ip address x.x.x.x/30。
2) MTU与分片:在两端统一MTU(建议1500或更高9000视链路),Linux调整 sysctl -w net.ipv4.ip_forward=1 和 ip link set dev eth0 mtu 1500。
3) 物理冗余:HSRP/VRRP用于默认网关冗余,BFD用于快速检测对端不可达。
1) 基本BGP(Cisco IOS)示例:router bgp 65001 neighbor 203.0.113.1 remote-as 4134 !(电信AS) network 198.51.100.0 mask 255.255.255.0。
2) 常用策略:使用prefix-list限制发布前缀、route-map设定local-pref用于出口优先选择;示例:ip prefix-list OUT seq 5 permit 198.51.100.0/24。
3) next-hop-self、community打标用于来自香港的流量回程优化。
1) 开启BBR拥塞控制:sysctl -w net.core.default_qdisc=fq sysctl -w net.ipv4.tcp_congestion_control=bbr(并重启内核模块或系统)。
2) 调整缓冲区:sysctl -w net.core.rmem_max=16777216 net.core.wmem_max=16777216 net.ipv4.tcp_rmem='4096 87380 16777216' net.ipv4.tcp_wmem='4096 65536 16777216'。
3) 长连接与Keepalive:根据应用调整 net.ipv4.tcp_keepalive_time/interval/probes。
1) 带宽测试(iperf3):在香港机房部署iperf3 server,海外客户端运行 iperf3 -c hk.server -P 10 -t 60,观察吞吐曲线。
2) 丢包与延迟(MTR):mtr -rwzbc 100 目标IP,并保存结果,比较不同时间段与不同线路。
3) 路径追踪(traceroute、tcptraceroute):识别中间丢包点与高延迟跳点。
1) 指标采集:部署Node Exporter(Prometheus)/Zabbix Agent采集主机与网络指标(CPU、网卡流量、丢包、接口错误)。
2) 黑盒探测:Prometheus Blackbox Exporter配置tcp_connect、icmp、http探针定时检测港口可用性与HTTPS握手时延。
3) 告警规则:设置延迟阈值(单向延迟>150ms或丢包>1%)并配置告警到运维群组与SMS/电话链路。
1) 部署NetFlow/sFlow采集器(nfdump/nfsen或sflow-rt),分析流量去向,识别大流、P2P或异常流量。
2) 基于流量制定策略路由:对关键目的地(中国特定ASN)设定BGP local-pref或PBR导向CN2链路。
3) 定期回测:在更改路由策略后用iperf3/mtr验证改动效果。
1) 建立SOP:包括故障确认(MTR/iperf/NetFlow)、临时绕路、联系ISP单点。
2) 使用BFD与快切策略:配置BFD会话,故障时BGP快速撤销并切换到备线。
3) 定期演练:每月做一次链路切换演练并记录时间与问题点。
问:怎样用实测方法判断CN2线路质量优于普通线路?
答:并行部署两条链路,一条走CN2一条走普通供应商,分别对同一目标做mtr(100次)、iperf3并发测试(-P 10),比对平均时延、抖动、丢包率及吞吐,CN2通常在时延与丢包上更优。
问:BGP配置如何防止因多条出口引起的路由抖动?
答:使用prefix-list限制前缀发布、设置合理的route-map和BGP属性(local-pref用于优先出口、MED与AS-path用于回程控制),启用BGP dampening谨慎使用,并通过BFD检测快速失效后再做人工或自动策略切换。
问:监控延迟/丢包告警应设置哪些阈值才合理?
答:建议分级阈值:信息级(丢包>0.5% 或 RTT增长>30%)、警告级(丢包>1% 或单向RTT>150ms)、严重级(丢包>3%或持续RTT>250ms超过5分钟)。结合业务影响调整并配置自动化通知与根因定位流程。