早上刚到公司,刚开始刷头条,一个客户的电话来了。
客户:我们的网络有问题,出口路由器间歇访问,上外网不受影响,可以帮助远程查看吗?
我:好吧,给远程
故障现象:电脑ping出口路由器时,时断时续,SSH路由器无法连接。
截图如下:
故障现象截图
客户存档核心区域拓扑图如下:
客户核心区网络拓扑
排查过程:
1.根据故障现象和以往的工作经验,首先怀疑网络中可能存在环路。一个典型的环路现象是导致访问核心交换机或其他设备ping包会有大延迟或连续丢包。
核心交换机调查:
查看核心交换机的日志信息,发现网络环境中确实存在环路。通过日志提示,循序渐进的调查解决了环路的影响。但解决后,问题依然存在。问题是由其他原因引起的,位。
问题不在核心交换机上,而是利用网络中常用的逐级排查思路进行持续定位。
2、出口路由器调查:
由于是ping路由器内网口地址异常,需要确认,出现异常时,ping包是否到达路由器内网口。
因为不能通过SSH通过访问路由器,选择通过console口登录设备。登录路由器后,先看设备的日志是否有异常(通常网络异常时,日志会有更直观的提示)。经查询,路由器日志无异常。查看设备的流程信息,找到用户ping包可以正常到达路由器内网,路由器可以正常回复。至此,排除路由器问题。
注:流表是某厂家路由器的独特功能,详细功能不赘述。
3、防火墙排查:
3.1.首先检查防火墙的安全策略,确认是否有安全策略影响ping包数据转发。确认所有策略都不影响数据转发。
3.2、利用wireshark抓包工具,通过分析防火墙设备的上下联口,发现ping包的转发没有异常,消除了防火墙的问题。如下图所示:
防火墙抓包页面
防火墙上的接口ping包分析页面
防火墙下接口ping包分析页面
4、核心交换机抓包分析
由于上联路由器和防火墙设备无异常,然后继续检查核心是否正常收到ping包的回包。核心交换机上联口抓包后,确认核心交换机只发包,不回包。抓包结果如下图所示,ping包提示未回复报文:
核心交换机上联口抓包结果
5、重新梳理现场拓扑
到目前为止,这很奇怪。根据存档拓扑图,防火墙与核心交换机通过光纤跳线连接。抓包结果如下图所示,ping包提示未回复报文:
核心交换机上联口抓包结果
5、
重新梳理现场拓扑
到目前为止,这很奇怪。根据存档拓扑图,防火墙与核心交换机通过光纤跳线连接。光纤跳线丢弃了数据吗?但只是丢弃了一些数据,链路故障,应该全部丢弃。与客户的运维工程师沟通后,发现客户最近在测量某厂家WAF,位于核心交换机和防火墙之间。这里的基本判断是因为制造商WAF导致数据丢弃的策略。指导运维工程师跳过WAF后,ping包正常。
现场实际拓扑结构增加了测试WAF及WAF的对应位置