网络工程师故障诊断时最常犯的 10 个错误

排除网络和应用问题时有几个容易落入的陷阱。
本白皮书说明了其中 10 项以及如何避免。

  • 目录
  • 做假设
  • 重启
  • 升级
  • 验证
  • 没有基准
  • 无线挑战
  • 监控
  • 理解核心技术
  • 笔记本限制
  • 结论
 

100% 运行时间?检查。

10Gbps 到桌面?到达那里。

没有问题的网络和应用?哈!在我们的梦里。

除非我们实现完美的网络(实话说,这是不可能的),否则工程师支持的网络系统和应用就会出现问题。无论这个问题是性能慢、语音/视频质量差、连接断开、还是其他影响当前网络的事件,工程师都需要不断磨练他们的故障排除技能才能凌驾于这些影响业务效率的因素之上。此外,他们需要避免许多网络工程师在诊断问题时很可能遇到的陷阱。

我们来看几个例子。

1.假设问题的根本原因。

我们要敢于面对:人类喜欢根据自己的认知做假设。遇到问题时,我们很容易跳到结论,特别是当我们在特定的网络环境中有丰富经验时。但是,做假设很可能是个大错误。它们会导致无意义的网络更改、成本高昂的升级、以及无根据的“改进”- 仅仅因为我们在祈祷问题消失。无论如何都要避免这种错误。因此,在做这些下意识的决定前,我们应该先收集关于问题的资料。做出更改之前要完全了解问题中的主体、原因、地点、内容及方式。每次做决定都要有事实依据。

 

2.“这种修复办法以前管用,我们再试试吧”故障诊断

和第一类错误相似,对网络问题的这种常见反应也是根据假设做出的。我们都是自身经验的受害者,因为我们倾向于依赖上次成功的知识,认为同样的事情会再次发生。在许多情况下,新问题会和之前的问题有一样的症状,但根本原因完全不同。

在改变任何东西之前,一定要将问题域隔离到网络、服务器、应用或客户端上。尝试根据猜测更改的方法之前,一定要明确是哪个组件出了问题。在开始使用解决方案之前,使用利用 SNMP、NetFlow 和数据包捕获的工具清晰地将问题隔离到某一层。

3.通过重启解决问题

从家庭路由器到 10G 交换机,几乎所有电子设备都会不时需要重启。现在的设备就是这样运行的。因此,在部分 IT 环境中,重启设备已成为故障排除第一步的标准。如果设备或服务器重启的方法在以前成功过,就更是如此了。

如果重启设备解决了问题,修复可能只是暂时的,不久就会需要再次重启。当前,软件升级、补丁或配置发生变化后可能需要重启。但是,作为网络问题的初步反应,不断重启设备只会掩盖真正的根本原因。在重启设备之前,请先尽量多地收集信息。例如,接入点对当前用户是否仍有反应?服务器是否接受新 TCP 连接?交换机 CPU 利用率是否在 100%?这些信息可能引导工程师找到真正的根本原因,而不是临时修复。

 

4.通过升级解决问题

从 1Gbps 升级到 10Gbps 应该提高 10 倍的速度,对吗?

不。

很少是这种情况。很多情况下,遇到网络问题时 - 特别是与速度慢相关的问题 - 网络工程师都会尝试提高 WAN 带宽、升级交换机或路由器,或实施加速技术。大家都知道,这些“修复”都不是免费的。事实上,将升级作为对问题的初步反应会耗尽预算、让管理员受挫、降低业务生产力,最坏的情况下会让网络工程师丢失工作(呀!)。

在实施新技术或升级系统/设备/连接之前,有几个重要的问题需要回答:我们为什么相信这种设备/技术改进可以解决问题?原始问题是什么?问题根源真是的网络容量或延迟?

虽然有新的网络设备是好事,但如果昂贵的解决方案没有解决问题,经理的脸色可能就不那么好看了。我们肯定会不时地升级关键系统,但是把升级设备作为故障排除的手段时要注意。


 

5.未验证便向用户交付新连接

我们都在不断地做这样的事情。拆箱并配置新交换机,安装,接入上行链路,连接终端用户接口,然后看着灯一闪一闪。

完成了,对吗?

不。终端用户连接并工作时影响用户性能体验的因素有很多。链路协商、线路问题、接口硬件问题和其他吞吐量杀手都会影响连接。

正式将链路交给终端用户之前,应该对其进行测试和验证。这包括测量各连接到核心/数据中心的延迟和吞吐量。我们曾经提到过,大部分工程师都会连接一个链路,观察链路灯,发送一个 ping,然后认为链路已经测试。但是前面描述的所有问题都能通过这个测试。只有全面的性能测试才能验证连接并在用户遇到问题之前使其显现出来。

 

6.未在网络正常运行时建立基准

诊断问题时,工程师经常使用监控工具帮助他们收集和解释关于网络的信息。即使这些工具可以显示大量统计数据,但如果没有一个“正常”的基准,很容易在给出了大量详细信息时让人产生困惑。

在发生问题之前,应该努力为网络建立基准。这包括收集关键链路的流量利用率和延迟统计、关键业务应用的响应时间测量、包括对话和协议的数据包捕获样本,以及全面的无线评估。出现问题时这些报告可以帮助网络工程师解决问题,因为他们将知道何为“正常”状态。


 

7.缺少无线工具和经验

无线真的是个大麻烦,特别是越来越多的终端用户丢弃有线并转向 100% Wi-Fi。在此趋势下,加上这些设备需要的语音和视频应用,大幅提高了无线环境的范围和复杂性。即使由经验丰富的射频专家实施和维护这些系统,客户仍然会遇到性能差、网络断开连接以及其他让人沮丧的问题。

因为无线环境很容易受到性能问题的干扰,所以出现新问题时通常会首先归咎于它。许多网络工程师责备 Wi-Fi 只是因为它是网络中没有被充分理解的一个领域,或者缺乏分析工具。与其在网络中有一个巨大的网络盲点,网络管理员更应该在工具和培训上投资,让工程师跟上无线的步伐,从而更好地解决这个领域的问题。

 

8.未对网络提供足够监控

工程师面临的这些问题复杂,有间歇性,并且隐藏在系统的阴影之中。在过去,监控网络只需要使用一个上/下 ping 工具。这已经发生了很大的变化。

解决现在的问题需要监控同时感知网络和应用的系统,利用 SNMP、NetFlow 以及数据包捕捉了解一切信息。这些系统需要监控应用 24/7/365 保证实时捕捉间歇性问题,而不能发生监控系统对事件视而不见的情况。

 

9.误解核心技术的运作方式

生成树、ARP、自动协商、ICMP 重定向和 IP 分片有什么共同的地方?

它们存在时间较长(各有 20+ 年)并且绝对是网络运行的关键。好吧,或许 IP 分片并不总是这样,但还是值得一提的。网络工程师需要理解他们一流的系统建立在哪些核心技术上。为下一个供应商认证考试做准备时,不要忽略今年和以后仍然有用的那些协议和技术。


 

10.使用笔记本硬件捕获数据包

调查问题时,数据包捕捉和跟踪文件解释是深入分析详情的黄金标准。与仅仅责备网络并把问题抛给他人相比,这种分析方法才是查找问题的根本原因的关键。

对于数据包捕捉,网络工程师常犯的一个问题就是误解捕捉时使用的硬件的限制。以 Wireshark 为例,这一开源工具被世界各地的工程师了解和喜爱,是下载最多的网络工具。但是,大部分人在笔记本或未测试的硬件上使用此工具时,无法跟上高速流量。实际上,速度超过 100Mbps 后,大部分标准笔记本就难以流畅地进行捕捉了!

在数据中心环境中收集数据包之前先了解收集时使用的硬件的限制。丢失跟踪文件中的数据包很容易让工程师困惑不已,增加解决烦人问题所需的时间。

 

结论

这不是一个详尽的列表 - 还有其他各种经验水平的工程师可能会遇见的陷阱。但只要有一点准备并了解一些常见问题,工程师便可以减少解决问题所需的时间、避免沮丧、降低成本或不必要的费用,以及避免诊断网络问题时的棘手问题。

 
 
Powered By OneLink