白皮书
|白皮书|

4 步改善网络性能

简介
IT 网络是多数企业的心脏,能够支持关键业务的应用程序,提供制定业务决策所需的数据并协助与客户、合作伙伴、供应商和同事进行通讯。与以前相比,它现在更是企业的战略资产,网络或应用程序的任何停工或降级会直接影响组织的底线。有关提供与业务一致的服务水平方面,挑战具有两面性:主动改善和优化性能以确保网络能够交付用户所需的服务,并尽快解决产生的任何问题来使停机时间最小化。此白皮书着眼于解决网络和应用程序问题的方法学并概括更快找到根本原因的新方法。

简介

在现今的企业网络中,了解网络和应用程序问题的根本原因变得越来越困难。虚拟化已经从数据中心扩展到桌面,云服务越来越受欢迎,而 BYOD(自带设备)已经根深蒂固,反映了工作模式的变化和文化的改变。

Wi-Fi 设备增多、未授权应用过度使用带宽、配置错误、应用交付基础设施差或许多其他源都可能造成问题。越来越多的语音和视频增加了复杂性,将带宽推至极限。

因为各个团体都报告绿色 KPI,所以难以确定是谁的责任,使得性能问题更难以解决、更加费时。


解决网络性能问题的流程


解决网络性能问题的根本原因要遵循四步骤的故障诊断流程:

图 1:问题解决流程。



有助于解决问题的工具分为两类:网络管理系统 (NMS) 和数据包采集和分析工具。

NMS 主要在监控/警报阶段发挥作用,监控公司的路由器和服务器,查询它们运行和反应是否正常。但是,部分 NMS 设置过于复杂,以致它们只能管理 3 层设备,所以 2 层的交换机不会受到监控。轮询数据是若干分钟的聚合,所以很多东西被消除,隐藏了使用尖峰的影响。另外,因为 NMS 位于中央位置,为了了解终端用户响应时间做的测量是不准确的,这是因为测试目标设备时使用的是不同的网络。

随着网络工程师在故障排除流程中的进展,NMS 的用途会降低,而且它无法提供充分调查性能问题所需的详细信息。


NETSCOUT® 最近对约 3,000 位网络专业人员的调查显示,82% 的受访者认为网络和应用程序性能问题是一个问题或关键问题,其中 52% 的受访者认为多数或全部时间网络管理系统的功能不够,不能满足查找根本原因的需要。51% 的受访者说他们有时候或大部分时间需要离开办公室才能诊断问题。

为了获得更详细的论处,工程师必须借助免费软件或商用数据包采集和分析工具。这些在警报阶段的用途有限,因为它们只能查看网络中的一点,但却在根本原因分析阶段得到了自己的结论。数据包分析工具的复杂性使其需要熟练且有经验的工程师,而且这些工具的使用非常费时间,因为结果可能含有大量数据 – 需要通过不同的用户界面查看数百万数据库。这使得故障排除流程更加困难和费时。


问题可能藏在网络中的哪里


这些工具 – 没有全面的信息和复杂数据包采集工具的 NMS – 之间的空白增加了 MTTR。麻烦、间歇性问题会“隐藏”在网络中,降低 IT 部门的生产力和可信度。

为了快速调查和解决性能问题,工程师需要网络有端对端的透明度:自动化网络和应用分析的专用解决方案填补传统 NMS 和数据包采集之间的空白。

需要满足的需求:
  • 不受管理的设备,这些因为便宜购买的设备,因为无法了解各个网络区段的健康情况,无法监控使用水平,所以出现问题时会更加难以诊断。与此相比,使用受管理的交换机时,网络工程师可以查看任意交换机端口并了解错误情况,查看利用率以及谁连接到了这个端口。
  • 未文档化的网络,这是一个持久性的问题,网络上的频繁变化会使所有文件在完成后很快变得过期。使用物理方式跟踪路径会花费很长的时间,但如果没有准确的文档,工程师就无法知道数据库流向哪里。我们需要的是发现网络上的实时路径的手段。
  • 数据过多,而问题可能就隐藏在几个数据中。如果通过自动筛选数据包查找有问题的包 – 从上而下以应用为中心的分析方式 - 解决问题的速度会快很多。
  • 历史问题,问题发生几小时后才会引起工程师的注意。需要的是能够采集和分析很长时间的大量粒度化数据,例如 24 小时,从而确定间歇性问题。
  • 未被监控的新技术,例如 10Gb 以太网或 802.11n Wi-Fi。许多企业未投资此类技术设备,因为他们认为容量的大幅增长可以解决所有问题。
  • 无线设备 – 工程师需要一种方式来识别和监控 Wi-Fi 设备,包括 BYOD,以及利用频谱分析识别 Wi-Fi 和蓝牙设备、无绳电话、微波炉等的非 Wi-Fi 干扰。
  • 网络外部的问题,这样工程师可以识别它们并将性能问题和证据交给其他 IT 团队或外部服务提供商,并有足够的信息做进一步的调查和快速解决问题。

解决问题的新方式

需要的是一个整体化的网络和应用性能解决方案,它能采集网络中的所有数据,提供智能分析,使工程师快速隔离根本原因,或确定实际问题是否在网络外部。它需要收集、汇聚、关联和调解所有信息,包括流动、SNMP 数据和从其他设备收集的信息,粒度要高达一毫秒。要使用一个用户可配置的仪表板显示数据,这样可通过引导式工作流程快速隔离问题的根本原因。因为不需要做假设,而且用户使用逻辑流程识别和解决问题,所以 MTTR 降低,网络工程师变得更有效。

网络和应用性能解决方案促进了故障排除流程的各个阶段,提供了网络优化所需的可见性。


步骤一:监控/警报

解决网络问题的第一个要求是提供一个发生问题时能及时提供警报的系统。最差的情况是通过用户的电话发现问题,这时工程师已经处于守势。许多网络管理工具需要手动为各个网络设置警报,即设置系统 ping 或发现各个广播域中的所有设备。但是如果使用随时在线的网络和应用性能解决方案,自动发现和引导式工作流程可以快速并轻松地即时查看已连接的设备。这可大幅减少设置和监控所需的时间。

持续收集性能数据并保存在数据库中,然后通过性能仪表板上的图形用户界面显示,而用户可根据自己的需要配置这个界面。根据用户定义的基准(例如 SLA)监控性能,发现超限便立即显示为警报。然后用户在调查阶段可按各种细节程度分析问题。

网络和应用性能系统也可与现有网络管理系统集成,例如 HP OpenView 或 Tivoli Netcool,然后将信息和警报传递给服务管理和工作仪表板解决方案。


步骤二:调查

网络工程师现在需要调查问题的范围。为了能够快速且准确地进行调查,解决方案要能收集和保存所有相关数据,例如 SNMP、流量、数据包、终端用户响应时间等,并保存以备未来分析使用。网络和应用性能解决方案也能提供发现从客户端到服务或应用的路径的实时方法,大幅降低所需时间;然后可找到两个设备间的路径并监控路径上的内部和外部网络以及设备上的任何问题。结果以图形的方式显示以方便理解和快速分析根本原因。

为了实现最佳效果,系统应同时提供 1Gbps 和 10Gbps 的接口,并能以线路速度采集线上的数据。部分解决方案可以跟踪网络上客户端到服务器的路径以识别路径上的 2 层和 3 层设备并提供识别问题源所需的粒度。

如果问题出在一个或一组客户端上,则工程师需要执行性能或应用响应测试以识别问题是有线还是无线网络问题。通过在同一用户界面上集成有线和无线工具,网络和应用系统只需一次测试即可了解问题的根源。

这个流程还可以发现恶意软件暴发,包括起源 IP 地址,使工程师能够发现其他工具无法发现的停机的根本原因。


步骤三:隔离

在这个阶段问题已经隔离到了单个网段、交换机、路由器、服务器或应用,且已识别路径以及路径中的设备的端口。现在需要分析路径,需要对各个链路做流量统计以确定问题原因是设备故障、链路媒体、噪音或干扰,还是済过载。

SNMP(简单网络管理协议)的优势之一就是它能帮助隔离故障域。使用 SNMP 查询路径上的连接点可以判断造成停机的原因是不是流量瓶颈。如果路径中的设备是受管理的且工程师有询问设备所需的密码或社区字符串,这就很简单了。否则,他或她需要在不中断网络的情况下连接各个链路中的一个工具以查看数据包和流量统计。如果问题涉及很大的地理区域上的很多链路,这会非常费时间,而且可能需要在不同位置准备多个工具。

使用网络和应用性能工具实现自动化的网络基础设施健康检查可以监控 SNMP 支持的所有设备,通过在路由器上查询 SNMP MIB 查找显示数据包丢失或高利用率的应用流并定期报告。无论网络上的交换机是几十个还是几千个,这个流程都简单快速。

有些问题在问题发生时才能看到。这需要有正确的测试功能的便携设备和在问题点连接的正确接口,无论是在客户端前还是在数据中心的 10G 链路中。有很多人在远程工作的时候,有一个可以提供这种可见性的工具很关键 – 而且这只会随着 BYOD 的增长变得越来越重要。

也可将便携工具带到远程站点检查网络中不受管理设备发生的问题而无需工程师的陪伴。理想情况下它应能执行路径分析、测量应用基础设施健康和应用流并分析 WLAN 性能,以及检查漫游和重试功能和调查外部设备的干扰。

如果没有订阅过多或有帧错误的链路,则问题可能不在网络上 – 但只有网络工程师使用合理的时间分析链路之后问题仍然存在时才能确认。这需要网络和应用性能系统采集的历史数据。


步骤四:根本原因分析和问题解决

在这个阶段,工程师将确认问题的原因,制定并实施修复措施并验证解决方案。如果问题不在网络中,也不是服务器响应或资源过载的结果,则需要采集并分析数据包了解更详细的信息。一定要先隔离链路或确定问题出在服务器、网络还是应用上,因为数据包分析非常费时且需要大量的技能和经验。

要更快地了解根本原因,最好是采取从上向下的分析措施,从应用程序级别开始。例如,如果路径正常但响应时间差,问题可能是虚拟服务器、运行在多个层上的应用或应用中的漏洞。

一种选择是使用可以方便地显示应用级和数据包阶梯图的数据包分析仪。Span 或镜像 Tap 连接配置简单,但流量负载高时可能丢失数据包也不会显示 1 层错误,因为这些被提供 Span 的 2 层交换机屏蔽了。被动 Tap 是最好的,但连接它们会断开连接,从而中断此链路提供的服务的用户。如果性能受影响,这通常不会造成问题,但可能影响使用此链路连接其他服务的用户。

一种更好的解决方案是使用服务器群、数据中心、路由器到外部链路前的战略位置上已经安置的 Tap 构建网络。这样无需中断网络即可采集数据。如果无法实现这种方式,则工程师可以使用扩展或端口映射,但要记住相关的问题和不准确的地方。

网络和应用性能解决方案可以提供自动化方法筛选采集的数据包以发现坏数据包。它使用以应用为中心的方式,有一个图形用户界面显示各个数据流并有一个显示问题的指示灯。工程师只需单击这里即可分析并查看到底是哪个或哪些数据包有问题。另外还可以在基础设施中的多个位置采集数据包以帮助判断问题在哪里。这需要能执行多段分析、同时在多个位置触发数据采集,然后合并结果以提供整个蓝图。

可在数据中心或远程站点执行有效的根本原因分析以了解问题与服务器还是应用有关。部分工具可从物理或虚拟服务器提取管理信息以显示性能和资源问题。

网络和应用性能系统通过收集和分析历史数据使工程师能够查看问题初次出现时的症状,从而识别并解决间歇性问题。


网络优化

网络应用和性能解决方案为工程师提供了记录和审查企业网络健康状况所需的可见性。它使他们能够发现性能差的地方,确定应用或服务器的哪里运行变慢,然后解决最慢和最重要的路径。收集的信息可用于优化项目,例如服务器升级和业务案例批准。它还可验证已完成的工作是否正常运行,确保不会对其他地方的性能产生负面影响,从而作为新设备和应用的安装证据。数据也可证明(或其他方式)变化对网络(如虚拟化、WAN 优化或数据中心整合)的影响。



关于 NETSCOUT

NETSCOUT SYSTEMS, INC.(纳斯达克交易代码:NTCT)是一家实时服务保障和网络安全解决方案的市场领军企业,主要为当今要求最为严苛的服务提供商、企业和政府网络提供服务。NETSCOUT 的自适应服务智能 (ASI) 技术不断监控服务交付环境来识别性能问题并洞察网络安全威胁,帮助团队快速解决可能导致业务中断或影响用户体验的问题。NETSCOUT 提供最佳的服务可视性并保护互联网络的基础设施。
 
 
Powered By OneLink