TechTarget数据中心>技术手册

数据中心故障排除技巧Top5

数据中心故障排除技巧Top5
免费下载 PDF

当数据中心出现问题时,从服务器到网络到存储都有可能成为罪魁祸首。当然,诊断方法也非常多:查看日志文件的变化,检查硬件损坏或诊断网络瓶颈问题。

知道IT基础设施的来龙去脉,梳理服务器和存储系统——无论是本地还是云端——可以帮你指出正确的方向。

本期技术手册分享五个数据中心故障排除技巧,帮助IT管理员识别并解决常见的问题。

目录:

  • >对服务器进行故障排除

    越来越多的业务需求给服务器增加了过大的压力。排除服务器故障的第一步是确定问题的普遍性。要做到这一点,可以从用户的投诉中找到共性,确定问题的严重程度。检查硬件和软件,与同事协作以筛选潜在的问题。 一个最简单但是最容易被忽略的办法是检查日志。查看微软Windows事件日志查看器或系统日志,确定服务器近期变化,有助于缩小问题范围。最后,可以需求供应商的帮助,通过更多的人发现问题。

  • >确定I/O进程上的CPU瓶颈

    在CPU性能受限制的大型机环境里,I/O进程会影响到工作负载。因为要与高优先级的工作负载,如在线交易等争夺资源,因此批处理过程最容易受到瓶颈限制。即使在其他I/O进程完成之后,级别上升的批处理作业也会损害性能。 然而,一些特别的进程与批处理一样都受到CPU瓶颈的影响。

  • >巧解数据中心网络性能瓶颈问题

    解决日益增加的网络流量问题,方法可不止一种,从快速廉价的修复战略,到高级战略投资与资本重组。例如改变数据流是低成本的快速解决网络瓶颈的方法之一。一个例子就是将流量从网络转储转移到服务器内部。

  • >找到杀死数据中心存储容量的真凶

    数据中心存储架构和控制器的异质性,是标准化基础设施实现支撑不同工作负载目的的一大障碍。 数据中心存储容量管理一直都依赖于某个相对不变的基本技术:传统机械硬盘。问题需要通过实现不同品牌的阵列和控制器协同工作来解决。

  • >考虑服务器和存储的位置

    一般来说,离存储器越近,服务器的运行速度就越快。如果要优化服务器和存储容量,这仅仅是个起点。和使用网络存储相比,使用机架内的本地存储可以消除跨数据中心的骨干网络流量压力。 在本地存储的设计方面存在不止一个正确答案。我们可以把存储驱动器安装在服务器内部(直连存储,称为DAS),但如果一个虚拟化的物理服务器出现故障,由于其它服务器无法访问存储在故障服务器内的数据,就会导致严重的业务和工作负载停顿事故。

更多技术手册>更多