AI入驻数据中心:你的企业预留好位置了吗?

日期:2017-6-12作者:Erica Mixon

【TechTarget中国原创】

对AI应用程序来说,时机已经成熟。但在企业数据中心实施人工智能时会对网络、存储和计算基础设施造成障碍。

尽管人工智能的概念自50年代以来一直存在,但它在IT领域的主流应用程序刚刚开始出现。根据Gartner的研究,到2021年,深度学习和人工智能等工作量将成为数据中心设计和架构的重要因素。

AI应用程序将影响每一个垂直行业和工业领域,因此采取积极的措施来规划、构建和培育数据中心的深度学习(deep learning)和人工智能实践非常重要。

大多数组织还没有实施AI。在大多数情况下,超大规模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而绝大多数终端用户都在起步阶段就举步维艰。

Gartner研究总监Chirag Dekate表示:“由于这是个持续变化的目标,很难初始化开发AI和深度学习环境的实践。这个想法是惊人的,但是当您着手开发和设计解决方案时,您就开始遇到问题了,而且这是很多最终用户当前所处的位置。”

来自存储的挑战

深度学习和AI应用程序需要大量的数据来训练、测试和验证神经网络算法,这可能为数据中心管理员带来存储挑战。

Dekate表示:“如果您的机器学习算法基于回归,您可以使用有限的数据集,但是对于更先进的高价值神经网络生态系统,您会逐渐遇到规模问题。传统的网络连接存储架构可以交付即时的结果,方便部署和开箱即用的效率,但它们也会在I/O扩展和延迟方面显示出问题。

部分初创公司正在尝试高带宽并行文件系统,以增加吞吐量并实现规模化,但这些还都只能算是外围方法,Dekate表示。

并行文件系统涉及从元数据服务器到存储目标的许多移动部件,必须进行优化、调整和调试以最高效率运行。他说:“它们[并行文件系统]是非常复杂的,需要经历严苛的考验。”

然而,大数据分析——另一项需要大量数据的计划——已经为许多IT组织提供了一个平台,能够重新调整存储策略。

供职于451 Research的研究经理Christian Perry表示:“当AI成为企业可部署的现实时,从存储的角度来看,由于大数据和分析的原因,容量方面已经解决了。物联网也被寄予期望在特定组织驱动大规模应用的规划,我认为基础设施已经具有处理大型存储需求的能力。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

信息系统管理>更多

相关推荐

技术手册>更多

  • 数据中心服务器管理教程

    如果说数据中心是企业IT架构的核心,服务器则是其“力量的源泉”。服务器的计算能力很大程度上决定了数据中心的处理能力,服务器的运行状况决定着数据中心的运行,服务器的能效对数据中心能耗亦有深远的影响。当前,在企业数据中心中,X86服务器是最为常见的服务器架构,那么如何为数据中心选择最好的X86服务器?在数据中心能耗危机日益严峻的今天,数据中心管理人员如何做好服务器能效优化?在服务器管理方便,如何选择管理工具,是选择硬件厂商提供的配套产品,还是选择来自第三方的软件?本教程将对这些问题进行解答。

  • 数据中心虚拟服务器备份指南

    数据中心保存着企业大量的关键数据,当数据遭到破坏时,对于数据中心而言无疑是一场灾难。这时,数据中心定期备份的价值就凸显出来了。如果你从来没有因为发生灾难而使用备份,是你运气好。但是,由于灾难的袭击是没有时间表的,当灾难来袭的时候,最新的备份是成功的进行灾难恢复的关键要素之一。如今,不断增长的数据量,越来越大的服务器计算资源、存储和网络需求,使得备份策略变得越来越复杂,以前创建的备份策略可能已经不能满足当今的需要,组织是时候考虑重新制定或修改备份策略了。此外,与传统物理环境相比,虚拟服务器的备份显然要更为复杂,本技术指南介绍数据中心虚拟服务器备份的相关技术。

  • 数据中心制冷与UPS供电

    数据中心制冷的重要性不用多说,因为它已经与机房内关键设备的生命相挂钩,而UPS是数据中心电源的最佳警卫,保证数据中心在发生电源意外事故的时候,能够发挥其效用,采用备用电源让数据中心持续运转。本手册聚焦于数据中心UPS和制冷的各项技巧,教你如何双管齐下,分别解决好两大基础设施的问题。

  • Webmin系统管理工具安装及使用教程

    Webmin是目前功能最强大的基于Web的Unix系统管理工具。管理员通过浏览器访问Webmin的各种管理功能并完成相应的管理动作。目前Webmin支持绝大多数的Unix系统,这些系统除了各种版本的linux以外还包括:AIX、HPUX、Solaris、Unixware、Irix和FreeBSD等。Webmin让您能够在远程使用支持HTTPS (SSL 上的 HTTP)协议的 Web 浏览器通过 Web 界面管理您的主机。这在保证了安全性的前提下提供了简单深入的远程管理。因为所有主流平台都有满足甚至超出上述需求的 Web 浏览器。而且,Webmin有其自己的“Web 服务器”,因此不需要运行第三方软件。

TechTarget

最新资源
  • 安全
  • 存储
  • 虚拟化
  • 网络
  • 服务器
  • 云计算
【TechTarget中国原创】

对AI应用程序来说,时机已经成熟。但在企业数据中心实施人工智能时会对网络、存储和计算基础设施造成障碍。

尽管人工智能的概念自50年代以来一直存在,但它在IT领域的主流应用程序刚刚开始出现。根据Gartner的研究,到2021年,深度学习和人工智能等工作量将成为数据中心设计和架构的重要因素。

AI应用程序将影响每一个垂直行业和工业领域,因此采取积极的措施来规划、构建和培育数据中心的深度学习(deep learning)和人工智能实践非常重要。

大多数组织还没有实施AI。在大多数情况下,超大规模公共云提供商(如Google和Amazon Web Services)都是早期采用者,而绝大多数终端用户都在起步阶段就举步维艰。

Gartner研究总监Chirag Dekate表示:“由于这是个持续变化的目标,很难初始化开发AI和深度学习环境的实践。这个想法是惊人的,但是当您着手开发和设计解决方案时,您就开始遇到问题了,而且这是很多最终用户当前所处的位置。”

来自存储的挑战

深度学习和AI应用程序需要大量的数据来训练、测试和验证神经网络算法,这可能为数据中心管理员带来存储挑战。

Dekate表示:“如果您的机器学习算法基于回归,您可以使用有限的数据集,但是对于更先进的高价值神经网络生态系统,您会逐渐遇到规模问题。传统的网络连接存储架构可以交付即时的结果,方便部署和开箱即用的效率,但它们也会在I/O扩展和延迟方面显示出问题。

部分初创公司正在尝试高带宽并行文件系统,以增加吞吐量并实现规模化,但这些还都只能算是外围方法,Dekate表示。

并行文件系统涉及从元数据服务器到存储目标的许多移动部件,必须进行优化、调整和调试以最高效率运行。他说:“它们[并行文件系统]是非常复杂的,需要经历严苛的考验。”

然而,大数据分析——另一项需要大量数据的计划——已经为许多IT组织提供了一个平台,能够重新调整存储策略。

供职于451 Research的研究经理Christian Perry表示:“当AI成为企业可部署的现实时,从存储的角度来看,由于大数据和分析的原因,容量方面已经解决了。物联网也被寄予期望在特定组织驱动大规模应用的规划,我认为基础设施已经具有处理大型存储需求的能力。”

来自网络的挑战

深度学习框架的有限性产生了规模方面的挑战——对于可扩展性的网络架构,性能明显超出单一计算节点。为了规模化以提供更高的效率,管理员必须升级和改进他们的网络,但大多数人还没有将此举当做他们的首要任务。

Dekate说:“如果您仔细观察深度学习算法,会发现它们的沟通密集度非常之高。尝试为这样一个聊天应用程序堆栈构建解决方案对于组织如何着手开始将是非常困难的。”

随着数据中心网络架构师为AI准备其基础架构,他们必须优先考虑可扩展性,这将需要高带宽、低延迟的网络和像InfiniBand或Omni-Path这样的创新型架构。

关键是为实现自动化而保证所有选项的开放性,Perry说。自动数据中心基础设施管理技术的市场正在快速成熟,这表明自动化在数据中心行业越来越被广泛地接受。

Perry说:“还有自动化功能已经具备应用条件,这将有助于为AI的引入奠定基础。”

来自计算方面的挑战

数据中心的计算端对AI应用程序的实施面临着异常严峻的挑战。基于CPU的环境可以处理绝大多数机器学习和AI工作负载,从随机森林回归(random forest regression)到集群。但当IT深入到深度学习能力之中,这需要遍历多个大型数据集并部署可扩展的神经网络算法,那么基于CPU的生态系统可能还不够。为了提供计算能力,IT部门必须集成如NVDIA GPU、Advanced Micro Devices GPU和Intel Xeon Phi等技术。

“您需要混合或异构架构,其核心处理器由专用加速器填充,为您的应用程序提供更大的计算密度和更高的吞吐量,”Dekate说。

实施GPU还使管理员能够优化数据中心基础架构以实现功率效率。当管理员将基于GPU的生态系统进行单一节点特别扩大时,它们对电源的需求将更加迫切。

Google等超大规模供应商已认识到这一需求;该公司负责AI业务的机构DeepMind将将其数据中心冷却所需的能源降低了40%。但是,在更广泛的市场中几乎所有的企业数据中心都缺乏Google具备的资源,将无法复制这一模式来解决效率问题。

对于具有传统生态系统的大多数企业来说,实施这些创新技术不仅复杂—同时价格昂贵。例如,搭载了最新Xeon Phi的芯片价格高达6,294美元—它是英特尔迄今为止最昂贵的芯片。而想要整合深度学习能力的IT团队不仅仅需要一个芯片,他们需要高密度的加速卡。这些高密度计算配置可用于超大规模环境,医疗保健机构、金融服务等。

Dekate说:“我们已经看到高密度产品的应用—大约2个CPU配上8个GPU的比例密度。这代表着在此环境中,某一服务器节点上某一服务器单元的成本可能高达15万美元。”

有办法减轻这些技术的高价格标签。许多组织使用公有云,在某些情况下,使用IBM Watson,在进行任何深层的内部承诺之前,测试AI应用程序的可靠性。

此外,服务器更新的时间范围远远超出传统的三年更新时间表,Perry说。现在,许多组织每五到七年更新服务器。因此,他们的IT预算也得到扩展,可以应用到能够满足内部所需的高价基础设施之上。

Perry说:“我们已经看到这在融合基础架构上的应用,而且超级融合基础架构也正在应用。没错,这都是非常昂贵的门槛,但转型是非常值得的。”