速度至上:提升Apache Spark处理速度你需要这五个办法

日期:2017-5-3作者:MIKE MATCHETT

【TechTarget中国原创】

现在,我们手里有数据,大量的数据。我们的存储中有区块、文件和对象。我们的数据库中有表、键值以及图形。还有越来越多涌进来的媒体、机器数据和事件流。

成为企业数据架构师一定会很有趣,因为要找出如何最好地利用所有这些潜在的情报,而不会错过或者丢掉哪怕每一字节。

Spark等大数据平台可帮助您快速处理这些数据,并将传统的业务数据中心应用程序与高级的分析功能融合在一起。如果您尚未在您的数据中心生产端部署Spark,部署也是迟早的事。毕竟不愿意或不能将大数据平台加入到日常业务流程情报的组织,很快就会发现自己在竞争中落后的事实。

Spark具有分布式内存处理架构,以及提供专家级的机器学习和类SQL数据结构的本地库,均为提升大型数据集性能而设计的。即使已经拥有如此迅速的发展,市场占有率的竞争和对更大数据量的需求使得Spark的性能加速话题变得更加炙手可热。您可以在大数据展会中看到这种趋势,例如最近在波士顿火爆异常的Spark Summit,似乎每个供应商都在兜售自己有关加速Spark的方法。

如果Spark已经在内存中运行并扩展到大型群集的节点,那么如何更快地处理比以往更多的数据?我们注意到从以下五个方面可以考虑进行加速:

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Mike Matchett
Mike Matchett

Mike Matchett is a senior analyst and consultant at Taneja Group.

信息系统管理>更多

相关推荐

  • 物联网下:大数据属于谁?

    虽然我相信每个数据驱动的组织机构现在就应该开始规划,以避免最终导致数据不足的问题,但这一担忧只是新的大数据、物联网(IoT)世界中出现的很多潜在的数据问题之一……

  • 2017将是一个什么样的IT年?

    来看看红帽全球客户技术展望2017的调查报告,你会对同行者们的状态,以及相关技术在行业内的发展趋势看得更加清楚。

  • 五步教你轻松搞定数据中心容量规划问题

    数据中心容量规划是朝着正确方向迈出的重要一步,而且能够增强IT与其他业务领域之间的关系。虽然IT涉及到大数据与与物联网——而这些技术将如何影响数据中心容量——是可以评估,也可以用一定的方法缓解……

  • 大数据复兴IT运营分析

    在过去的几十年当中,IT运维团队一直使用大量先进工具。即便如此,许多IT管理挑战似乎仍然十分难以解决。如今,许多厂商在大数据和数据分析领域推出了多种新的工具,能够帮助企业解决内部运营、高可用性以及用户体验方面存在的问题。

技术手册>更多

  • 数据中心虚拟化管理手册

    虚拟化让数据中心硬件得以整合,使数据中心设备密度加大,在提高服务器、网络以及存储等设备效率的同时,也带来了相应的管理难题。在虚拟化环境下,对数据中心服务器、网络等硬件设备的配置要求越来越高。或者说,在现有的设备基础上,如何对硬件配置进行管理,使其满足虚拟化所需的高性能需求,是许多数据中心管理员所面临的难题。此外,虚拟机的蔓延也是一大问题。是什么原因导致了虚拟机的蔓延问题?如何从根本上去解决虚拟机蔓延难题?亦是许多数据中心管理员关心的话题。本技术手册将从虚拟化硬件管理、虚拟机蔓延、虚拟数据中心资源管理等几个方面来分析这些问题,并提出相应的解决方案。

  • 在数据中心使用DCIM

    DCIM,全称Data Center Infrastructure management,即数据中心基础设施管理,是将IT和设备管理结合起来对数据中心关键设备进行集中监控、容量规划等集中管理。本手册介绍DCIM受青睐的原因及其优势,还包括选择技巧等。

  • 最新机房高效节能技巧集锦

    数据中心人士最关心的是能耗成本,因为这与他们的工作效率息息相关,今天我们来整理一下近期大家关注的一些关于数据中心节能的分析以及技巧文章,以供参考。

  • 数据中心整合策略实施手册

    在数据中心普及化的高潮中,服务器整合与虚拟化是两个主要趋势。目前,许多机构都在实施数据中心整合策略,试图以此来降低IT成本并增加容量。许多人认为,更新的技术以及更少的数据中心必然会节省大量的运营成本。然而,数据中心整合项目究竟是否物有所值?数据中心整合项目实施过程中有哪些注意事项?在整合过程中有哪些常见问题,这些问题如何解决?本技术手册将为您解答这些问题。</P

TechTarget

最新资源
  • 安全
  • 存储
  • 虚拟化
  • 网络
  • 服务器
  • 云计算
【TechTarget中国原创】

现在,我们手里有数据,大量的数据。我们的存储中有区块、文件和对象。我们的数据库中有表、键值以及图形。还有越来越多涌进来的媒体、机器数据和事件流。

成为企业数据架构师一定会很有趣,因为要找出如何最好地利用所有这些潜在的情报,而不会错过或者丢掉哪怕每一字节。

Spark等大数据平台可帮助您快速处理这些数据,并将传统的业务数据中心应用程序与高级的分析功能融合在一起。如果您尚未在您的数据中心生产端部署Spark,部署也是迟早的事。毕竟不愿意或不能将大数据平台加入到日常业务流程情报的组织,很快就会发现自己在竞争中落后的事实。

Spark具有分布式内存处理架构,以及提供专家级的机器学习和类SQL数据结构的本地库,均为提升大型数据集性能而设计的。即使已经拥有如此迅速的发展,市场占有率的竞争和对更大数据量的需求使得Spark的性能加速话题变得更加炙手可热。您可以在大数据展会中看到这种趋势,例如最近在波士顿火爆异常的Spark Summit,似乎每个供应商都在兜售自己有关加速Spark的方法。

如果Spark已经在内存中运行并扩展到大型群集的节点,那么如何更快地处理比以往更多的数据?我们注意到从以下五个方面可以考虑进行加速:

1.内存改进。Spark可以使用重内存的节点的分布式池。当然,如何进行内存管理工作仍然存在改进空间,例如分片和缓存——例如每个节点可以填充多少内存,以及多少集群可以有效扩展。最新版本的Spark使用原生Tungsten非堆内存管理方式,例如紧凑型数据编码,同时优化Catalyst查询规划器,以同时有效减少执行时间和内存需求。根据业界领先的Spark供应商Databricks的说法,我们将继续看到以后的Spark版本主动追求更高的性能。

2.本地流处理数据。大数据行业最热门的话题是如何处理流数据。现如今真的几乎可以做到在数据到达的同时对其进行处理了。然而实时流处理数据集需要特殊处理,这给管理带来了很大的挑战。在过去,这通常需要复杂的管理工作流程和消息传递以及队列算法;有时候答案是使用分离的基础架构集群来运行不同的软件堆栈。如今,我们看到流数据支持融合到和更加友好的范式中。例如,Spark 2.0现在原生支持结构化的流处理,可以将新型流处理数据源轻松地折叠到现存的有利开发人员的平台之中。

3.大数据的统一。像MapR、Alluxio和Splice Machine这样的产品旨在创建统一的数据源、数据库以及存储,这些数据源、数据库和存储可以吸收许多不同类型的数据,并以统一的方式向如Spark的下游应用程序提供服务。上述提到的一些工具将业务数据与其他大型数据类型进行融合,并提供对所有数据的SQL访问。其他工具将流数据合并到历史数据集中,提供一致的数据API。无论采用哪种方式,上游集成数据源可以帮助Spark应用程序更加集中和高效地处理数据。

4.硬件加速。当然,使用专门的硬件有很多加速方法。尽管许多人宁愿坚持使用严格的普通商品服务器基础设施,但显而易见的是,利用大量图形处理单元(GPU)或定制化的现场可编程门阵列,例如来自Kinetica或BigStream的产品,可极大地加速Spark的处理。除了密集计算方法,GPU卡中包含的视频RAM还提供另一级的内存;系统可以善加利用这部分内存,来加速Spark的特定功能。

5.专用平台。有一些极具吸引力的非商用平台和设备专门用于为Spark提供高端性能。这些供应商产品可能会收敛高性能计算、网络和存储方面的组件,使用密集的服务器端非易失性存储器的闪存,甚至是采用新型低级内存管理专门应用于Spark的加速。例如Cray Spark平台、Oracle Sparc服务器、DriveScale机架和Iguaz.io的设备。

在某些情况下,其他产品和开源项目可提供比Spark更佳的性能。例如,Apache Flink是为低延迟流处理所设计的。

然而,一般来说,Spark架构有足够的发展空间,至少在未来几年内仍然值得选择的平台。鉴于市场上对加速的努力,没有理由不继续推进Spark的应用。