应对“大数据”分析 透视数据中心变更

日期:2012-8-22作者:Wayne Kernochan

【TechTarget中国原创】

到目前为止,你的大数据分析和商业智能项目还在顺畅地自行运转。但从长远来看,通过对现有架构进行简单扩展来保持顺畅的数据访问可能不是最好的解决办法。

  请考虑以下“大数据”特性:

  ·以网页上为主(不属于先前的内部数据传送)

  ·涉及多个云环境

  ·与社交媒体应用紧密关联,例如Facebook, Twitter和Linkedin

  ·规模空前

  ·数据有时 “不洁净”,甚至不可用

  ·数据大部分是非结构化

  ·至少要引入几种新工具,例如Apache的Hadoop和Hive,以及graph/triple存储

  分开来看,每种特性都可能构成现有数据仓库设置的一种变体。组合起来,这些特性代表了一种与众不同的操作环境,在规划时必须深入到每项特性,分别对待。也就是说,首先你要了解,基于未来可能的需求,哪种架构最适合大数据分析。然后了解,如何能够把它与现有的数据中心架构(也可能是数据仓库型架构)结合起来。

  那么未来有哪些可能性需求呢?有迹象表明,每个机构都会想要在下列特性中寻求一个独特的组合:

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Wayne Kernochan
Wayne Kernochan

Infostructure Associates主席

信息系统管理>更多

相关推荐

  • 速度至上:提升Apache Spark处理速度你需要这五个办法

    现在,我们手里有数据,大量的数据。我们的存储中有区块、文件和对象。我们的数据库中有表、键值以及图形。还有越来越多涌进来的媒体、机器数据和事件流……

  • 物联网下:大数据属于谁?

    虽然我相信每个数据驱动的组织机构现在就应该开始规划,以避免最终导致数据不足的问题,但这一担忧只是新的大数据、物联网(IoT)世界中出现的很多潜在的数据问题之一……

  • 2017将是一个什么样的IT年?

    来看看红帽全球客户技术展望2017的调查报告,你会对同行者们的状态,以及相关技术在行业内的发展趋势看得更加清楚。

  • 五步教你轻松搞定数据中心容量规划问题

    数据中心容量规划是朝着正确方向迈出的重要一步,而且能够增强IT与其他业务领域之间的关系。虽然IT涉及到大数据与与物联网——而这些技术将如何影响数据中心容量——是可以评估,也可以用一定的方法缓解……

技术手册>更多

  • 大型机管理与升级指南

    如今的大型机管理的确在朝更简单的方向发展,越来越像是管理分布式计算系统中的进程管理。那么有哪些常用大型机备份工具?大型机迁移都哪些技巧?本技术手册将为你一一讲解。

  • 如何提高数据中心能效(管理)

    如今的数据中心正面临着一个异常现实而又紧迫的问题:能源危机。导致这一问题的罪魁祸首是服务器和交换机,尽管说如今的服务器和交换机的规模要比之前小的多,但能源消耗量却在大幅增加。人们将越来越多的高密度计算设备放置在一个较小的空间内,使电源密度和热量到达临界水平,常常导致无法有效地对现有设备进行冷却,出现系统故障,或是无法添加其它设备。在数据中心容量日益增加的今天,提高能源利用效率是解决数据中心能源危机的最佳途径。

  • 最新机房高效节能技巧集锦

    数据中心人士最关心的是能耗成本,因为这与他们的工作效率息息相关,今天我们来整理一下近期大家关注的一些关于数据中心节能的分析以及技巧文章,以供参考。

  • 大型机升级及应用迁移指南

    十几年来,由于运维成本过高,大型机应用一直无法摆脱人们的诟病。而目前,由于缺乏可用的程序说明,要想及时对大型机应用进行维护和升级,就意味着要花费更高的成本。在过去的五年里,由于SOA(面向服务架构)的出现,许多企业开始意识到还可以用他们现有的大型机应用来提供现代化的Web服务。如今,云计算的出现和发展更是对此起到了一定得推动作用。利用基于Web服务的大型机应用或是将这些应用作为一种服务集成到“云”中能够降低系统管理的成本,并在这种快速多变的环境下提高业务的灵活性。那么,究竟如何对大型机进行现代化升级?又如何对大型机应用进行迁移?云计算的到来对大型机有何影响?本技术指南将对这些问题进行阐述。

TechTarget

最新资源
  • 安全
  • 存储
  • 虚拟化
  • 网络
  • 服务器
  • 云计算
【TechTarget中国原创】

到目前为止,你的大数据分析和商业智能项目还在顺畅地自行运转。但从长远来看,通过对现有架构进行简单扩展来保持顺畅的数据访问可能不是最好的解决办法。

  请考虑以下“大数据”特性:

  ·以网页上为主(不属于先前的内部数据传送)

  ·涉及多个云环境

  ·与社交媒体应用紧密关联,例如Facebook, Twitter和Linkedin

  ·规模空前

  ·数据有时 “不洁净”,甚至不可用

  ·数据大部分是非结构化

  ·至少要引入几种新工具,例如Apache的Hadoop和Hive,以及graph/triple存储

  分开来看,每种特性都可能构成现有数据仓库设置的一种变体。组合起来,这些特性代表了一种与众不同的操作环境,在规划时必须深入到每项特性,分别对待。也就是说,首先你要了解,基于未来可能的需求,哪种架构最适合大数据分析。然后了解,如何能够把它与现有的数据中心架构(也可能是数据仓库型架构)结合起来。

  那么未来有哪些可能性需求呢?有迹象表明,每个机构都会想要在下列特性中寻求一个独特的组合:

  1.为了维护客户忠诚度和出于营销目的,对中型客户的社交媒体数据进行有目标访问--无需实时数据;

  2.同样,对于预期销售而言也是需要的,但实时数据将会带来更大价值;

  3.出于安全考虑,当网页浏览者试图访问公司数据时,有必要对该访问者的社交媒体数据进行少量实时访问;

  4.实时访问“战略威胁”数据,例如,对公司的负面宣传信息或是给公司造成不良影响的灾难信息,通常来讲造成的影响较小,但有时波及范围也很广。

  5.为了进行市场分析对大量大数据进行访问--无需实时数据;

  6.为了开展具体行业或具体机构新产品研发, 对大量和超大量社交媒体数据进行访问。这里,同样不需要实时数据,但是访问速度越快效果越好。

  上述组合要求决定了通常的数据需求量和交付速度,以及在“数据洁净度”和“数据及时性”方面的折衷取舍。

  我们现在来看看,针对这些个案的最优架构:

  1.访问目标客户的数据,你可能需要在每朵云上安装查询工具,满足内部数据存储需要,在不至于向竞争对手披露信息前提下对数据进行分析。

  2.对于目标预期和销售过程数据,你可能需要在每朵云上添加本地数据库,方便针对特定目标信息进行快速交付。

  3.针对安全扫描,你可能需要在Hadoop旁边部署能实现告警和单用户查询的软件,并能把结果信息直接反馈给内部管理员。

  4.对于“战略威胁”数据,你可能需要在每朵云上建立高效,高容量的本地数据库,并且数据库相互间能跨云联合进行协作,可执行预分析。如果可能的话,在威胁抵达数据中心或单位其它部门前,该消息将直接反馈到系统,系统对此自动做出回应。

  5.对于市场分析,你可能需要云-本地“缓存”的高性能数据库,能帮助过滤数据。这样的话,可以把数据压缩到数据仓库要求的大小,而且可能的话,还能对数据进行预清洁。而现有的像extract, transform, load (ETL)这些工具还无法适应新型数据的这些要求。

  6.对于研发,你可能需要内部且独立的分析数据库,同时要有允许跨云查询的数据联合功能。

  假设你需要所有这六项内容?那么你要考虑:

  ·数据联合和跨数据库查询软件,诸如Composite Software公司和Denodo公司的产品

  ·高性能和大容量数据库技术,例如内存和柱体技术,来自于EMC Greenplum公司,或者Sybase IQ公司的解决方案。

  ·低成本,灵活性的,云适应型查询/分析工具,例如Birst,或者Tableau.

  ·用于研发的内部网状架构

  那么,现在要如何把它与现有架构相结合呢?通常根据企业的规模,解决途径可划分为下列两大阵营:

  1.中小型企业(SMBs)往往没有数据仓库,即使有,功能也不齐全。那样的话,在必要的数据仓库性能开始产生之际,能在云上尽量运行的PaaS架构是一个好选择。

  2.大型企业有着大型主机,小型服务器群组,数据仓库,数据集市,以及架构中现有基础设施,因此确实要创建一个PaaS架构。最好采用像IBM公司这样的现行供应商提供的方案,把公共云上的PaaS架构与现有商业智能/分析/数据仓库架构相结合。

  综上所述,不要认为,把大量大数据从一个云直接吸纳到数据仓库是最理想的解决方案。因为当你这么做时,你的竞争对手将会利用他们的IT资源对其顾客进行有针对性的,更深层的灵活分析,并推动他们的品牌深入你的市场。在内部分析和云分析功能之间设置防火墙是一回事,不做任何公共驻云分析又是另一回事。简言之:

  ·要接受:部分分析需在企业外部进行

  ·要承认:大型而且“不洁净”数据需要分别处理

  要同意:为获得最佳效果,大型数据和传统数据需要有独立而又互相协作的架构。