应对“大数据”分析 透视数据中心变更

日期:2012-8-22作者:Wayne Kernochan

【TechTarget中国原创】

到目前为止,你的大数据分析和商业智能项目还在顺畅地自行运转。但从长远来看,通过对现有架构进行简单扩展来保持顺畅的数据访问可能不是最好的解决办法。

  请考虑以下“大数据”特性:

  ·以网页上为主(不属于先前的内部数据传送)

  ·涉及多个云环境

  ·与社交媒体应用紧密关联,例如Facebook, Twitter和Linkedin

  ·规模空前

  ·数据有时 “不洁净”,甚至不可用

  ·数据大部分是非结构化

  ·至少要引入几种新工具,例如Apache的Hadoop和Hive,以及graph/triple存储

  分开来看,每种特性都可能构成现有数据仓库设置的一种变体。组合起来,这些特性代表了一种与众不同的操作环境,在规划时必须深入到每项特性,分别对待。也就是说,首先你要了解,基于未来可能的需求,哪种架构最适合大数据分析。然后了解,如何能够把它与现有的数据中心架构(也可能是数据仓库型架构)结合起来。

  那么未来有哪些可能性需求呢?有迹象表明,每个机构都会想要在下列特性中寻求一个独特的组合:

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Wayne Kernochan
Wayne Kernochan

Infostructure Associates主席

信息系统管理>更多

相关推荐

  • 2017将是一个什么样的IT年?

    来看看红帽全球客户技术展望2017的调查报告,你会对同行者们的状态,以及相关技术在行业内的发展趋势看得更加清楚。

  • 五步教你轻松搞定数据中心容量规划问题

    数据中心容量规划是朝着正确方向迈出的重要一步,而且能够增强IT与其他业务领域之间的关系。虽然IT涉及到大数据与与物联网——而这些技术将如何影响数据中心容量——是可以评估,也可以用一定的方法缓解……

  • 大数据复兴IT运营分析

    在过去的几十年当中,IT运维团队一直使用大量先进工具。即便如此,许多IT管理挑战似乎仍然十分难以解决。如今,许多厂商在大数据和数据分析领域推出了多种新的工具,能够帮助企业解决内部运营、高可用性以及用户体验方面存在的问题。

  • 勾勒物联网与大数据的数据中心路线图

    许多数据中心都错误地实施了新技术,比如物联网和大数据。坚实的起步和评估需求将避免这一问题。

技术手册>更多

  • 数据中心Linux选择与应用指南

    多年来,Windows和Linux一直是数据中心服务器操作系统的主流之一。Linux操作系统及应用程序的安装较为复杂,需要有更多的专业知识。但通常来讲,Linux要比Windows更稳定更安全,它所使用的内核版本的稳定性长期以来已经得到了足够的证实。在Linux市场上,也有Red Hat、Novell乃至Oracle等多家厂商。对于Linux是否应该收费,至今仍有很多争论。你是否需要为所有的Linux支付费用?Linux付费版与免费版都能为您带来哪些好处?为什么有些用户愿意为Linux支付费用,而另外一些用户则不愿意?本技术指南对数据中心Linux操作系统的选择及应用等问题进行了探讨。

  • 服务器CICS系统运维指南

    CICS全称是Customer Information Control System,即客户信息控制系统。CICS建立在操作系统、ISO的分布式计算环境和Encina服务上,它帮助客户建立三层次结构的联机事务处理应用。CICS能为应用程序开发、通信、恢复、显示、数据管理、安全性和内部通信等提供多项服务。今年是CICS诞辰40周年。它从最初的面向小型企业的汇编语言程序发展到今天这一步,经历了漫长的发展阶段。本指南介绍其在安全、通信、应用程序开发等方面的一些技巧。

  • 数据中心IT自动化指南

    今年早些时候,TechTarget数据中心网站举行了一次旨在了解用户如何应对经济衰退的调查。其中一项调查结果令人颇为惊讶,人们对于数据中心自动化的兴趣与日俱增,这里数据中心自动化是指帮助IT工作站实现繁琐重复处理自动化的各种工具。当前经济衰退的大环境要求IT经理们以更少的资源(裁员)来满足更多的需求,这也就将IT自动化推至幕前。那么,数据中心IT自动化如今发展状况如何?自动化对于数据中心而言究竟有何益处?数据中心自动化是否会影响到云计算架构的实施?如何选择数据中心自动化解决方案?如何合理地使用IT自动化?本技术手册将对这些问题进行解答。

  • 在数据中心使用DCIM

    DCIM,全称Data Center Infrastructure management,即数据中心基础设施管理,是将IT和设备管理结合起来对数据中心关键设备进行集中监控、容量规划等集中管理。本手册介绍DCIM受青睐的原因及其优势,还包括选择技巧等。

TechTarget

最新资源
  • 安全
  • 存储
  • 虚拟化
  • 网络
  • 服务器
  • 云计算
【TechTarget中国原创】

到目前为止,你的大数据分析和商业智能项目还在顺畅地自行运转。但从长远来看,通过对现有架构进行简单扩展来保持顺畅的数据访问可能不是最好的解决办法。

  请考虑以下“大数据”特性:

  ·以网页上为主(不属于先前的内部数据传送)

  ·涉及多个云环境

  ·与社交媒体应用紧密关联,例如Facebook, Twitter和Linkedin

  ·规模空前

  ·数据有时 “不洁净”,甚至不可用

  ·数据大部分是非结构化

  ·至少要引入几种新工具,例如Apache的Hadoop和Hive,以及graph/triple存储

  分开来看,每种特性都可能构成现有数据仓库设置的一种变体。组合起来,这些特性代表了一种与众不同的操作环境,在规划时必须深入到每项特性,分别对待。也就是说,首先你要了解,基于未来可能的需求,哪种架构最适合大数据分析。然后了解,如何能够把它与现有的数据中心架构(也可能是数据仓库型架构)结合起来。

  那么未来有哪些可能性需求呢?有迹象表明,每个机构都会想要在下列特性中寻求一个独特的组合:

  1.为了维护客户忠诚度和出于营销目的,对中型客户的社交媒体数据进行有目标访问--无需实时数据;

  2.同样,对于预期销售而言也是需要的,但实时数据将会带来更大价值;

  3.出于安全考虑,当网页浏览者试图访问公司数据时,有必要对该访问者的社交媒体数据进行少量实时访问;

  4.实时访问“战略威胁”数据,例如,对公司的负面宣传信息或是给公司造成不良影响的灾难信息,通常来讲造成的影响较小,但有时波及范围也很广。

  5.为了进行市场分析对大量大数据进行访问--无需实时数据;

  6.为了开展具体行业或具体机构新产品研发, 对大量和超大量社交媒体数据进行访问。这里,同样不需要实时数据,但是访问速度越快效果越好。

  上述组合要求决定了通常的数据需求量和交付速度,以及在“数据洁净度”和“数据及时性”方面的折衷取舍。

  我们现在来看看,针对这些个案的最优架构:

  1.访问目标客户的数据,你可能需要在每朵云上安装查询工具,满足内部数据存储需要,在不至于向竞争对手披露信息前提下对数据进行分析。

  2.对于目标预期和销售过程数据,你可能需要在每朵云上添加本地数据库,方便针对特定目标信息进行快速交付。

  3.针对安全扫描,你可能需要在Hadoop旁边部署能实现告警和单用户查询的软件,并能把结果信息直接反馈给内部管理员。

  4.对于“战略威胁”数据,你可能需要在每朵云上建立高效,高容量的本地数据库,并且数据库相互间能跨云联合进行协作,可执行预分析。如果可能的话,在威胁抵达数据中心或单位其它部门前,该消息将直接反馈到系统,系统对此自动做出回应。

  5.对于市场分析,你可能需要云-本地“缓存”的高性能数据库,能帮助过滤数据。这样的话,可以把数据压缩到数据仓库要求的大小,而且可能的话,还能对数据进行预清洁。而现有的像extract, transform, load (ETL)这些工具还无法适应新型数据的这些要求。

  6.对于研发,你可能需要内部且独立的分析数据库,同时要有允许跨云查询的数据联合功能。

  假设你需要所有这六项内容?那么你要考虑:

  ·数据联合和跨数据库查询软件,诸如Composite Software公司和Denodo公司的产品

  ·高性能和大容量数据库技术,例如内存和柱体技术,来自于EMC Greenplum公司,或者Sybase IQ公司的解决方案。

  ·低成本,灵活性的,云适应型查询/分析工具,例如Birst,或者Tableau.

  ·用于研发的内部网状架构

  那么,现在要如何把它与现有架构相结合呢?通常根据企业的规模,解决途径可划分为下列两大阵营:

  1.中小型企业(SMBs)往往没有数据仓库,即使有,功能也不齐全。那样的话,在必要的数据仓库性能开始产生之际,能在云上尽量运行的PaaS架构是一个好选择。

  2.大型企业有着大型主机,小型服务器群组,数据仓库,数据集市,以及架构中现有基础设施,因此确实要创建一个PaaS架构。最好采用像IBM公司这样的现行供应商提供的方案,把公共云上的PaaS架构与现有商业智能/分析/数据仓库架构相结合。

  综上所述,不要认为,把大量大数据从一个云直接吸纳到数据仓库是最理想的解决方案。因为当你这么做时,你的竞争对手将会利用他们的IT资源对其顾客进行有针对性的,更深层的灵活分析,并推动他们的品牌深入你的市场。在内部分析和云分析功能之间设置防火墙是一回事,不做任何公共驻云分析又是另一回事。简言之:

  ·要接受:部分分析需在企业外部进行

  ·要承认:大型而且“不洁净”数据需要分别处理

  要同意:为获得最佳效果,大型数据和传统数据需要有独立而又互相协作的架构。