应对“大数据”分析 透视数据中心变更

日期:2012-8-22作者:Wayne Kernochan

【TechTarget中国原创】

到目前为止,你的大数据分析和商业智能项目还在顺畅地自行运转。但从长远来看,通过对现有架构进行简单扩展来保持顺畅的数据访问可能不是最好的解决办法。

  请考虑以下“大数据”特性:

  ·以网页上为主(不属于先前的内部数据传送)

  ·涉及多个云环境

  ·与社交媒体应用紧密关联,例如Facebook, Twitter和Linkedin

  ·规模空前

  ·数据有时 “不洁净”,甚至不可用

  ·数据大部分是非结构化

  ·至少要引入几种新工具,例如Apache的Hadoop和Hive,以及graph/triple存储

  分开来看,每种特性都可能构成现有数据仓库设置的一种变体。组合起来,这些特性代表了一种与众不同的操作环境,在规划时必须深入到每项特性,分别对待。也就是说,首先你要了解,基于未来可能的需求,哪种架构最适合大数据分析。然后了解,如何能够把它与现有的数据中心架构(也可能是数据仓库型架构)结合起来。

  那么未来有哪些可能性需求呢?有迹象表明,每个机构都会想要在下列特性中寻求一个独特的组合:

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Wayne Kernochan
Wayne Kernochan

Infostructure Associates主席

信息系统管理>更多

相关推荐

  • 机器学习在崛起:但其算法的结果是否公平?

    算法正在通过很多很不可思议的方法控制着我们的生活。但在没有透明度的情况下,我们很难知道机器学习算法所评估的结果是否公平……

  • 速度至上:提升Apache Spark处理速度你需要这五个办法

    现在,我们手里有数据,大量的数据。我们的存储中有区块、文件和对象。我们的数据库中有表、键值以及图形。还有越来越多涌进来的媒体、机器数据和事件流……

  • 物联网下:大数据属于谁?

    虽然我相信每个数据驱动的组织机构现在就应该开始规划,以避免最终导致数据不足的问题,但这一担忧只是新的大数据、物联网(IoT)世界中出现的很多潜在的数据问题之一……

  • 2017将是一个什么样的IT年?

    来看看红帽全球客户技术展望2017的调查报告,你会对同行者们的状态,以及相关技术在行业内的发展趋势看得更加清楚。

技术手册>更多

  • 数据中心主流节能技术指南

    当前,在数据中心能耗危机压力之下,广大企业IT经理和数据中心管理人员使出了浑身的解数来提高数据中心能耗效率。其中,虚拟化和服务器整合、服务器节能以及机房冷/热通道控制技术是最为常见的三大节能策略。事实证明,在企业预算有限、云计算服务模式尚未成熟的前提下,常规的数据中心节能技术显然更具实际意义。那么,虚拟化和服务器整合究竟如何实施?有没有具体的案例可分享?服务器节能主要从哪几个方面下手?冷/热通道控制技术有何消防规范和衡量指标?本技术指南将为大家解决这一问题。

  • 数据中心IT服务管理手册

    在构建“发动机”的过程中,IT服务管理(ITSM)成为企业数据中心追求卓越运营的指南。IT服务管理是一种以流程为导向、以客户为中心的方法,它通过整合IT服务与企业业务,提高了企业的IT服务交付与服务支持的能力和水平。而在企业将ITSM思想付诸实践时,英国商务部开发的IT服务管理的最佳实践——ITIL(IT基础架构库,IT Infrastructure Library),则成为这一领域事实上的标准。ITIL的支持模块主要包括服务台、事件管理、问题管理、变更管理和发布管理;服务交付模块主要包括服务水平管理、可用性管理、能力管理、服务财务管理以及服务连续性管理。而对数据中心而言,主要的流程还必须加上安全管理、以及业务关系管理模块的关系管理和ICT基础架构模块的运作管理流程。

  • 数据中心网络设计与布线手册

    数据中心TIA-942新标准已经出台将近一年了,10Gb的一些新标准也已公布或正在制定中。然而,无论采用什么标准,网络架构师和布线施工人员都必须想办法设计一个既节约能耗又符合成本效益的数据中心网络——并且还不能以牺牲性能为代价。那么,如何创建数据中心网络基础架构?数据中心网络设计过程中应该考虑哪些因素?如何确定数据中心的布线要求?如何补救数据中心电缆?数据中心布线成本如何计算?本手册将为您解答这些问题。

  • 数据中心增效节能技术

    一直以来数据中心都被称作“能耗大户”。随着业务的扩展,数据中心承载的工作与日俱增,与此同时,能耗的负担也越来越大。无论是制冷、UPS还是基础设施,其能耗都是一笔巨大的成本。

TechTarget

最新资源
  • 安全
  • 存储
  • 虚拟化
  • 网络
  • 服务器
  • 云计算
【TechTarget中国原创】

到目前为止,你的大数据分析和商业智能项目还在顺畅地自行运转。但从长远来看,通过对现有架构进行简单扩展来保持顺畅的数据访问可能不是最好的解决办法。

  请考虑以下“大数据”特性:

  ·以网页上为主(不属于先前的内部数据传送)

  ·涉及多个云环境

  ·与社交媒体应用紧密关联,例如Facebook, Twitter和Linkedin

  ·规模空前

  ·数据有时 “不洁净”,甚至不可用

  ·数据大部分是非结构化

  ·至少要引入几种新工具,例如Apache的Hadoop和Hive,以及graph/triple存储

  分开来看,每种特性都可能构成现有数据仓库设置的一种变体。组合起来,这些特性代表了一种与众不同的操作环境,在规划时必须深入到每项特性,分别对待。也就是说,首先你要了解,基于未来可能的需求,哪种架构最适合大数据分析。然后了解,如何能够把它与现有的数据中心架构(也可能是数据仓库型架构)结合起来。

  那么未来有哪些可能性需求呢?有迹象表明,每个机构都会想要在下列特性中寻求一个独特的组合:

  1.为了维护客户忠诚度和出于营销目的,对中型客户的社交媒体数据进行有目标访问--无需实时数据;

  2.同样,对于预期销售而言也是需要的,但实时数据将会带来更大价值;

  3.出于安全考虑,当网页浏览者试图访问公司数据时,有必要对该访问者的社交媒体数据进行少量实时访问;

  4.实时访问“战略威胁”数据,例如,对公司的负面宣传信息或是给公司造成不良影响的灾难信息,通常来讲造成的影响较小,但有时波及范围也很广。

  5.为了进行市场分析对大量大数据进行访问--无需实时数据;

  6.为了开展具体行业或具体机构新产品研发, 对大量和超大量社交媒体数据进行访问。这里,同样不需要实时数据,但是访问速度越快效果越好。

  上述组合要求决定了通常的数据需求量和交付速度,以及在“数据洁净度”和“数据及时性”方面的折衷取舍。

  我们现在来看看,针对这些个案的最优架构:

  1.访问目标客户的数据,你可能需要在每朵云上安装查询工具,满足内部数据存储需要,在不至于向竞争对手披露信息前提下对数据进行分析。

  2.对于目标预期和销售过程数据,你可能需要在每朵云上添加本地数据库,方便针对特定目标信息进行快速交付。

  3.针对安全扫描,你可能需要在Hadoop旁边部署能实现告警和单用户查询的软件,并能把结果信息直接反馈给内部管理员。

  4.对于“战略威胁”数据,你可能需要在每朵云上建立高效,高容量的本地数据库,并且数据库相互间能跨云联合进行协作,可执行预分析。如果可能的话,在威胁抵达数据中心或单位其它部门前,该消息将直接反馈到系统,系统对此自动做出回应。

  5.对于市场分析,你可能需要云-本地“缓存”的高性能数据库,能帮助过滤数据。这样的话,可以把数据压缩到数据仓库要求的大小,而且可能的话,还能对数据进行预清洁。而现有的像extract, transform, load (ETL)这些工具还无法适应新型数据的这些要求。

  6.对于研发,你可能需要内部且独立的分析数据库,同时要有允许跨云查询的数据联合功能。

  假设你需要所有这六项内容?那么你要考虑:

  ·数据联合和跨数据库查询软件,诸如Composite Software公司和Denodo公司的产品

  ·高性能和大容量数据库技术,例如内存和柱体技术,来自于EMC Greenplum公司,或者Sybase IQ公司的解决方案。

  ·低成本,灵活性的,云适应型查询/分析工具,例如Birst,或者Tableau.

  ·用于研发的内部网状架构

  那么,现在要如何把它与现有架构相结合呢?通常根据企业的规模,解决途径可划分为下列两大阵营:

  1.中小型企业(SMBs)往往没有数据仓库,即使有,功能也不齐全。那样的话,在必要的数据仓库性能开始产生之际,能在云上尽量运行的PaaS架构是一个好选择。

  2.大型企业有着大型主机,小型服务器群组,数据仓库,数据集市,以及架构中现有基础设施,因此确实要创建一个PaaS架构。最好采用像IBM公司这样的现行供应商提供的方案,把公共云上的PaaS架构与现有商业智能/分析/数据仓库架构相结合。

  综上所述,不要认为,把大量大数据从一个云直接吸纳到数据仓库是最理想的解决方案。因为当你这么做时,你的竞争对手将会利用他们的IT资源对其顾客进行有针对性的,更深层的灵活分析,并推动他们的品牌深入你的市场。在内部分析和云分析功能之间设置防火墙是一回事,不做任何公共驻云分析又是另一回事。简言之:

  ·要接受:部分分析需在企业外部进行

  ·要承认:大型而且“不洁净”数据需要分别处理

  要同意:为获得最佳效果,大型数据和传统数据需要有独立而又互相协作的架构。