请选择 进入手机版 | 继续访问电脑版

SAS中文论坛

 找回密码
 立即注册

扫一扫,访问微社区

查看: 2370|回复: 0

SAS大数据专栏:如何让Hadoop在企业界运用自如

[复制链接]

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
发表于 2014-3-11 21:28:48 | 显示全部楼层 |阅读模式


赛博士:“许多人都认为开源就是开源:从网上下载它然后开展自己的业务。而实际情况大相径庭,尤其在确保业务适应性和利用它做出合理商业决策的前提下,您必须先有与之相关的其他特性和功能。”


众所周知,Hadoop是一个用于在分布式计算环境中存储和分析大数据的流行开源框架。

为何用象作为 logo?这是因为 Hadoop 是一头黄色小象名字,它的主人是 Hadoop 的共同创始人 Doug Cutting 的孩子。这头小象不只是一个好名字和容易被记住的 logo,它还象征一个年轻但很强大的系统。它包括两个组成部分,专门设计用来完成以下任务:
1.轻松存储大量数据。
2.使用多个同步通路快速处理数据。

它是一个开源系统,这意味着任何人都能使用它,前提是您要具备让它工作的硬件和能力。但正如您不能把一只小象从丛林中带出来,然后不经任何计划和训练就想让它投入工作一样,您也不一定能从网上下载 Hadoop,然后马上就将其用于商业决策。



那么,我们一起来探讨一下要让这个“小象”实现企业就绪所需的五方面准备工作。

1. 数据访问。访问 Hadoop 中的数据的方式应当与在执行分析任务时访问企业中其他数据源的方式相同。统一的访问对大数据问题很重要。您的访问工具和连接工具向 Hadoop 框架的延伸应当与其和其他商业软件(如关系型数据库和 CRM)协作的方式相似。

2. 安全。确保拥有围绕 Hadoop 框架的安全措施。如果您将在该框架上进行业务运营,那么安全性肯定是您的关切之一。另外您还要确保它不会崩溃并困住您的数据,让您无法使用。通过配置多个数据管理层(各层之间具有安全保障特性)可达成这一目的。安全性还有助于建立针对 Hadoop 环境的基本规则,以便与您的传统环境进行互操作。

3. 性能。没错,Hadoop 是为大数据而构建的,但要获得最佳性能,您还需要对它进行管理。考虑您将如何满足服务水平协议的要求,并务必确保理解您所使用的 IT 环境及软件的功能。针对工作负载和期望进行容量平衡对 Hadoop 依然重要。您不会让一头小象负重 50根圆木,因为它没有成年大象那么庞大。您需要像训练小象一样训练 Hadoop 来承载规模适合的负载。

4. 集成。确保您真的理解 Hadoop 是如何连接到您的计算、存储和 IO 基础设施中的其他环境的。理解硬件如何适应工作负载的增长很重要。确保其在正确层面工作,理解输入的是什么信息并对输出信息充满信心。最聪明的企业会将有关大数据的典型想法和洞见与其传统数据源结合起来。正如大象拥有永久记忆一样,优秀的 Hadoop 实施会借鉴业界已有的所有实施情景。这有助于使您的分析更细致、决策更自信。

5. 实时。在 Hadoop 的世界中,您会从批处理转向实时处理并使处理结果能够呈现在移动环境中。现在每个人都有手机或平板电脑,我们希望结果能够瞬间呈现在这些设备上。从数据管理到模型开发和可视化,确保 Hadoop 环境输出结果的时效性、新颖性和成熟性需要大量准备工作要做。

也许这是您第一次“养育”一头小象,但很可能不是您第一次实施新技术。想一想您在 ERP 或 Linux  早期发展阶段学到的经验教训。这方面的许多项目一开始都是为特定目的或原因而实施的,然后随着时间的推移开始施加治理。Hadoop 目前的情况与此类似。您能借鉴的经验教训(来自早期实施以及上列各点)越多,您就越能为利用 Hadoop 做好准备。

您是否已经做好充分准备来迎接这次新的计算浪潮?!想了解更多Hadoop讯息、更全面的大数据分析?! 赶快加入SAS商业分析社区,报名参与SAS Forum China 2014(club.sas.com.cn)。SAS大数据研究与发展全球副总裁Paul Kent 将在大会中和您分享如何在全量数据上展开交互式可视化数据探索,轻松驾驭先进分析模型!

火速报名,享有优惠!


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|SAS中文论坛  

GMT+8, 2024-4-19 10:19 , Processed in 0.127429 second(s), 27 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表