热点网|医学教育网|北京pk10开奖直播 pk10开奖直播 北京赛车pk10 pk10开奖直播 北京赛车pk10 PK10开奖直播 北京赛车pk10开奖直播 北京pk10 北京pk10
你好>,游客 登录
背景:
阅读新闻

你需要了解关于Hadoop与大数据的12个事实

[日期:2017-11-14] 来源:  作者: [字体: ]

  事实1:hadoop是由多个产品组成的>。

  人们在谈论Hadoop的时候,常常把它当做单一产品来看待>>>,但事实上它由多个不同的产品共同组成。

  Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”

  一提到Hadoop>>,人们往往将其与MapReduce放在一起>,但其实HDFS和MapReduce一样,也是Hadoop的基础>>。

大数据

  事实2:Apache Hadoop是开源技术,但专有厂商也提供Hadoop产品>。

  由于Hadoop属于开源技术,可免费下载>,所以IBM>、Cloudera和EMC Greenplum等厂商都可以推出他们各自的Hadoop特别发行版本。

  这些特别发行版本一般都会有一些附加特性>>,比如高级管理工具及相关的支持维护服务>。有人可能对此嗤之以鼻:既然开源社区是免费的,那么我们为什么还要为它的服务付费?Russom解释道>,这些版本的HDFS对一些IT部门更合适,特别是企业IT系统已经相对成熟的用户>。

  事实3:Hadoop是一个生态系统,而非一个产品。

  Hadoop是由开源社区和各个厂商共同开发和推动的>>。具体说来>,厂商的Hadoop的产品其结构化和关系性更强一些。

  Russom说:“一直以来报表平台、数据集成平台在为更新的平台提供各种各样的接口>,Hadoop当然也不例外。”

  事实4:HDFS是文件系统>>,而不是数据库管理系统>。

  Russom最无法忍受的,就是人们常常把二者混为一谈>。能够对数据集进行管理是数据管理系统很重要的特性之一>>,这一点HDFS是不具备的>。

  数据库管理系统中>>,我们通过查询索引可以实现对数据的随机访问,它往往处理的是结构化的数据>,而在Hadoop中不会处理这样的数据类型。

  事实5:Hive与SQL类似>,却非标准SQL。

  传统获取数据的业务工具大多都是基于SQL的>>,这比较让人头疼,因为Hadoop使用的是一种类似SQL但不是SQL的语言——Apache Hive和HiveQL>。

  Russom说:“我常听到别人说,‘Hive学起来非常简单>>,直接学Hive就行。’但这并不能解决与SQL工具兼容的根本问题>>。”

  Russom认为兼容性只是一个短时间问题>>,但却阻碍了Hadoop的普及>>。

  事实6:Hadoop与MapReduce相互关联>,但不相互依赖>>>。

  MapReduce早在HDFS出现以前就由Google开发推出。除此之外,诸如MapR一类的厂商一直在宣传MapReduce功能的多样性>,无需HDFS支持>>。

  尽管如此>,Russom却认为它们具有很好的互补性。HDFS的大部分价值都体现在可层叠到分布式文件系统的工具上。

  事实7:MapReduce提供的是对分析的控制,而不是分析本身>。

  MapReduce是一种通用执行驱动引擎>>,可协助大数据分析>。它能读取手写代码数据>,对其进行并行自动处理,并将结果映射到单一集合中>。然而我们需要明确一点,MapReduce自身并不进行分析工作>>。

  Russom说:“MapReduce可以看作是升级版的MPP架构>。你无论怎样编写代码,它都可以把它们并行化>,非常强大>。”

  事实8:Hadoop的意义不仅仅在于数据量,更在于数据的多样化>。

  有人把Hadoop归类为海量数据处理技术,但是Hadoop真正的价值却是对多样化数据处理的能力。

  Russom说:“Hadoop的处理范围为大多数数据仓库所不及>,比如针对半结构化与完全非结构化的数据>。”

  事实9:Hadoop是数据仓库的补充,不是数据仓库的替代品>>>。

  Hadoop对多样化数据类型进行管理的能力使得“数据仓库将死”的言论四起,然而Russom却进行了反驳>。

  他反问道:“在IT领域,人们多久替换一项技术?几乎从来没有过>。”

  数据仓库在其领域中的性能仍然出色>,Hadoop可起到对数据仓库技术进行补充的作用>。数据仓库和其他系统的架构越来越多地开始向分布式靠拢>>,Hadoop在这里将发挥其作用>。

  事实10:Hadoop不仅仅是Web分析>>。

  Hadoop在互联网中的运用非常普遍,Russom认为Hadoop普及趋势的部分原因是因为它可以处理更多类型的分析。

  Russom举了铁路公司、机器人和零售业的例子。铁路公司可使用传感器对异常高温的轨道车辆进行探测,以阻止事故的发生>。

  Russom尽管十分看好Hadoop的前景>,但同时认为它的普及还需要数年时间。

  事实11:大数据不一定非Hadoop不可>>>。

  别看现在大数据和Hadoop已经密不可分>,Russom却认为Hadoop并不是大数据的“唯一”>。他提到了许多其他厂商的产品,如Teradata、Sybase IQ(被SAP收购)和Vertica(被HP收购)等>>。

  除此之外,在Hadoop没有诞生之时>,一些企业就已经开始研究大数据了>。例如,电信行业多年以前就有呼叫明细记录>。

  事实12:Hadoop不是“免费午餐”>。

  虽然Hadoop属于开源技术>>,但是软件的安装部署是需要花钱的。Russom称,由于Hadoop在管理工具与支持服务方面的不足>,企业在使用过程中很容易产生额外费用。另外>,由于它没有优化程序,我们只能请专业人士在运行环境中手写输入代码,而这些专业人士的薪酬价码都不菲>。

  更不用提部署Hadoop集群的硬件和相关配置的成本>。

  他说:“千万别以为Hadoop是免费的或者很便宜,它背后的隐性开销你是一下子看不到的。”

  End

  转自36大数据





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
  • 陈志朋《Patience》欣赏版MV首发 造型再创新潮陈志朋 2018-05-20
  • 纽约前市长:华府谎言当道,将威胁美国民主制度 2018-05-20
  • 孩子将来不孝顺的4个信号,第三种必须立即纠正! 2018-05-20
  • 王国平:杭州明确重点发展八大门类文化创意产业 2018-05-19
  • 失眠和心理病是难兄难弟 2018-05-19
  • 紫光阁中共中央国家机关工作委员会 2018-05-19
  • 吉利博越优惠达0.2万 数量有限颜色可选 2018-05-18
  • 历害!禅师用简单一招让他祛除病魔 2018-05-18
  • NATUZZI 2018和谐共生的艺术之家合作项目正式启动 2018-05-17
  • 人气更高!济南正从门票经济向旅游产业经济转型 2018-05-17
  • 互联网论坛社区服务管理规定 2018-05-16
  • 2013博鳌亚洲论坛嘉宾精彩演讲 2018-05-16
  • 发现使用专利字体 南京一侵权方修改后公证 2018-05-16
  • 不对称耳环已经不再新鲜 那什么最时髦呢? 2018-05-15
  • 锡马专刊 PB衫、破三奖杯、纪录片,锡马五年,我们不说再见! 2018-05-15
  • 阿启网 | 男士时尚 | 冠珠陶瓷 | 网站运营 | 系统盒 | 重庆周边旅游景点大全 | 海南房产 | 现金炸金花 | 快递单号网点查询 | 网贷tansend | 微信群 | 冠珠陶瓷 | 创业者 | 在线教程 |