Hadoop哪家强？Hortonworks、Cloudera、MapR案例集锦-Hadoop

编辑：Craig Stedman　发布时间： 2015-6-25 　　文章来源：TechTarget中国

大数据营销

　　本文综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例，真是各有神通，不服来辩。

hadoop

　　Cloudera：加速数据分析

　　Edo Interactive是一家美国市场营销公司，帮助广告主连接线上广告和线下数据，提供数据驱动的个性化推荐服务。不过几年前，Edo遇到了这样的问题：数据仓库系统处理信用卡交易数据耗时长，不能满足公司向消费者和餐馆进行个性化推荐的业务需求。

　　Edo负责基础架构和信息系统的高级副总裁Tim Garnto表示：“处理每天的数据，要花费27小时，所以，任务是根本完不成的。”2013年，Edo用Hadoop集群替换了基于PostgreSQL的系统，为公司构建了数据资源池。

　　公司每天会收集来自全美5千万次零售交易，把数据放到有20个节点的Cloudera发行的Hadoop集群上，使用Pentaho数据集成工具。从银行和信用卡公司收集来的数据经过处理，通过预测模型向持有银行卡或信用卡的用户推荐优惠券等内容。优惠券信息由Edo的合作伙伴每周向客户发送，自动和用户的消费行为匹配。

　　Garnto介绍到，因为模型的复杂度不同，Edo的数据分析师可以在几分钟或几小时内处理数据，这在以前，是做不到的。

　　不过在数据池搭建上，公司也遇到困难，最初，只有一个IT人员有Hadoop和MapReduce编程框架的经验。公司组织了对内部员工的培训，但新的MapReduce编程等于让员工放弃了关系型数据库的方法，公司在升级流程方面花费了很多时间。

　　要让进入系统的生数据保持一致性，并生成标准化分析数据集也要花费一定的时间。Edo目前拥有的450亿条记录，总量255TB的数据对公司来说是核心资产，所以Garnto要倍加小心地管理，增添新的Hadoop生态系统技术，因为增加哪怕一项很小的技术，都会对系统工作的方式产生影响。Garnto因此说，在我们面临的所有挑战中，这是最有意思的，我们要富有远见地规划好集群开发的未来。

　　Hortonworks：降低硬件成本

　　收集和处理网络、收集和物联网活动数据的Webtrends是另一个数据资源池用户。这是一家波兰公司，它在去年7月部署了Hortonworks发行的Hadoop集群，在今年年初正式运行，最初是为了支持一款叫做Explore的产品，让公司市场人员对客户数据进行即时分析。公司负责产品架构的总监PeterCrossley表示，在60个节点的集群上，每个quarter上要添加500TB的数据，加起来有1.28PB。

　　Webtrends计划使用Hadoop平台替换原有存储系统，通过使用Kafka信息队列技术和自动处理脚本，网络点击数据可以进入集群，能够在20到40毫秒之间进行数据分析。报表和分析基本上是实时的，比旧系统要快很多。Hadoop集群也支持更高级的分析，硬件成本要降低25%到50%。

　　使用Hadoop数据资源池，意味着公司管理和使用信息的意识要改变。之前，公司要首先同数据仓库中广泛的数据列中构建通用的数据报表。

　　公司还要考虑数据资源池架构和数据治理流程，以更好地管理Hadoop集群的数据。进入系统的生数据结构松散，但在数据治理上有严格的规定。另外，公司将Hadoop集群分成了三个独立的层，一层负责生数据，第二层负责增加的日常数据集，第三层负责第三方信息。每一层都有自己的数据分类和治理政策，因数据集不同而各异。

　　MapR：有序的数据存储

　　基于云的预测分析软件供应商Razorsight 的CTO Suren Nathan在谈到建立和使用Hadoop数据资源池时，也提到了要非常“有纪律、有组织”。如果不然，系统就会变成一个失控的垃圾场。

　　Razorsight为电信行业提供云基础的分析服务，在2014年第二季度开始使用MapR发行的Hadoop集群。来自代理的客户、运营和网络数据通过自建的提取工具加载进系统，通过Spark处理引擎提供给数据科学家，该集群有5个产品节点，120TB的存储容量。

　　像Webtrends一样，Razorsight把数据资源池分为三个部分，一部分负责6个月以内的数据，一部分负责时间更长但仍然有用的数据，最后一部分负责不再使用但需要保存的数据。目前，在前两个部分，公司有超过20TB的数据。为了使系统运行的更顺畅，公司聘请了有数据治理和分布系统部署经验的新员工，现有员工负责Hadoop、Spark和相关技术。

　　Hadoop集群每TB数据的成本是2千美元，是IBM Netezza数据仓库系统的十分之一，不过Razorsight最开始建立Hadoop集群只是为了数据存储，分析模型和数据可视化仍然是在旧系统中完成，部分原因是因为Netezza硬件和IBM的SPSS分析软件绑定。Nathan预计今年年底能够完成可视化层和分析资源池想Hadoop数据资源池架构的迁移。翻译：Eunice

更多相关： 大数据营销网络营销

免责声明：本文来源于TechTarget中国,本文仅代表作者个人观点，与网赢中国无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

有意与本网合作者请与《网赢中国》联系。未经《网赢中国》书面授权，请勿转载或建立镜像，否则即为侵权。

大数据营销

更多大数据营销资讯