本文综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例,真是各有神通,不服来辩。
Cloudera:加速数据分析
Edo Interactive是一家美国市场营销公司,帮助广告主连接线上广告和线下数据,提供数据驱动的个性化推荐服务。不过几年前,Edo遇到了这样的问题:数据仓库系统处理信用卡交易数据耗时长,不能满足公司向消费者和餐馆进行个性化推荐的业务需求。
Edo负责基础架构和信息系统的高级副总裁Tim Garnto表示:“处理每天的数据,要花费27小时,所以,任务是根本完不成的。”2013年,Edo用Hadoop集群替换了基于PostgreSQL的系统,为公司构建了数据资源池。
公司每天会收集来自全美5千万次零售交易,把数据放到有20个节点的Cloudera发行的Hadoop集群上,使用Pentaho数据集成工具。从银行和信用卡公司收集来的数据经过处理,通过预测模型向持有银行卡或信用卡的用户推荐优惠券等内容。优惠券信息由Edo的合作伙伴每周向客户发送,自动和用户的消费行为匹配。
Garnto介绍到,因为模型的复杂度不同,Edo的数据分析师可以在几分钟或几小时内处理数据,这在以前,是做不到的。
不过在数据池搭建上,公司也遇到困难,最初,只有一个IT人员有Hadoop和MapReduce编程框架的经验。公司组织了对内部员工的培训,但新的MapReduce编程等于让员工放弃了关系型数据库的方法,公司在升级流程方面花费了很多时间。
要让进入系统的生数据保持一致性,并生成标准化分析数据集也要花费一定的时间。Edo目前拥有的450亿条记录,总量255TB的数据对公司来说是核心资产,所以Garnto要倍加小心地管理,增添新的Hadoop生态系统技术,因为增加哪怕一项很小的技术,都会对系统工作的方式产生影响。Garnto因此说,在我们面临的所有挑战中,这是最有意思的,我们要富有远见地规划好集群开发的未来。
Hortonworks:降低硬件成本
收集和处理网络、收集和物联网活动数据的Webtrends是另一个数据资源池用户。这是一家波兰公司,它在去年7月部署了Hortonworks发行的Hadoop集群,在今年年初正式运行,最初是为了支持一款叫做Explore的产品,让公司市场人员对客户数据进行即时分析。公司负责产品架构的总监PeterCrossley表示,在60个节点的集群上,每个quarter上要添加500TB的数据,加起来有1.28PB。
Webtrends计划使用Hadoop平台替换原有存储系统,通过使用Kafka信息队列技术和自动处理脚本,网络点击数据可以进入集群,能够在20到40毫秒之间进行数据分析。报表和分析基本上是实时的,比旧系统要快很多。Hadoop集群也支持更高级的分析,硬件成本要降低25%到50%。
使用Hadoop数据资源池,意味着公司管理和使用信息的意识要改变。之前,公司要首先同数据仓库中广泛的数据列中构建通用的数据报表。
公司还要考虑数据资源池架构和数据治理流程,以更好地管理Hadoop集群的数据。进入系统的生数据结构松散,但在数据治理上有严格的规定。另外,公司将Hadoop集群分成了三个独立的层,一层负责生数据,第二层负责增加的日常数据集,第三层负责第三方信息。每一层都有自己的数据分类和治理政策,因数据集不同而各异。
MapR:有序的数据存储
基于云的预测分析软件供应商Razorsight 的CTO Suren Nathan在谈到建立和使用Hadoop数据资源池时,也提到了要非常“有纪律、有组织”。如果不然,系统就会变成一个失控的垃圾场。
Razorsight为电信行业提供云基础的分析服务,在2014年第二季度开始使用MapR发行的Hadoop集群。来自代理的客户、运营和网络数据通过自建的提取工具加载进系统,通过Spark处理引擎提供给数据科学家,该集群有5个产品节点,120TB的存储容量。
像Webtrends一样,Razorsight把数据资源池分为三个部分,一部分负责6个月以内的数据,一部分负责时间更长但仍然有用的数据,最后一部分负责不再使用但需要保存的数据。目前,在前两个部分,公司有超过20TB的数据。为了使系统运行的更顺畅,公司聘请了有数据治理和分布系统部署经验的新员工,现有员工负责Hadoop、Spark和相关技术。
Hadoop集群每TB数据的成本是2千美元,是IBM Netezza数据仓库系统的十分之一,不过Razorsight最开始建立Hadoop集群只是为了数据存储,分析模型和数据可视化仍然是在旧系统中完成,部分原因是因为Netezza硬件和IBM的SPSS分析软件绑定。Nathan预计今年年底能够完成可视化层和分析资源池想Hadoop数据资源池架构的迁移。翻译:Eunice
|