网赢中国专注大数据营销 [会员登录][免费注册][网赢中国下载]我要投稿|加入合伙人|设为首页|收藏|RSS
网赢中国是大数据营销代名词。
大数据营销
当前位置:网赢中国 > 行业资讯 > 技术文章 > 大数据营销技术文章 > Hadoop哪家强?Hortonworks、Cloudera、MapR案例集锦-Hadoop
Hadoop哪家强?Hortonworks、Cloudera、MapR案例集锦-Hadoop
编辑:Craig Stedman 发布时间: 2015-6-25    文章来源:TechTarget中国
大数据营销

  本文综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例,真是各有神通,不服来辩。


hadoop


  Cloudera:加速数据分析


  Edo Interactive是一家美国市场营销公司,帮助广告主连接线上广告和线下数据,提供数据驱动的个性化推荐服务。不过几年前,Edo遇到了这样的问题:数据仓库系统处理信用卡交易数据耗时长,不能满足公司向消费者和餐馆进行个性化推荐的业务需求。


  Edo负责基础架构和信息系统的高级副总裁Tim Garnto表示:“处理每天的数据,要花费27小时,所以,任务是根本完不成的。”2013年,Edo用Hadoop集群替换了基于PostgreSQL的系统,为公司构建了数据资源池。


  公司每天会收集来自全美5千万次零售交易,把数据放到有20个节点的Cloudera发行的Hadoop集群上,使用Pentaho数据集成工具。从银行和信用卡公司收集来的数据经过处理,通过预测模型向持有银行卡或信用卡的用户推荐优惠券等内容。优惠券信息由Edo的合作伙伴每周向客户发送,自动和用户的消费行为匹配。


  Garnto介绍到,因为模型的复杂度不同,Edo的数据分析师可以在几分钟或几小时内处理数据,这在以前,是做不到的。


  不过在数据池搭建上,公司也遇到困难,最初,只有一个IT人员有Hadoop和MapReduce编程框架的经验。公司组织了对内部员工的培训,但新的MapReduce编程等于让员工放弃了关系型数据库的方法,公司在升级流程方面花费了很多时间。


  要让进入系统的生数据保持一致性,并生成标准化分析数据集也要花费一定的时间。Edo目前拥有的450亿条记录,总量255TB的数据对公司来说是核心资产,所以Garnto要倍加小心地管理,增添新的Hadoop生态系统技术,因为增加哪怕一项很小的技术,都会对系统工作的方式产生影响。Garnto因此说,在我们面临的所有挑战中,这是最有意思的,我们要富有远见地规划好集群开发的未来。


  Hortonworks:降低硬件成本


  收集和处理网络、收集和物联网活动数据的Webtrends是另一个数据资源池用户。这是一家波兰公司,它在去年7月部署了Hortonworks发行的Hadoop集群,在今年年初正式运行,最初是为了支持一款叫做Explore的产品,让公司市场人员对客户数据进行即时分析。公司负责产品架构的总监PeterCrossley表示,在60个节点的集群上,每个quarter上要添加500TB的数据,加起来有1.28PB。


  Webtrends计划使用Hadoop平台替换原有存储系统,通过使用Kafka信息队列技术和自动处理脚本,网络点击数据可以进入集群,能够在20到40毫秒之间进行数据分析。报表和分析基本上是实时的,比旧系统要快很多。Hadoop集群也支持更高级的分析,硬件成本要降低25%到50%。


  使用Hadoop数据资源池,意味着公司管理和使用信息的意识要改变。之前,公司要首先同数据仓库中广泛的数据列中构建通用的数据报表。


  公司还要考虑数据资源池架构和数据治理流程,以更好地管理Hadoop集群的数据。进入系统的生数据结构松散,但在数据治理上有严格的规定。另外,公司将Hadoop集群分成了三个独立的层,一层负责生数据,第二层负责增加的日常数据集,第三层负责第三方信息。每一层都有自己的数据分类和治理政策,因数据集不同而各异。


  MapR:有序的数据存储


  基于云的预测分析软件供应商Razorsight 的CTO Suren Nathan在谈到建立和使用Hadoop数据资源池时,也提到了要非常“有纪律、有组织”。如果不然,系统就会变成一个失控的垃圾场。


  Razorsight为电信行业提供云基础的分析服务,在2014年第二季度开始使用MapR发行的Hadoop集群。来自代理的客户、运营和网络数据通过自建的提取工具加载进系统,通过Spark处理引擎提供给数据科学家,该集群有5个产品节点,120TB的存储容量。


  像Webtrends一样,Razorsight把数据资源池分为三个部分,一部分负责6个月以内的数据,一部分负责时间更长但仍然有用的数据,最后一部分负责不再使用但需要保存的数据。目前,在前两个部分,公司有超过20TB的数据。为了使系统运行的更顺畅,公司聘请了有数据治理和分布系统部署经验的新员工,现有员工负责Hadoop、Spark和相关技术。


 


  Hadoop集群每TB数据的成本是2千美元,是IBM Netezza数据仓库系统的十分之一,不过Razorsight最开始建立Hadoop集群只是为了数据存储,分析模型和数据可视化仍然是在旧系统中完成,部分原因是因为Netezza硬件和IBM的SPSS分析软件绑定。Nathan预计今年年底能够完成可视化层和分析资源池想Hadoop数据资源池架构的迁移。翻译:Eunice


大数据营销
编辑推荐
图片行业资讯
  • 雷军隔空喊话董明珠:格力 小米欢迎你
  • 杨元庆:Moto在华上市一周预定量超100万
  • 小米洪锋谈O2O布局:做商城不做具体服务
  • 盖茨向不知名实体捐赠15亿美元微软股票 持股降至3%
  • 刘强东:允许我获取数据 冰箱免费送给你
营销资讯搜索
大数据营销
推荐工具
    热点关注
    大数据营销
    大数据营销
    大数据营销
    大数据营销
     

    大数据营销之企业名录

    网络营销之邮件营销

    大数据营销之搜索采集系列

    大数据营销之QQ号采集

    大数据营销之QQ精准营销

    大数据营销之QQ消息群发

    大数据营销之空间助手

    大数据营销之QQ联盟

    大数据营销之QQ群助手
     
    设为首页 | 营销资讯 | 营销学院 | 营销宝典 | 本站动态 | 关于网赢中国 | 网站地图 | 网站RSS | 友情链接
    本站网络实名:网赢中国  国际域名:www.softav.com  版权所有 2004-2015  深圳爱网赢科技有限公司
    邮箱:web@softav.com 电话:+86-755-26010839(十八线) 传真:+86-755-26010838
    在线咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息  点击这里给我发消息  点击这里给我发消息

    深圳网络警
    察报警平台
    公共信息安
    全网络监察
    经营性网站
    备案信息
    不良信息
    举报中心
    中国文明网
    传播文明
    分享