网赢中国专注大数据营销 [会员登录][免费注册][网赢中国下载]我要投稿|加入合伙人|设为首页|收藏|RSS
网赢中国是大数据营销代名词。
大数据营销
当前位置:网赢中国 > 行业资讯 > 行业动态 > 大数据营销行业动态 > 到底穿T恤、正装还是道袍?数据挖掘师的定位
到底穿T恤、正装还是道袍?数据挖掘师的定位
编辑:周学春  发布时间: 2015-11-3    文章来源:36大数据
大数据营销

大数据

  (图为:剑网3 玩家Cosplay)


  心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一圈。


  最近看了《再次出发》,大意是讲两个失意的音乐人重振旗鼓再次出发,挺不错。但是,总觉得在电影院里面看剧情片,节奏太慢受不了,个人偏好。倒是里面所有的音乐都很好听。它会给你平静、简单、自然、祥和、空灵和穿透的感觉。适合写这篇文章的时候循环播放。


  大数据是什么?其实我也不太清楚。但是人们常常用四个关键词去刻画和描述它。即Volume、Variety、Value和Velocity。


  什么样的人在从事数据挖掘的工作?别人说:“T恤、正装和道袍”。


  做挖掘采用什么工具?开源、“众人堆柴火焰高”。


  (一)大数据的本质(4V)


  (1)Volume(容量)


  就是说数据规模和容量非常庞大。简单来说,传统的银行数据仓库中大概有小几万张表,记录着各个系统的数据。拿其中一张表举例(零售客户金融资产表),一般而言,零售客户都是非常海量的。股份制银行至少有千万级的零售客户。基本上,每天的零售客户金融资产表,其产生的数据量就有几个G。


  银行哪里来的大数据。有些人不太理解银行里面记录的都是什么数据,还是比较抽象,不够具体清晰。假设你有一张借记卡。你转账、存款、取现、贷款、购买理财、基金、保险、刷卡、交易数据、你开户时填写的个人资料、办理业务时填写的个人资料,都会被记录下来。简而言之,你和银行的每一次交互,在后台系统都会存在记录,这就是数据仓库的原始数据来源。


  (2)Variety(多样性)


  就是说数据类型非常多样。但是,天下数据,基本上也就包括三种类型。


  第一种,结构化数据。就是常见的二维表。一条记录代表一个客户(行维度),列维度代表属性和特征。例如,张三的定期余额、活期、理财、保险、国债余额等。


  第二种,半结构化数据。需要通过一定的技术抽取关键的特征和变量。


  例如简历,一般来说,都能够从简历里面抽取一些通用的特征,如年龄、性别、工作单位、工作年限、教育背景等。例如,网络日志分析,互联网公司常常从用户的浏览日志中抓取一些特征和变量,例如IP地址、浏览器类型、系统类型、登陆时间、登陆市场、登陆次数等等。有些做风控的公司,通过抓取全国所有法院的判决文书,抓取企业是否涉诉,涉诉金额,作为判断还款能力的重要标准和依据。


  第三种,非结构化数据。非结构化数据处理起来就比较复杂,这也是当前数据处理的一个前沿方向。例如图像识别、人脸识别、视频识别、音频识别等。


  (3)Value(价值)


  就是说,海量数据意味着挖掘后产生的价值也是非常高的。通过数据挖掘去探索数据背后的规律和模式。


  例如,通过挖掘,大致可以判断客户购买理财产品的概率有多大。如果比较大的话,就会向该客户推荐该理财产品。例如,通过挖掘,可以识别客户的交易图谱,客户关系网络。


  (4)Velocity(速度)


  其实说实话,大数据之所以会为大众所知,还是因为数据存储和加工技术的进步,运算不再成为一个瓶颈。


  (二)数据挖掘工种:T恤、正装和道袍


  因为业务的关系,最近听一个人做介绍和分享,有个观点还是挺有趣的。他说做大数据的,大概有三类人群。在此借用一下观点。


  第一种是穿T恤的,这种人一般都在互联网公司。


  第二种人穿正装,这种人一般在金融机构(例如银行、证券)、金融相关的咨询公司(SAS、FICO)。


  第三种人是穿道袍的,到处忽悠,向非专业的layman倾销观点。例如一些第三方数据公司、或者一些动辄就扯大数据概念,从来不落地的公司等。其实银行里面更多,很多时候呼喊大数据口号的都是做战略管理和规划的,估计压根没接触过海量数据。


  前两种人都较为偏技术一些。他们的差别更多的来自行业形态的差异。比方说,互联网是较为充分竞争的领域,因此,穿T恤的,一般都挺有几把刷子的。银行和金融领域,还是处于政策管制的领域,竞争不是特别充分,投入产出和效率意识并不强。数据挖掘更像是锦上添花、花拳绣腿的产物。由此表现出来非常明显的差别就是,银行永远都是花最贵的钱,买最贵的技术、产品和外包服务,例如SAS。互联网一般都是,怎么免费怎么来,数据库和挖掘的软件基本上都是开源的,例如R语言、python。


  第三种穿道袍的人。虽然有些忽悠成分,但是,很多时候,也正是他们教育了普罗大众,培育了整个市场,启蒙了大环境。其实,想一想,T恤、正装、道袍各自有各自的定位和受众。广义一点,其实穿道袍的人多了去了,任何行业,任何领域,夸夸其谈扯不到一点专业实质的,都可以称之为“道袍先生”。但是,存在,就是合理的。


  (三)挖掘工具:开源的力量


  接着上面的话题。


  互联网公司一般用免费开源的挖掘软件,例如Mysql、R语言、Python。高大上的银行一般花了数千万采购TD、SAS,常常采购的都是各种阉割的版本。毕竟SAS是封闭的商业软件。


  我自己使用最为熟练是SAS和R。简单进行比较一下。其他一些统计类软件,例如SPSS、Eviews、AMOS、STATA,比较适合小样本数据分析,适合高校科研环境,不展开。


  (1)SAS的封闭


  SAS base。侧重大样本数据分析,可以做千万和上亿样本级别的数据分析。Base最擅长数据的加工、整理、汇总。然后,统计模块部分,基本上能实现SPSS所有的功能。


  SAS EM。和Modeler基本上一模一样。傻瓜式的、拖拽风格的挖掘工具。它之所以能够贴上挖掘的称号,是因为其嵌入了很多成熟的统计和机器学习算法(聚类、贝叶斯、神经网络、决策树、SVM、随机森林、集成学习、逻辑回归等)。但是,他们却是非常傻瓜式的挖掘工具,因为他们是基于图标、节点和流程的。入手很快,结果较为粗糙,难以进行个性化、定制化的数据分析和挖掘,难以进行批量化的参数优化和调整。


  初期入手还行,后期处处受限。


  (2)R的开放


  R语言。是目前遇到的最自由式的数据挖掘工具。因为是采用内存加工处理数据,限制了数据分析的体量,有时候样本或者算法较复杂,内存会溢出报错。但是,说实话,这是我非常喜欢的挖掘工具。


  一方面,它有很多算法包,我可以很容易找到最前沿的算法和模块。例如,做社会网络分析igraph、例如做文本分析tm等。而这些对于SAS来说,都是收费模块,很难获取。


  另一方面,你可以定制自己的算法和包。EM最大的一个局限就是不能定制化自己的玩法,没办法修改模型算法,没办法对数据进行遍历和加工。但是,R可以做到。


  例如,做kmeans聚类时,R可以批量跑很多分组,但是EM每次只能run一个。例如,你可以用R同时循环50棵决策树,从而找出最优的决策树。但是EM就做不到。


  换言之,EM傻瓜操作的同时,就难以满足熟练工的更高阶的需求。鱼和熊掌,难以兼得。


 


  我的一个感受。常常有人说,统计软件,你只要精通一个就行了。其实,我是比较不认同这种说法的。很多时候,你的挖掘能力完全受制于你的工具。做挖掘,你的想象空间与你的工具完全是相关的。每个工具之所以能存在,必然是因为,它能够完成其他软件不能够完成的部分。这也是我当时熟练SAS后,接触R语言的一个最基本的理由和出发点。






大数据营销
编辑推荐
图片行业资讯
  • 网赢中国:出现中文乱码的解决方法
  • 邮件营销 操作教程
  • QQ机器人 之 智能大数据营销视频教程
  • QQ精准营销 之 多群成员群发教程
  • QQ精准营销 之 批量加好友教程
营销资讯搜索
大数据营销
推荐工具
    热点关注
    大数据营销
    大数据营销
    大数据营销
    大数据营销
     

    大数据营销之企业名录

    网络营销之邮件营销

    大数据营销之搜索采集系列

    大数据营销之QQ号采集

    大数据营销之QQ精准营销

    大数据营销之QQ消息群发

    大数据营销之空间助手

    大数据营销之QQ联盟

    大数据营销之QQ群助手
     
    设为首页 | 营销资讯 | 营销学院 | 营销宝典 | 本站动态 | 关于网赢中国 | 网赢中国渠道 | 网站RSS | 友情链接
    本站网络实名:网赢中国  国际域名:www.softav.com  版权所有 2004-2024  技术支持:中投网络 粤ICP备05041759号
    邮箱:web@softav.com 电话:+86-755-26010839(十八线) 传真:+86-755-26010838
    在线咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息  点击这里给我发消息  点击这里给我发消息

    深圳网络警
    察报警平台
    公共信息安
    全网络监察
    经营性网站
    备案信息
    不良信息
    举报中心
    中国文明网
    传播文明
    分享