网赢中国专注大数据营销 [会员登录][免费注册][网赢中国下载]我要投稿|加入合伙人|设为首页|收藏|RSS
网赢中国是大数据营销代名词。
微博营销
当前位置:网赢中国 > 行业资讯 > 行业动态 > 微博营销行业动态 > 太阳底下无隐私:那些年我们做的微博数据挖掘
太阳底下无隐私:那些年我们做的微博数据挖掘
编辑:沙漠之鹰 发布时间: 2015-12-16    文章来源:36大数据
微博营销

数据挖掘

  新浪微博在2012年-2013年红得发紫,也是移动互联网快速成长的年代。主页君当时就读于北京邮电大学,在实验室老师的指导下,从4G研发转战数据挖掘。从此我们项目组在实验室每天的科研工作就是刷微博,看八卦,观凤姐独领风骚,赏公知互相撕逼。这篇文章,让我们尝试回忆那个时代有趣的工作和结论。


  也来谈谈微博的用户画像


  行走在网格之间:微博用户关系模型


  微博推荐架构的演进


  微博广告推荐中有关Hadoop的那些事


  非常开放的微博接口


  彼时,各大互联网公司都在发展开放数据平台,作为自媒体的翘楚新浪微博自然不例外。通过高级账号接口,几乎可以访问微博上所有的数据。


数据挖掘

  只要输入微博用户名,就可以获取该用户所有的微博,粉丝和好友。


  2013年年底,新浪微博官方称拥有3亿用户。但经过我们对全网数据的抓取和分析,发现真正活跃用户不超过五千万人。这也与观察相似,绝大多数父母辈的人,只是听说过微博,但远远没有像现在使用微信一样产生重度依赖。


数据挖掘

  对用户按地域分组,可以看到,广东,上海和北京的微博用户是最多的。微博用户的数量,基本上和该省的经济总量强相关。尤其是广东,作为互联网普及率超高的地区,占据了全国接近四分之一的微博用户。


  通过好友关系了解八卦


  我们能够分析好友间的关系。可把每个好友看做一个小球,好友的连接作为一条弹簧,设定初值后,这个好友构成的网络就会逐渐稳定,所谓物以类聚,人以群分。初高中,本硕同学,亲戚同事,有共同爱好的各自聚在一起。甚至两个人如果是情侣或是基友,那么位置也会分外接近。各种八卦在一张图上一目了然。


数据挖掘

  上面就是主页君微博300多位好友的分析,整个计算过程从采集数据到可视化,需要约10秒钟。小球的颜色代表了分组,大小展示了好友的重要性。在中心位置的人,当然是主页君啦。


  如何定义好友间的关系呢?很简单,共同好友和互相留言的数量越多,关系越紧密。地域,性别,爱好和组织也作为重点考虑的因素。两个人之间虽然互不认识,但如果有不少共同好友,连接也会较强。


  你可以通过这张图推测此人的爱好,比如放大看一个只有六个用户的小类:清晰的表明了他关注书画鉴赏。


数据挖掘

  我们还能通过他们的好友和留言特征,分析好友关系的类型,比如是同事,同学,或是情侣,还能一定程度上推演他们是何时和如何认识的。太阳底下无新事,微博之下无隐私。


  超大规模网络分析


  仅仅分析某人的好友,这太easy了。为了研究巨大社群的关系结构,我们针对海淀的20万个微博用户,进行了超大规模网络分析,绘制出了如下的复杂结构(密集恐惧症慎入):


数据挖掘

  在海淀这样的高校和科技公司为核心的体系中,通过自动聚类和网络计算,发现小型社团的规模大概在10人左右,大型社团高达几千人,一般是同一学校的同学。很多社团是IT相关的,海淀果然是码农聚集地。


  通过3D引擎,我们能够把整个网络以三维的结构绘制出来。你可以成为一架飞机,能在天空中漫游,从不同角度观察好友间的关系。


数据挖掘

  绽放的花朵:信息是如何被传播的


  在微博营销过程中,客户将特别关心微博的传播能力,即,对用户群造成了多大的影响,哪些节点是核心传播节点,是否有水军等。我们专门对此开发了一项功能:


  我们随意以潘石屹的其中一条微博“一句话不会讲,将来中国做支教老师了,勇敢啊@美丽中国” 。 这条微博比较中性,讲的是鼓励美丽中国 (Teach For China)这个公益组织中的一些外国友人,来中国偏远山区进行支教的故事。


  之所以选这样普通的微博,是因为潘老大随便发一条微博就上十万次转发,传播量大的微博需要花费太多时间抓取原始数据。


  下图展示了这条微博的传播统计。两分钟之后,转发次数达到高峰。一分钟之内被转发了33次。


数据挖掘

  还能清楚地发现传播者的省份,性别,认证情况和传播层级。内容中性的微博,各省市的比例基本和各省微博用户分布一致。


数据挖掘

  观察微博的传播过程是很有趣的,为此我们开发了一个能够播放网络的生成过程的“播放器”。转发微博从中心节点生成,按照时间顺序展开,就像盛开的花朵一样。


数据挖掘

  从这张图中,可以容易看出,潘石屹是微博源头,经过他夫人张欣进行二次转发,任志强又从张欣进行了三次转发,产生的传播能力也比第二次强。美丽中国也通过张欣进行了第三次转发,也有少部分四次,五次和六次转发。


  这种技术有三个重要用途


  1)评估网络营销的传播能力,很多公司的广告部门会根据传播效果进行付费。


  2)微博溯源,一些造谣者产生内容,并故意让一些大号转发,谁造谣谁传谣,一目了然。


  3)网络水军分析。据观察,水军微博和普通微博的生成的网络结构图完全不同。能够很容易地发现哪些是水军。


  这贪官该落马了:舆情分析


  说起舆情分析,就不得不谈论2012年的网红“表哥”杨达才。 原陕西省安全生产监督管理局局长杨达才,在一场悲惨的车祸现场微笑而惹怒网友。万能网友通过他戴的世界名表来找他的“茬”,结果拔出萝卜带出泥,挖出他有多块名表,现金存款1600多万元。再后来,他被有关部门”高度重视“,双规了。


数据挖掘

  这是一个有趣的案例,我们在之前收集了各大报纸的400万条新闻数据,1亿多条微博的基础上,进行了一次舆情分析。


数据挖掘

  黄线是微博讨论“表哥”的热度,红线是报刊新闻的热度,系统针对每个高峰值,自动打上了和它相关的新闻标签。


  微博讨论一共有三个高峰。第一个高峰是8月26日,表哥的微笑第一次被天涯曝光,原创微博数高达四万条。第二个高峰是几天后网络上曝出他有多块名表。一个礼拜后,传统的新闻报刊开始介入。进行了四周的高强度的报道,每天都有两三千篇。


  我们特别好奇为何新闻总是在周末处于低谷,进行了不少讨论也没结果,后来问了新闻界的朋友,才知道好多报社周日不上班(汗)。微博的第三次高峰,就是杨达才被双规,但在微博引起的波澜,已经远远没有前两次那么强烈。


  我们通过这张图,能够明显发现微博和传统新闻媒体的不同模式。微博来得凶猛,去得也快,是网民草根的狂欢,热度不会超过三天,而且”车祸现场微笑戴名表“的关注度明显比”双规“来得更疯狂;传统媒体慢热,却代表官方意见,在微博冷却后才有所反应,一般不会报道“微笑”,但一旦出现真正的腐败(大量存款)后马上就介入,来得慢,去的也慢。


  其实多分析几个案例,就会发现各种贪官落马,假冒产品曝光的模式,都和上面的案例类似。先是微博热度爆表,之后传统媒体介入,马上就有有关部门高度重视了。进而,在对传统媒体和自媒体之间的相互影响建模以后,在理论上,能够大致预测一个贪官在被自媒体曝光后,多久会落马。


  他们的观点是什么?分析语义


  微博是有观点和情感的,分析其内容很重要。但语义是很难被量化的,受到计算复杂性和时效性的限制,也不可能做到太精细。


  首先是话题。微博有针砭时弊,也有娱乐八卦,我们通常用关键词来进行判断。词汇和好友一样,也构成了一个语义网络。”自责“和”羞耻“相似而不同,一旦出现”满五唯一“,”免税“,大概就和楼市相关了。通过这种手段,我们能够对话题进行筛选和分类。比如只关心微博中与”苹果手机“相关的内容。


  下图展示了对潘石屹的微博进行话题分类,占比最高的是”文化“,低一些的有经济,政治,教育等(怪我懒,这实际上是把对新闻做分类的模型用在了微博上)。


数据挖掘

  其次是情感趋向。遇到放假,微博锣鼓喧天鞭炮齐鸣。TFBoy又爆自拍,有人赞美”你们不知道他们有多努力吗?“,有的黑到死(此处省略十万字)。通过分析情感,我们能够分析针对某一话题,大家的观点分布和情感走向。例如网友对某款手机的看法,一定程度上预测其销量。笔者还有一位中科院心理所的朋友,他们成功地通过微博分析,发现抑郁症的朋友,帮助他们走出困境,防止自残行为。


  情感有很多种,但我们将情感简化为正向和负向的数值,而且正向和负向的情感可以共存。下图是我们分析某网红从2011年到2013年的情感变化(图表来自笔者的研究生毕业论文)。


数据挖掘

  结论:应当更关注用户隐私


  我们分析的只是信息海洋中的沧海一粟。仅仅通过公开的数据,就能做出大量的分析。


  如今人们如此的依赖于手机和各类应用。电商掌握了所有的购物行为,地址,银行账户,电话号码。通信运营商记录了短信电话和位置。各类社交工具存储了用户所有的语音和聊天记录。搜索引擎记录了你每一次的点击动作。滴滴打车明白你的出行轨迹,大姨吗,陌陌了解你的…


  总之,如今的互联网,根本没有任何隐私可言。理论上说,通过半公开的数据,你就能了解某人的一切隐私。而这些数据只是冰山一角,大量的暗数据蕴含着更可怕的能量。


  彼时,在“开放数据平台”的风气下,各大微博API接口是非常开放的。只要拥有高级访问接口,便可以几乎无限制地访问所有数据。然而棱镜门之后,用户对数据隐私开始前所未有的重视。目前微博对于这种高强度的数据分析,已经不可能了,除非用户授权。


  但是,这只是公司不公开了,但那些数据,还存在服务器并被买卖交换。可想而知,企业的”不作恶“是多么重要。


  北京邮电大学在移动互联网的新形势下,培养了大批人才。不少实验室将通信与移动互联网,计算机方向结合,在社交网络,多媒体挖掘,数据分析等方面建树颇丰。欢迎报考北京邮电大学!


  备注


  1. 这些工具都是自行开发的吗?


  是的,整个软件除了图表使用了第三方可视化库之外,所有的采集,分析和可视化都是自行开发的。尤其是那套可视化画布系统,其布点算法,图形引擎花了将近一个月时间。


  2. 现在还能做这些分析吗?


  微博接口都几乎都已经关闭。但2013年,我们就进行了一项计划,在四个月内通过十几台机器并行抓取,存储了微博两千万高质量用户的基础信息和社交关系,还有上亿条微博和相关评论。虽然并非实时数据,但针对科研学习和分析已经足够。


  3. 还有其他好玩的吗?


  其实,在微博中,有很多用户并不是真正的人,而是机器。2013年,我们进行了一项名为”魔法小屋“的计划。通过微博和纯粹的自然语言,你可以方便地控制家里的电器,了解天气,股票,了解朋友的八卦,还能和它闲聊。如今小娜和Siri已经很火爆了,但实际上我们通过不到1000行代码,就实现了可圈可点的语义解析和对话系统。


  不少微博用户发完微博之后,很喜欢再把自己的位置标出来。这样,我们就能可视化他的位置,通过他在不同位置出现的模式,一定程度上预测他的位置。下图展示了一位大牛的江南骑行路线,红点下标出了他出现的时间和发的微博:


 


数据挖掘





微博营销
编辑推荐
图片行业资讯
  • 今日头条张一鸣:技术如何让信息获取变得更高效?
  • 我们和他们,究竟谁是傻X? | 华尔街黑历史(一)
  • 华为:站在世界之巅,坚持初心
  • 秦刚:减法
  • 互联网金融论坛,大咖们都说了啥
营销资讯搜索
微博营销
推荐工具
    热点关注
    微博营销
    微博营销
    微博营销
    微博营销
     

    大数据营销之企业名录

    网络营销之邮件营销

    大数据营销之搜索采集系列

    大数据营销之QQ号采集

    大数据营销之QQ精准营销

    大数据营销之QQ消息群发

    大数据营销之空间助手

    大数据营销之QQ联盟

    大数据营销之QQ群助手
     
    设为首页 | 营销资讯 | 营销学院 | 营销宝典 | 本站动态 | 关于网赢中国 | 网赢中国渠道 | 网站RSS | 友情链接
    本站网络实名:网赢中国  国际域名:www.softav.com  版权所有 2004-2015  深圳爱网赢科技有限公司
    邮箱:web@softav.com 电话:+86-755-26010839(十八线) 传真:+86-755-26010838
    在线咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息  点击这里给我发消息  点击这里给我发消息

    深圳网络警
    察报警平台
    公共信息安
    全网络监察
    经营性网站
    备案信息
    不良信息
    举报中心
    中国文明网
    传播文明
    分享