Storm作者Nathan Marz的大作《Big Data: Principles and Best Practices of Scalable Realtime Data Systems》原版授权翻译,未经允许不得转载!
在本书中我们将创建一个大数据应用程序示例来说明一些概念。我们将为Google Analytics构建数据管理层——比如服务。该服务将能够每天追踪数十亿的页面浏览量。
该服务将支持多种不同的指标。每个指标都被实时地支持。指标范围很广,从简单的统计指标,到访客是如何浏览网站的复杂分析指标。
这是我们将支持的指标:
■ 按照时间切片基于URL的页面浏览计数——示例查询是“过去一年中每一天的页面浏览是多少?”和“过去12小时内有多少页面浏览量?”
■ 按照时间切片基于URL的独立访客——示例查询是“2010年有多少独立访客访问这个域名?”和“过去三天内每个小时,有多少访客访问这个域名?”
■ 跳出率分析——“用户访问该站点的某个页面,没有访问其他任何页面的百分比是多少?”
我们将构建存储、处理、并为应用程序提供查询的层。
|