- 博客(3)
- 资源 (6)
- 论坛 (1)
- 收藏
- 关注
原创 Kylin
一、技术架构Apache kylin系统可以分为在线查询和离线构建两部分,技术架构如图所示,在线查询的模块主要处于上半区,而离线构建则处于下半区。从图中可以看出,数据源在左侧,主要是Hadoop Hive,保存着待分析的用户数据。下方构建引擎从数据源抽取数据,并构建Cube。数据以关系表的形式输入,MapReduce是当前主要的构建技术。构建后的Cube保存在右侧的存储引擎中,一般选用HBa...
2018-12-22 13:38:44
354
原创 phoenix索引
1. 介绍二级索引这个特性应该是大部分用户引入Phoenix主要考虑的因素之一。HBase因其历史原因只支持rowkey索引,当使用rowkey来查询数据时可以很快定位到数据位置。现实中,业务查询需求条件往往比较复杂,带有多个查询字段组合,如果用HBase查的话,只能全表扫描进行过滤,效率很低。而Phoenix支持除rowkey外的其它字段的索引创建,即二级索引,查询效率可大幅提升。为什...
2018-12-16 01:55:52
3516
2
原创 流数据
一、架构思路思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上传到HDFS上,然后Spark处理,最后存入Hive表中,如图所示:我们之前就是使用这种方式每天分析一次日志,但是这样有几个缺点:首先我们的日志是通过Nginx每分钟存...
2018-12-09 11:03:52
1095
flume+kafka+sparkstreaming
2019-02-23
徐茂盛的留言板
发表于 2020-01-02 最后回复 2020-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝