自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (6)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Kylin

一、技术架构Apache kylin系统可以分为在线查询和离线构建两部分,技术架构如图所示,在线查询的模块主要处于上半区,而离线构建则处于下半区。从图中可以看出,数据源在左侧,主要是Hadoop Hive,保存着待分析的用户数据。下方构建引擎从数据源抽取数据,并构建Cube。数据以关系表的形式输入,MapReduce是当前主要的构建技术。构建后的Cube保存在右侧的存储引擎中,一般选用HBa...

2018-12-22 13:38:44 354

原创 phoenix索引

1. 介绍二级索引这个特性应该是大部分用户引入Phoenix主要考虑的因素之一。HBase因其历史原因只支持rowkey索引,当使用rowkey来查询数据时可以很快定位到数据位置。现实中,业务查询需求条件往往比较复杂,带有多个查询字段组合,如果用HBase查的话,只能全表扫描进行过滤,效率很低。而Phoenix支持除rowkey外的其它字段的索引创建,即二级索引,查询效率可大幅提升。为什...

2018-12-16 01:55:52 3516 2

原创 流数据

一、架构思路思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上传到HDFS上,然后Spark处理,最后存入Hive表中,如图所示:我们之前就是使用这种方式每天分析一次日志,但是这样有几个缺点:首先我们的日志是通过Nginx每分钟存...

2018-12-09 11:03:52 1095

presto集成到ambari

presto集成到hdp的操作使用文档,详细描述操作过程,亲测可用

2019-02-23

livy-0.5.0-incubating-bin.zip

livy安装包,亲测可用,通过livy来发任务到spark进行执行,更加方便了对spark的操作

2019-02-23

phoenix连接hbase驱动包

phoenix连接hbase驱动包,小文件,供大家下载,实现sql操作hbase,简单方便快捷

2018-07-31

flume+kafka+sparkstreaming

通过flume监控文件,让kafka消费flume数据,再将sparkstreaming连接kafka作为消费者进行数据处理,文档整理实现

2019-02-23

presto-cli-0.191-executable.jar

presto集成到hdp需要下载的包,亲测,已集成成功,并正常使用。

2019-02-23

livy-rsc-0.5.0-incubating.jar

livy安装过程需要的包,进行替换livy部署包中jars中的对应的jar包

2019-02-23

徐茂盛的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除