学习路径
一、平台基础
-
1.1、大数据
-
了解什么是大数据,大数据入门,以及大数据介绍。
以及大数据中存在的问题,包括存储,计算的问题,有哪些解决策略。 1.2、Hadoop平台生态圈
-
熟悉了解开源Hadoop平台生态圈,以及第三方大数据平台,查找一些Hadoop入门介绍博客或者官网,了解:
What’s Hadoop
Why Hadoop exists
How to Use Hadoop 1.3、Hadoop家族成员
- Hadoop是一个庞大的家族,包含存储,计算等一系列产品组件,需要了解其中的一系列组件,包括HDFS,MapReduce,Yarn,Hive,HBase,ZooKeeper,Flume,Kafka,Sqoop,HUE,Phoenix,Impala,Pig,Oozie,Spark等,知道其干什么,维基百科定义。 1.4、HDFS
- 分布式存储HDFS,了解HDFS架构,HDFS的存储机制,各节点协作关系需理解清楚。 1.5、Yarn
- 分布式资源管理Yarn,熟悉Yarn架构,以及如何进行资源管理的机制。 1.6、MapReduce
- 分布式计算MapReduce,对MapReduce底层架构,处理方案进行了解,计算