
大数据架构图
简介:提供了大致的大数据系统上的架构图,给初学者一个基本印象,知道一个基本的完整的大数据架构应该是怎样的,作为一个简单了解。
架构图1:


架构底层核心技能
数据采集工具
离线
Sqoop
简介:早期数据抽取工具。现在基本上都用DataX。
DataX
简介:高效的数据抽取工具,适配多种数据源,相比于sqoop使用简便。
Kettle
实时
Flume
简介:日志抽取工具。
Maxwell
Canal
简介:模仿成为MySQL的从库,实时同步数据使用,经常用作实时数仓、redis数据一致等场景使用。
中间件技术栈
分布式协调服务Zookeeper
详细可以看这篇文章
分布式缓存Redis
详细可以看这篇文章
分布式消息系统Kafka
详细可以看这篇文章
分布式消息系统Pulsar
详细可以看这篇文章
ELK Stack数据分析
详细可以看这篇文章
分布式存储技术
分布式数据库HBase
简介:支持随机查询的高性能列式数据库。
分布式数据仓库Hive
简介:与Hadoop结合使用,给Hadoop提供SQL支持方便数据查询处理。
数据湖技术Hudi
数据湖Delta lack
简介:数据湖工具,与spark一家公司出品,结合起来很好用。
数据湖Iceberg
数据处理技术体系
分布式计算框架MapReduce
分布式计算框架Spark
简介:实时/离线计算工具。
分布式计算框架Flink
简介:实时/离线计算工具,现大多数采用,与spark类似。
增强计算查询Impala
简介:对Hadoop做查询增强使用,可以在Hadoop基础上很方便的编写SQL进行数据处理。
OLAP生态体系
OLAP-Kylin
OLAP-Presto
OLAP-Druid
OLAP-ClickHouse
OLAP-Phoenix
OLAP-Kudu
简介:同时支持OLAP和OLTP的大数据库。
OLAP-Doris
简介:提供整套功能的大数据数据库,不像Hadoop那样大数据完整功能需要各组件支持,Doris自己就可以搭建起来,适合搭建早期数仓使用。
Cassandra
简介:开源分布式NoSQL数据库,早期作为数仓使用。
OLAP-Hadoop
简介:传统离线数据仓库中间件,需要各组件配合才能构建完整大数据生态。架构较重。
TiDB
简介:支持OLAP和OLTP的分布式数据库。
稳健架构设计
数据治理-数据质量管理
数据治理-元数据管理
Atlas
简介:进行元数据管理,用以构建数据资产目录,形成数据字典。展示表与表、字段与字段之间的血缘关系等。
数据治理-数据安全管理
Kerberos
简介:为Hadoop集群提供安全认证管理功能。

可视化:FinBI,dataV,TCV,Superset,Hue……
集群调度体系
DolphinScheduler
简介:国产大数据任务调度管理工具,界面友好,支持拖拉拽部署任务。推荐选择。
分布式资源调度Yarn
任务流调度oozie
简介:早期大数据任务调度管理工具,但其实最好用的是海豚(DolphinScheduler)。
任务流调度Azkaban
简介:早期大数据任务调度管理工具,但其实最好用的是海豚(DolphinScheduler)。
Airflow任务调度
Nifi
简介:大数据任务调度管理工具,NSA(美国国家安全局)出品,因在国内社区不太广泛,所以现在都用海豚。
集群管理平台clouderaManager
Ambari大数据集群搭建管理
CDH
简介:大数据组件部署平台,鉴于大数据需要很多类型的中间件,而这些中间件又需要集群部署,所以整个项目的部署运维工作会非常繁琐,CDH则解决了这样的问题。
HDP
简介:大数据组件部署平台,相比于CDH开源免费,但后续被CDH母公司收购,不再继续更新维护。
