大数据技术栈

大数据技术栈

大数据架构图

简介:提供了大致的大数据系统上的架构图,给初学者一个基本印象,知道一个基本的完整的大数据架构应该是怎样的,作为一个简单了解。

架构图1:

img

img

大数据整体架构概述

架构底层核心技能

  1. JVM
  2. 多线程&高并发
  3. 网络通信I/O

数据采集工具

离线

Sqoop

简介:早期数据抽取工具。现在基本上都用DataX。

视频地址

Sqoop离线数据采集工具零基础入门到实战

DataX

简介:高效的数据抽取工具,适配多种数据源,相比于sqoop使用简便。

视频地址

文档地址

Kettle

实时

Flume

简介:日志抽取工具。

视频地址

Flume大数据日志离线数据采集工具零基础入门到实战

Maxwell

Canal

简介:模仿成为MySQL的从库,实时同步数据使用,经常用作实时数仓、redis数据一致等场景使用。

视频地址

Canal大数据实时数据采集工具零基础入门到实战

中间件技术栈

分布式协调服务Zookeeper

详细可以看这篇文章

分布式缓存Redis

详细可以看这篇文章

分布式消息系统Kafka

详细可以看这篇文章

分布式消息系统Pulsar

详细可以看这篇文章

ELK Stack数据分析

详细可以看这篇文章

分布式存储技术

分布式数据库HBase

简介:支持随机查询的高性能列式数据库。

视频地址

HBase大数据库零基础从入门到实战

HBase陌陌海量存储案例实战

分布式数据仓库Hive

简介:与Hadoop结合使用,给Hadoop提供SQL支持方便数据查询处理。

视频地址

数据湖技术Hudi

数据湖Delta lack

简介:数据湖工具,与spark一家公司出品,结合起来很好用。

视频地址

Deltalack数据湖零基础入门到实战

数据湖Iceberg

数据处理技术体系

分布式计算框架MapReduce

分布式计算框架Spark

简介:实时/离线计算工具。

视频地址

点击查看资料

Spark概念总结

分布式计算框架Flink

简介:实时/离线计算工具,现大多数采用,与spark类似。

视频地址

Flink大数据计算工具零基础入门到实战

增强计算查询Impala

简介:对Hadoop做查询增强使用,可以在Hadoop基础上很方便的编写SQL进行数据处理。

视频地址

Impala增强计算查询工具零基础入门到实战

OLAP生态体系

OLAP-Kylin

OLAP-Presto

OLAP-Druid

OLAP-ClickHouse

视频地址

OLAP-Phoenix

OLAP-Kudu

简介:同时支持OLAP和OLTP的大数据库。

视频地址

Kudu大数据库零基础从入门到实战

OLAP-Doris

简介:提供整套功能的大数据数据库,不像Hadoop那样大数据完整功能需要各组件支持,Doris自己就可以搭建起来,适合搭建早期数仓使用。

视频地址

Doris大数据库零基础入门到实战

Cassandra

简介:开源分布式NoSQL数据库,早期作为数仓使用。

视频地址

Cassandra大数据库零基础入门到实战

OLAP-Hadoop

简介:传统离线数据仓库中间件,需要各组件配合才能构建完整大数据生态。架构较重。

视频地址

Hadoop大数据库零基础入门到实战

TiDB

简介:支持OLAP和OLTP的分布式数据库。

视频地址

TiDB-讲义

稳健架构设计

数据治理-数据质量管理

数据治理-元数据管理

Atlas

简介:进行元数据管理,用以构建数据资产目录,形成数据字典。展示表与表、字段与字段之间的血缘关系等。

视频地址

点击查看资料

数据治理-数据安全管理

Kerberos

简介:为Hadoop集群提供安全认证管理功能。

Kerberos概念

视频地址

点击查看资料

可视化:FinBI,dataV,TCV,Superset,Hue……

集群调度体系

DolphinScheduler

简介:国产大数据任务调度管理工具,界面友好,支持拖拉拽部署任务。推荐选择。

视频地址

分布式资源调度Yarn

任务流调度oozie

简介:早期大数据任务调度管理工具,但其实最好用的是海豚(DolphinScheduler)。

视频地址

Oozie大数据任务流调度工具零基础入门到实战

任务流调度Azkaban

简介:早期大数据任务调度管理工具,但其实最好用的是海豚(DolphinScheduler)。

视频地址

Azkaban大数据任务流调度工具零基础入门到实战

Airflow任务调度

Nifi

简介:大数据任务调度管理工具,NSA(美国国家安全局)出品,因在国内社区不太广泛,所以现在都用海豚。

视频地址

Nifi大数据任务流调度工具零基础入门到实战

集群管理平台clouderaManager

Ambari大数据集群搭建管理

CDH

简介:大数据组件部署平台,鉴于大数据需要很多类型的中间件,而这些中间件又需要集群部署,所以整个项目的部署运维工作会非常繁琐,CDH则解决了这样的问题。

黑马视频地址

尚硅谷视频地址

HDP

简介:大数据组件部署平台,相比于CDH开源免费,但后续被CDH母公司收购,不再继续更新维护。

视频地址

HDP大数据组件部署调度零基础入门到实战

版权声明:除特殊说明,博客文章均为Mark原创,依据CC BY-SA 4.0许可证进行授权,转载请附上出处链接及本声明。VIP内容严禁转载! | 广告招租请留言
暂无评论

发送评论 编辑评论

|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇