年度归档: 2025 年

69 篇文章

Nifi大数据任务流调度工具零基础入门到实战
Nifi概念 Nifi是什么 Apache NiFi 是一个易于使用,功能强大且可靠的系统,用于处理和分发数据。可以自动化管理系统间的数据流。它使用高度可配置的指示图来管理数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,目前已经代码开源,是Apache基金会的顶级项目之一。 NiFi是基于Java的,使用…
Sqoop离线数据采集工具零基础入门到实战
Apache Sqoop sqoop介绍 Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Hadoop生…
Impala增强计算查询工具零基础入门到实战
Apache Impala Impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分…
Azkaban大数据任务流调度工具零基础入门到实战
工作流 工作流产生背景 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的 自动化 ”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。 一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数…
Kudu大数据库零基础从入门到实战
Apache Kudu介绍 背景介绍 在KUDU之前,大数据主要以两种方式存储; (1)静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。 这类存储的局限性是数据无法进行随机的读写。 (2)动态数据: 以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。 局限性是批量读取吞吐量远不如 HDFS,…
ShardingSphere5零基础入门到实战
高性能架构模式 互联网业务兴起之后,海量用户加上海量数据的特点,单个数据库服务器已经难以满足业务需要,必须考虑数据库集群的方式来提升性能。高性能数据库集群的第一种方式是“读写分离”,第二种方式是“数据库分片”。 读写分离架构 读写分离原理:读写分离的基本原理是将数据库读写操作分散到不同的节点上,下面是其基本架构图: 读写分离的基本实现: 主库负责处…