9 月 2025 - Page 2 of 5

2025-9-28 11:23

303

2025-9-28 15:47

3466 字

26 分钟

Apache Sqoop sqoop介绍 Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Hadoop生…

Sqoop 大数据离线采集

Impala增强计算查询工具零基础入门到实战

2025-9-26 19:28

大数据技术栈

269

2025-9-26 19:28

7516 字

38 分钟

Apache Impala Impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具， impala是参照谷歌的新三篇论文（Caffeine--网络搜索引擎、Pregel--分…

Hadoop Impala 增强计算查询

Azkaban大数据任务流调度工具零基础入门到实战

2025-9-26 19:17

大数据技术栈

265

2025-9-26 19:17

2682 字

18 分钟

工作流工作流产生背景工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化 ”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是：为了实现某个业务目标，利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的：数…

Azkaban 任务流调度大数据

Oozie大数据任务流调度工具零基础入门到实战

2025-9-26 19:02

大数据技术栈

263

2025-9-26 19:02

4239 字

47 分钟

Apache Oozie Oozie概述 Oozie 是一个用来管理Hadoop生态圈job的工作流调度系统。由Cloudera公司贡献给Apache。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG（有向无环图）调度一系列的Map/Reduce或者Hive等任务。Oozie 工作流由hPDL…

Oozie 任务流调度大数据

Kudu大数据库零基础从入门到实战

2025-9-26 17:53

大数据技术栈

281

2025-9-26 17:53

7700 字

1.4 小时

Apache Kudu介绍背景介绍在KUDU之前，大数据主要以两种方式存储；（1）静态数据：以 HDFS 引擎作为存储引擎，适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。（2）动态数据：以 HBase、Cassandra 作为存储引擎，适用于大数据随机读写场景。局限性是批量读取吞吐量远不如 HDFS，…

Kudu OLAP OLTP 大数据数据库

HDP大数据组件部署调度零基础入门到实战

2025-9-26 17:42

大数据技术栈

283

2025-9-26 17:42

6270 字

52 分钟

HDP 环境安装配置 HDP : Hortonworks Data Platform CDH : Cloudera Distribution Hadoop 部署安装主要分为3大部分准备环境、配置机器、准备离线包、本地仓库、数据库等安装Ambari Server 阶段基于Ambari Server UI 来安装相关服务组件阶段 HDP集群的安装…

HDP 中间件部署调度大数据

ShardingSphere5零基础入门到实战

2025-9-26 16:26

Java技术栈

221

2025-9-28 11:23

6930 字

1.4 小时

高性能架构模式互联网业务兴起之后，海量用户加上海量数据的特点，单个数据库服务器已经难以满足业务需要，必须考虑数据库集群的方式来提升性能。高性能数据库集群的第一种方式是“读写分离”，第二种方式是“数据库分片”。读写分离架构读写分离原理：读写分离的基本原理是将数据库读写操作分散到不同的节点上，下面是其基本架构图：读写分离的基本实现：主库负责处…

shardingsphere 面试

大数据整体架构概述

2025-9-26 15:32

大数据技术栈

226

2025-9-26 16:26

3217 字

13 分钟

大数据5V特征 volume。数据体量大。采集数据量大。存储数据量大。计算数据量大。 TB、PB级别起步。 variety。种类、来源多样化。种类：结构化、半结构化、非结构化。来源：日志文本、图片、音频、视频。 value。低价值密度。信息海量但是价值密度低。深度复杂的挖掘分析需要机器学习参与。 velocity。速度快。数据增长速…

大数据架构

RocketMQ零基础入门到实战

2025-9-26 10:52

Java技术栈

281

2025-9-26 10:52

30104 字

6.1 小时

MQ介绍为什么要用MQ 消息队列是一种“先进先出”的数据结构其应用场景主要包含以下3个方面应用解耦系统的耦合性越高，容错性就越低。以电商应用为例，用户创建订单后，如果耦合调用库存系统、物流系统、支付系统，任何一个子系统出了故障或者因为升级等原因暂时不可用，都会造成下单操作异常，影响用户使用体验。使用消息队列解耦合，系统的耦合性就会提高了。…

rocketmq 面试

Skywalking零基础入门到实战

2025-9-25 18:07

Java技术栈

234

2025-10-09 19:13

3989 字

20 分钟

Skywalking概述什么是APM系统 APM系统概述 APM (Application Performance Management) 即应用性能管理系统，是对企业系统即时监控以实现对应用程序性能管理和故障管理的系统化的解决方案。应用性能管理，主要指对企业的关键业务应用进行监测、优化，提高企业应用的可靠性和质量，保证用户得到良好的服务，降…

skywalking 面试

月度归档： 2025 年 9 月