月度归档: 2025 年 9 月

50 篇文章

Sqoop离线数据采集工具零基础入门到实战
Apache Sqoop sqoop介绍 Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Hadoop生…
Impala增强计算查询工具零基础入门到实战
Apache Impala Impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分…
Azkaban大数据任务流调度工具零基础入门到实战
工作流 工作流产生背景 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的 自动化 ”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。 一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数…
Kudu大数据库零基础从入门到实战
Apache Kudu介绍 背景介绍 在KUDU之前,大数据主要以两种方式存储; (1)静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。 这类存储的局限性是数据无法进行随机的读写。 (2)动态数据: 以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。 局限性是批量读取吞吐量远不如 HDFS,…
ShardingSphere5零基础入门到实战
高性能架构模式 互联网业务兴起之后,海量用户加上海量数据的特点,单个数据库服务器已经难以满足业务需要,必须考虑数据库集群的方式来提升性能。高性能数据库集群的第一种方式是“读写分离”,第二种方式是“数据库分片”。 读写分离架构 读写分离原理:读写分离的基本原理是将数据库读写操作分散到不同的节点上,下面是其基本架构图: 读写分离的基本实现: 主库负责处…
大数据整体架构概述
大数据5V特征 volume。数据体量大。 采集数据量大。 存储数据量大。 计算数据量大。 TB、PB级别起步。 variety。种类、来源多样化。 种类:结构化、半结构化、非结构化。 来源:日志文本、图片、音频、视频。 value。低价值密度。 信息海量但是价值密度低。 深度复杂的挖掘分析需要机器学习参与。 velocity。速度快。 数据增长速…
RocketMQ零基础入门到实战
MQ介绍 为什么要用MQ 消息队列是一种“先进先出”的数据结构 其应用场景主要包含以下3个方面 应用解耦 系统的耦合性越高,容错性就越低。以电商应用为例,用户创建订单后,如果耦合调用库存系统、物流系统、支付系统,任何一个子系统出了故障或者因为升级等原因暂时不可用,都会造成下单操作异常,影响用户使用体验。 使用消息队列解耦合,系统的耦合性就会提高了。…
Skywalking零基础入门到实战
Skywalking概述 什么是APM系统 APM系统概述 APM (Application Performance Management) 即应用性能管理系统,是对企业系统即时监控以实现 对应用程序性能管理和故障管理的系统化的解决方案。应用性能管理,主要指对企业的关键业务应用进 行监测、优化,提高企业应用的可靠性和质量,保证用户得到良好的服务,降…