Nifi概念 Nifi是什么 Apache NiFi 是一个易于使用,功能强大且可靠的系统,用于处理和分发数据。可以自动化管理系统间的数据流。它使用高度可配置的指示图来管理数据路由、转换和系统中介逻辑,支持从多种数据源动态拉取数据。NiFi原来是NSA的一个项目,目前已经代码开源,是Apache基金会的顶级项目之一。 NiFi是基于Java的,使用…
RabbitMQ 消息不丢失 消息不重复 消息堆积 延迟队列&死信队列 高可用机制 Kafka 消息不丢失&消息重复消费 消费顺序性 高可用机制 高性能设计 比较费时的数据拷贝 优化后的数据拷贝 数据存储和清理
Spring Bean线程安全问题 AOP 事务原理 事务失效 Bean的生命周期 循序依赖 SpringMVC 执行流程 Springboot 自动配置原理 Spring框架常见注解(Spring、Springboot、Springmvc) Mybatis 执行流程 延迟加载 一二级缓存 SpringCloud 服务注册 nacos、eureka…
Apache Sqoop sqoop介绍 Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。 Hadoop生…
Apache Impala Impala基本介绍 impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具, impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分…
工作流 工作流产生背景 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的 自动化 ”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。 一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数…
Apache Oozie Oozie概述 Oozie 是一个用来管理Hadoop生态圈job的工作流调度系统。由Cloudera公司贡献给Apache。Oozie是运行于Java servlet容器上的一个java web应用。Oozie的目的是按照DAG(有向无环图)调度一系列的Map/Reduce或者Hive等任务。Oozie 工作流由hPDL…
Apache Kudu介绍 背景介绍 在KUDU之前,大数据主要以两种方式存储; (1)静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。 这类存储的局限性是数据无法进行随机的读写。 (2)动态数据: 以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。 局限性是批量读取吞吐量远不如 HDFS,…
HDP 环境安装配置 HDP : Hortonworks Data Platform CDH : Cloudera Distribution Hadoop 部署安装主要分为3大部分 准备环境、配置机器、准备离线包、本地仓库、数据库等 安装Ambari Server 阶段 基于Ambari Server UI 来安装相关服务组件阶段 HDP集群的安装…
高性能架构模式 互联网业务兴起之后,海量用户加上海量数据的特点,单个数据库服务器已经难以满足业务需要,必须考虑数据库集群的方式来提升性能。高性能数据库集群的第一种方式是“读写分离”,第二种方式是“数据库分片”。 读写分离架构 读写分离原理:读写分离的基本原理是将数据库读写操作分散到不同的节点上,下面是其基本架构图: 读写分离的基本实现: 主库负责处…