年度归档: 2025 年

69 篇文章

知识的跃迁
知识的跃迁 我瞎说,你瞎听,今天讲知识的跃迁。如何快速了解大英图书馆里所有知识?其实就是要靠知识的跃迁,知识的架构类似于金字塔,当你明白了上一层的知识后,再花经历去了解下一层的便无足轻重。在学习过程中自身不断向上跃迁,直至覆盖所有知识。但并不是意味着你可以直接来到金字塔塔尖。就像到达山顶一样。如果你选择直接爬悬崖当然是最短最快的一条路,但是也充满着…
Hadoop大数据库零基础入门到实战
Hadoop特性优点 扩容能力(scalability)。Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可方便灵活的方式扩展到数以千计的节点。 成本低(economical)。Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很低。看重的是集群整理能力。 效率高(efficiency)。通过并发数据,H…
Doris大数据库零基础入门到实战
Doris概述篇 前言 Doris由百度大数据部研发,之前叫百度Palo,于2017年开源,2018年贡献到 Apache 社区后,更名为Doris。 Doris简介 Apache Doris是一个现代化的基于MPP(大规模并行处理)技术的分析型数据库产品。 简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分…
Flink大数据计算工具零基础入门到实战
Flink安装部署与快速入门 Flink概述 Flink组件栈 各层详细介绍: 物理部署层:Flink 支持本地运行、能在独立集群或者在被 YARN 管理的集群上运行, 也能部署在云上,该层主要涉及Flink的部署模式,目前Flink支持多种部署模式:本地、集群(Standalone、YARN)、云(GCE/EC2)、Kubenetes。Flink…
HBase陌陌海量存储案例实战
案例介绍 在陌陌中,每天都有数千万的用户聊天消息需要存储。而且,这些消息都是需要进行大量地保存,而读取会少很多。想想:我们在使用微信的时候,大多数时候,我们都是在发消息,而不是每时每刻查询历史消息。要存储这样海量的数据,HBase就非常适合了,HBase本身也非常适合存储这种写多读少的应用场景。本案例,将结合陌陌聊天业务背景,以HBase来存储海量…
HBase大数据库零基础从入门到实战
简介 Hadoop 从 1970 年开始,大多数的公司数据存储和维护使用的是关系型数据库 大数据技术出现后,很多拥有海量数据的公司开始选择像Hadoop的方式来存储海量数据 Hadoop使用分布式文件系统HDFS来存储海量数据,并使用 MapReduce 来处理。Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理 Hadoop…
Flume大数据日志离线数据采集工具零基础入门到实战
Apache Flume简介 概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地…
Canal大数据实时数据采集工具零基础入门到实战
需求 在现代的系统开发中, 为了提高搜索效率 , 以及搜索的精准度, 会大量的使用redis , memcache等nosql系统的数据库 , 以及solr , elasticsearch 类似的全文检索服务; 那么这个时候, 就又有一个问题需要我们来考虑, 就是数据同步的问题, 如何将实时变化的数据库中的数据同步到solr的索引库中或者redis…
Cassandra大数据库零基础入门到实战
Cassandra的介绍 概述 来自百科的介绍 Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩…
Deltalack数据湖零基础入门到实战
前置技能 学习本课程需要你最少需要掌握: 基本的Scala语言使用 了解Spark、SparkSQL 对大数据技术体系有一定的了解 如达不到前置技能的要求,可能在理解上比较困难,建议同学们可以先了解一下相关内容后,再来学习本课程。 数据湖概念[了解] 步骤 了解企业数据使用方面的需求 了解需求催生数据湖架构 数据湖和传统的数仓的简单对比 企业的数据…