分类: 大数据 | Data·Stack

大数据未读

数据ETL-Apache Flume详解

官方网站：http://flume.apache.org/ 用户文档：http://flume.apache.org/FlumeUserGuide.html 开发文档：

ETL 2025-03-16

大数据未读

Kafka副本同步策略(ISR)

Kafka对于Producer生产的消息怎么保证可靠性？简单说就是每个Partation都分配给副本，做数据同步，保证数据不丢失。副本同步策略（ISR）： kafka不是完全同步，也不是完全异步，是一种ISR机制，先来了解下完全同步的优势劣势完全同步的优点：同样为了容忍N台节点的故障，

Kafka 2024-01-18

大数据未读

Hadoop和Spark的联系

一、Hadoop 到 Spark 的变化 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消

Spark Scala 2023-12-29

大数据未读

Flink中的多事件Join

流式计算中的 2 个问题：流式数据到达计算引擎的时间不一定：比如 A 流的数据先到了，A 流不知道 B 流对应同 key 的数据什么时候到，没法关联（数据质量问题）流式数据不知何时、下发怎样的数据： A 流的数据到达后，如果 B 流的数据永远不到，那么 A 流的数据在什么时候以及是否要填充一个

Flink 2023-12-28

大数据未读

Hive-数据模型

01 hive数据模型 hive数据模型关系图如下：上图，可以看到

Hive 2023-10-11

大数据未读

hive基础-知识必备

1、Hive中Map和Reduce Map阶段： 1.对文件进行逻辑切片split，默认大小为hdfs块大小，每一块对应一个mapTask； 2.对切片中的数据按行读取，解析返回<K,V>形式，key为每一行的偏移量，value为每一行的数据；

Hive 数据仓库 2023-10-11

大数据未读

Spark基础-基础必备

1、Spark宽窄依赖窄依赖(Narrow Dependency): 指父RDD的每个分区只被子RDD的一个分区所使用。例如map、filter等这些算子的一个RDD，对它的父RDD只有简单的一对一的关系，RDD的每个partition仅仅依赖于父RDD 中的一个partition，父RDD和子R

Spark 2023-10-09

大数据未读

Hadoop基础-知识必备

1、Hadoop之MapReduce 1.1 Map阶段对文件进行逻辑切片split，默认大小为hdfs块大小，每一块对应一个mapTask；对切片中的数据按行读取，解析返回<K,V>形式，key为每一行的偏移量，value为每一行的数据； <

Hadoop 2023-10-06

大数据未读

数据仓库体系内容梳理

一、图解分层二、数据仓库体系 2.1 数仓建模方法 2.1.

数据仓库 Hive 2023-10-04