博主履历
个人简历 个人信息 姓名:尹开英 性别:男 出生:1991.5 学历:统招本科
个人简历 个人信息 姓名:尹开英 性别:男 出生:1991.5 学历:统招本科
Kafka对于Producer生产的消息怎么保证可靠性?简单说就是每个Partation都分配给副本,做数据同步,保证数据不丢失。 副本同步策略(ISR): kafka不是完全同步,也不是完全异步,是一种ISR机制,先来了解下完全同步的优势劣势 完全同步的优点:同样为了容忍N台节点的故障,
一、Hadoop 到 Spark 的变化 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,所以其瓶颈在2次运算间的多余 IO 消
流式计算中的 2 个问题: 流式数据到达计算引擎的时间不一定:比如 A 流的数据先到了,A 流不知道 B 流对应同 key 的数据什么时候到,没法关联(数据质量问题) 流式数据不知何时、下发怎样的数据: A 流的数据到达后,如果 B 流的数据永远不到,那么 A 流的数据在什么时候以及是否要填充一个
01 hive数据模型 hive数据模型关系图如下: 上图,可以看到
1、Hive中Map和Reduce Map阶段: 1.对文件进行逻辑切片split,默认大小为hdfs块大小,每一块对应一个mapTask; 2.对切片中的数据按行读取,解析返回<K,V>形式,key为每一行的偏移量,value为每一行的数据;
1、Spark宽窄依赖 窄依赖(Narrow Dependency): 指父RDD的每个分区只被子RDD的一个分区所使用。例如map、filter等这些算子的一个RDD,对它的父RDD只有简单的一对一的关系,RDD的每个partition仅仅依赖于父RDD 中的一个partition,父RDD和子R
1、Hadoop之MapReduce 1.1 Map阶段 对文件进行逻辑切片split,默认大小为hdfs块大小,每一块对应一个mapTask; 对切片中的数据按行读取,解析返回<K,V>形式,key为每一行的偏移量,value为每一行的数据; <
一、图解分层 二、数据仓库体系 2.1 数仓建模方法 2.1.