Spark中的宽窄依赖

Spark中的宽窄依赖

news/2024/11/8 17:19:25 标签: spark, 大数据, 分布式

一、什么是依赖关系

这里通过一张图来解释：

result_rdd是由tuple_rdd使用reduceByKey算子得到的，而tuple_rdd是由word_rdd使用map算子得到的，word_rdd又是由input_rdd使用flatMap算子得到的。它们之间的关系就称为依赖关系！

二、什么是宽窄依赖

窄依赖：父RDD的一个分区的数据只给了子RDD的一个分区【不用经过Shuffle】

特点：一对一或者多对一，不经过Shuffle，性能相对较快，但无法实现全局分区、排序、分组等

一个Stage内部的计算都是窄依赖的过程，全部在内存中完成。

宽依赖：父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】

特点：一对多，必须经过Shuffle，性能相对较慢，可以实现全局分区、排序、分组等

Spark的job中按照宽依赖来划分Stage

宽窄依赖本质：只是一种标记，标记两个RDD之间的依赖关系

三、为什么要标记宽窄关系

1、提高数据容错的性能，避免分区数据丢失时，需要重新构建整个RDD

举例：如果子RDD的某个分区的数据丢失

不标记：不清楚父RDD与子RDD数据之间的关系，必须重新构建整个父RDD所有数据
标记了：父RDD一个分区只对应子RDD的一个分区，按照对应关系恢复父RDD的对应分区即可

2、提高数据转换的性能，将连续窄依赖操作使用同一个Task都放在内存中直接转换

举例：如果RDD需要多个map、flatMap、filter、 reduceByKey、sortByKey等算子的转换操作

不标记：每个转换不知道会不会经过Shuffle，都使用不同的 Task来完成，每个Task的结果要保存到磁盘
标记了：多个连续窄依赖算子放在一个Stage中，共用一套 Task在内存中完成所有转换，性能更快。

http://www.niftyadmin.cn/n/5744200.html

相关文章

Dify 本地部署指南

Dify 本地部署指南

一、前置条件 Clone Dify 代码： git clone https://github.com/langgenius/dify.git 在启用业务服务之前，我们需要先部署 PostgresSQL / Redis / Weaviate（如果本地没有的话），可以通过以下命令启动： cd…

阅读更多...

计算线性回归中的代价函数（Cost Function）

计算线性回归中的代价函数（Cost Function）

特征矩阵特征矩阵是一个二维数组或矩阵，用于表示数据集中所有样本的特征信息。在机器学习中，特征矩阵是用于模型训练的数据输入，它由所有样本的特征值组成。解释假设你有一个数据集，描述房屋的价格与房屋的面积和房间数之间…

阅读更多...

技术总结(二十二)

技术总结(二十二)

一、Redis缓存更新在更新Redis缓存时，通常有两种策略： 更新缓存（Cache-Aside Pattern）：先从缓存获取数据，如果缓存中没有数据或数据已经过期，则从数据库中获取最新数据，并更新到缓…

阅读更多...

【RabbitMQ】04-发送者可靠性

【RabbitMQ】04-发送者可靠性

1. 生产者重试机制 spring:rabbitmq:connection-timeout: 1s # 设置MQ的连接超时时间template:retry:enabled: true # 开启超时重试机制initial-interval: 1000ms # 失败后的初始等待时间multiplier: 1 # 失败后下次的等待时长倍数，下次等待时长 initial-interval…

阅读更多...

数据结构：七种排序及总结

数据结构：七种排序及总结

文章目录排序一插入排序1直接插入排序2希尔排序二选择排序3直接选择排序4堆排序三交换排序5冒泡排序6快速排序四归并排序7归并排序源码排序我们数据结构常见的排序有四大种，四大种又分为七小种，如图所示排序：所谓排序，就是…

阅读更多...

YOLOv6-4.0部分代码阅读笔记-figure_iou.py

YOLOv6-4.0部分代码阅读笔记-figure_iou.py

figure_iou.py yolov6\utils\figure_iou.py 目录 figure_iou.py 1.所需的库和模块 2.class IOUloss: 3.def pairwise_bbox_iou(box1, box2, box_formatxywh): 1.所需的库和模块 #!/usr/bin/env python3 # -*- coding:utf-8 -*- import math import torch2.class IOUlo…

阅读更多...

【热门主题】000027 React：前端框架的强大力量

【热门主题】000027 React：前端框架的强大力量

前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏关注哦 💕 目录【热…

阅读更多...

◇【论文_20160610】Generative Adversarial Imitation Learning 【附录 A】

◇【论文_20160610】Generative Adversarial Imitation Learning 【附录 A】

文章目录 A 证明Section 3 的证明引理 3.1 证明命题 3.2 的证明 A.2 Section 5 的证明命题 A.1推论 A.1.1引理 A.1 因果熵的策略梯度公式 A 证明 Section 3 的证明引理 3.1 证明 Proof of Lemma 3.1. 首先，我们证明 H ˉ \bar H Hˉ 是严格凹的。令 ρ \rho ρ…

阅读更多...

最新文章