教程简介

本套教程基于Spark 3.3版本,使用Java语言,详解了Spark技术生态的三个核心模块:Spark Core核心模块,讲解Spark运行环境,以及分布式数据模型RDD的使用和原理;Spark SQL模块,讲解Spark在结构化数据场景中的使用方式,包括SQL语法、DSL语法、UDF函数、UDAF函数等;Spark Streaming模块,讲解Spark在流式数据处理中的使用方式,包括无界数据流的处理、Kafka系统的对接和数据窗口的应用等。

教程目录

  • 001.Spark-教程简介
  • 002.Spark-文件结构-介绍
  • 003.Spark-基础概念-介绍-分布式
  • 004.Spark-基础概念-介绍-计算
  • 005.Spark-基础概念-介绍-分布式基础架构
  • 006.Spark-基础概念-介绍-框架
  • 007.Spark-基础概念-介绍-Spark和MR的关系
  • 008.Spark-介绍
  • 009.Spark-部署方式-介绍
  • 010.Spark-解压后的文件结构
  • 011.Spark-部署环境-Local
  • 012.Spark-部署环境-Local-演示
  • 013.Spark-部署环境-Yarn-演示
  • 014.Spark-部署环境-Yarn-历史服务
  • 015.Spark-部署环境-Yarn-两种执行方式Cluster和Client
  • 016.Spark-部署环境-几种模式的对比
  • 017.Spark-数据结构-说明
  • 018.Spark-RDD-介绍
  • 019.Spark-RDD-数据处理流程简介
  • 020.Spark-RDD-计算原理
  • 021.Spark-RDD-计算原理-补充
  • 022.Spark-RDD-代码-环境的准备
  • 023.Spark-RDD-代码-对接内存数据源构建RDD对象
  • 024.Spark-RDD-代码-对接磁盘数据源构建RDD对象
  • 025.Spark-RDD-代码-RDD的理解
  • 026.Spark-RDD-代码-RDD的分区
  • 027.Spark-RDD-代码-内存数据源-分区数量的设定
  • 028.Spark-RDD-代码-磁盘文件数据源-分区数量的设定
  • 029.Spark-RDD-代码-内存数据源-分区数据的分配
  • 030.Spark-RDD-代码-磁盘文件数据源-分区数据的分配
  • 031.Spark-RDD-代码-磁盘文件数据源-分区数据的分配-演示
  • 032 .Spark-RDD-课件梳理
  • 033.Spark-RDD-方法-介绍
  • 034.Spark-RDD-方法-方法的两大类-转换和行动
  • 035.Spark-RDD-方法-数据处理的两大类-单值和键值
  • ………………..