spark - 算法之道

bigdata spark mapside性能优化

这周做了一个数据分析，自己也有一段时间没有写spark代码了，一些性能优化的点都忘记差不多了，也可以说对这个还…

深夜水文一篇，这是n天前碰到的一个问题： Exception in thread “main” org.apa…

问题出现这个报错是在两个dataframe执行union操作的时候，出现column顺序不一致，然后我需要将…

No implicit argument of type:Encoder[ ]” in Spark…

Spark 采样就是从大量的数据中获取少量的数据，获取的方法可以依据某种策略，得到的数据用于分析，企图使用少量…

最近手受伤了，加上有不少事情焦头烂额有一段时间没有更新，但是想着还是把spark sql的基础给写完，算是有始…

前言数据持久化是spark 运行提速的有个小技巧。经常你会碰到有很多操作是依赖于相同的变量，如果这个变量没有…

简介主要介绍两种遍历数据的方法 foreach和foreachPartition，二者之间存在的差异跟之前介…

基本概念 Spark map() and mapPartitions() 都是 spark 中的transfo…

Union 的操作对象是具有相同 schema 的 DataFrame，把多个数据对象合并到一个里面去。 No…

Spark DataFrame 支持多种Join的方式，基本上你能想到的都是支持的，比如 INNER, LEF…

对 DataFrame 的排序有两种方法： sort() or orderBy() ，下面就会介绍这两种方法的…

groupBy 对指定字段相同的数据进行分组处理，是一个聚合操作。语法: groupBy(col1 : sc…

Spark 中 DataFrame 中字段对应的数据类型有很多，常见的float 、string等数据类型 1…

pivot 函数的功能是实现行列旋转，在 sql 里面也经常会遇到行列旋转，相应的操作大概就是对于行你可能需要…

消除重复的数据可以通过使用 distinct 和 dropDuplicates 两个方法，二者的区别在于，di…

case when 这种用法基本上每一类编程语言里都会有，scala 里面常见的就是 case 语法，也就是条…

这个系列好久没更新了，一个字懒，两个字很懒。这篇比较简单，主要的 API 就是 drop 函数。 val st…