Spark DataFrame合并遇到的问题

4,150次阅读

共计 310 个字符，预计需要花费 1 分钟才能阅读完成。

情况：

需要合并多个DataFrame ，存在部分DataFrame 的 columns 比其他的要多的情况，这些多的可以明确的删掉，然后自己使用drop方法丢掉之后合并出现了数据类型不匹配。

看了下具体的异常就是column位置存在偏差，虽然总的column是一样的，但是顺序出现了错位，可能是前置drop导致的。

解决方法：

val cols=example.columns
val result=data.map(x=>x.select(cols.map(y=>y.col(_)): _*))
val output=result.reduce(_ union _)

本质上是要按照指定的column把数据重新select出来一下，然后在做合并处理

正文完

请博主喝杯咖啡吧！

发表至： bigdata scala

2020-12-16

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

ECC 证书已启动