Spark DataFrame合并遇到的问题

3,057次阅读
没有评论

共计 310 个字符,预计需要花费 1 分钟才能阅读完成。

情况:

需要合并多个DataFrame ,存在部分DataFrame 的 columns 比其他的要多的情况,这些多的可以明确的删掉,然后自己使用drop方法丢掉之后合并出现了数据类型不匹配。

看了下具体的异常就是column位置存在偏差,虽然总的column是一样的,但是顺序出现 了错位,可能是前置drop导致的。

解决方法:

val cols=example.columns
val result=data.map(x=>x.select(cols.map(y=>y.col(_)): _*))
val output=result.reduce(_ union _)

本质上是要按照指定的column把数据重新select出来一下,然后在做合并处理

正文完
请博主喝杯咖啡吧!
post-qrcode
 
admin
版权声明:本站原创文章,由 admin 2020-12-16发表,共计310字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码