Spark读取csv跳首行

9,372次阅读
没有评论

共计 444 个字符,预计需要花费 2 分钟才能阅读完成。

目前开发的版本的是spark1.6,因此很多最新的api无法使用,典型的就是读取csv文件无法跳过首行,现在给出我现在使用的方法,不过对于多文件可能会出现一定的错误

 

data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header)   #filter out header

 

 
在spark 2.0以上可以通过以下代码实现,下面是scala实现:

#From Spark 2.0 onwards what you can do is use SparkSession to get this done as a one liner:

val spark = SparkSession.builder.config(conf).getOrCreate()
或者
val dataFrame = spark.read.format("CSV").option("header","true").load(csvfilePath)
正文完
请博主喝杯咖啡吧!
post-qrcode
 
admin
版权声明:本站原创文章,由 admin 2017-05-27发表,共计444字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码