Spark读取csv跳首行

8,836次阅读
没有评论

目前开发的版本的是spark1.6,因此很多最新的api无法使用,典型的就是读取csv文件无法跳过首行,现在给出我现在使用的方法,不过对于多文件可能会出现一定的错误

 

data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header)   #filter out header

 

 
在spark 2.0以上可以通过以下代码实现,下面是scala实现:

#From Spark 2.0 onwards what you can do is use SparkSession to get this done as a one liner:

val spark = SparkSession.builder.config(conf).getOrCreate()
或者
val dataFrame = spark.read.format("CSV").option("header","true").load(csvfilePath)
 
admin
版权声明:本站原创文章,由 admin 2017-05-27发表,共计444字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)