Spark读取csv跳首行

10,701次阅读

共计 444 个字符，预计需要花费 2 分钟才能阅读完成。

目前开发的版本的是spark1.6，因此很多最新的api无法使用，典型的就是读取csv文件无法跳过首行，现在给出我现在使用的方法，不过对于多文件可能会出现一定的错误

data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header)   #filter out header

在spark 2.0以上可以通过以下代码实现，下面是scala实现：

#From Spark 2.0 onwards what you can do is use SparkSession to get this done as a one liner:

val spark = SparkSession.builder.config(conf).getOrCreate()
或者
val dataFrame = spark.read.format("CSV").option("header","true").load(csvfilePath)

正文完

请博主喝杯咖啡吧！

spark

发表至： bigdata

2017-05-27

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

spark mapside性能优化

SparkSql系列(18/25) UDF简介

SparkSql系列(7/25) 去重方法

Hadoop 任务执行设置队列参考（转载）

HIVE自动生成索引