• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

Spark读取csv跳首行

bigdata admin 3年前 (2017-05-27) 4048次浏览 0个评论 扫描二维码

目前开发的版本的是 spark1.6,因此很多最新的 api 无法使用,典型的就是读取 csv 文件无法跳过首行,现在给出我现在使用的方法,不过对于多文件可能会出现一定的错误

 

data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header)   #filter out header

 

 
在 spark 2.0 以上可以通过以下代码实现,下面是 scala 实现:

#From Spark 2.0 onwards what you can do is use SparkSession to get this done as a one liner:

val spark = SparkSession.builder.config(conf).getOrCreate()
或者
val dataFrame = spark.read.format("CSV").option("header","true").load(csvfilePath)

Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明Spark 读取 csv 跳首行
喜欢 (1)
admin
关于作者:
互联网行业码农一枚/业余铲屎官/数码影音爱好者/二次元

您必须 登录 才能发表评论!