• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

spark rdd保存单个文件问题

hdfs admin 2年前 (2017-05-19) 2279次浏览 0个评论 扫描二维码

之前在 spark 上面跑一个代码,但是输出的结果想拿出来分析顺便画个图表征,因此就想把数据保存到一个文件上面去,网上一搜一大堆保存到一个文件的方法,基本上都是互相抄袭,设置啥分区为一个,保存的名字为一个 txt 之类的介绍,真 TM 误人啊!

实际上 spark 在调用 saveAsTextFile 默认你传入的参数是路径,即使你写的是 txt 文件名也会变成一个路径

不信的话你可以在地址下查看

hadoop fs -ls -R path(你的地址)

你就会发现存在分区,并不是你想要的单个文件

在该语句之前加上 repartition(1),即写作以下形式:

rdd.repartition(1).saveAsTextFile("out.txt")
上面这个代码还是会有分区的,直接把分区的文件 get 下来在导出吧!

Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明spark rdd 保存单个文件问题
喜欢 (0)
admin
关于作者:
互联网行业码农一枚/业余铲屎官/数码影音爱好者/二次元

您必须 登录 才能发表评论!