spark rdd保存单个文件问题

5,841次阅读

共计 337 个字符，预计需要花费 1 分钟才能阅读完成。

之前在spark上面跑一个代码，但是输出的结果想拿出来分析顺便画个图表征，因此就想把数据保存到一个文件上面去，网上一搜一大堆保存到一个文件的方法，基本上都是互相抄袭，设置啥分区为一个，保存的名字为一个txt之类的介绍，真TM误人啊！

实际上spark在调用saveAsTextFile默认你传入的参数是路径，即使你写的是txt文件名也会变成一个路径

不信的话你可以在地址下查看

hadoop fs -ls -R path（你的地址）

你就会发现存在分区，并不是你想要的单个文件

在该语句之前加上repartition(1)，即写作以下形式：

rdd.repartition(1).saveAsTextFile("out.txt")
上面这个代码还是会有分区的，直接把分区的文件get下来在导出吧！

正文完

请博主喝杯咖啡吧！

发表至： hdfs

2017-05-19

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

sublime3配置python开发环境