• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

spark写hive表遇到的字段问题

bigdata admin 3个月前 (04-09) 217次浏览 0个评论 扫描二维码

 

问题:spark 版本 1.6,将 dataframe 写到 hive 表中,hive 表事先已经在库中建立好了,所以不需要重复建表,在使用 saveAsTable 函数保存时,hive 的表字段名都被重写为 _1 之类

解决方法:出现上述问题的原因是 dataframe 没有 schema,也就是 dateframe 的列名称,对应数据表的字段名,如果你的 dataframe 没有定义,那么 spark 默认会使用 _1,_2 之类的来代替,这些字段名在 hive 表中你是无法使用的,这样你想查询数据使用以下语句查询时会报错

select _1 from table;

所以解决上述问题就需要指定我们的 dataframe 的 schema,结构化数据就要有结构化数据的样子

我是 rdd 转化为 dataframe 使用的是 toDF,使用如下语句就可以实现

toDF("s_1","s_2","s_3")

这样我们在保存数据到 hive 表的时候就不会出现字段的偏差了,当然为了保持一致 toDF 中给出的要与 hive 中的一致,如果不一致,hive 表会被 toDF 中的定义的字段覆盖


Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明spark 写 hive 表遇到的字段问题
喜欢 (0)
admin
关于作者:

您必须 登录 才能发表评论!