• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

hive组内排序

Qt admin 2年前 (2017-11-10) 3120次浏览 0个评论 扫描二维码

1、hive 的分组和组内排序—语法
语法:
row_number() over (partition by 字段 a order by 计算项 b desc ) rank

rank 是排序的别名
partition by:类似 hive 的建表,分区的意思;
order by :排序,默认是升序,加 desc 降序;
这里按字段 a 分区,对计算项 b 进行降序排序
2、hive 的分组和组内排序 — 实例
要取 top10 品牌,各品牌的 top10 渠道,各品牌的 top10 渠道中各渠道的 top10 档期

1、取 top10 品牌

select “品牌” , sum/count/其他() as num from “table_name” order by num desc limit 10;
2、取 top10 品牌下各品牌的 top10 渠道

select a.* from (select “品牌”,”渠道”,sum/count() as num, row_number () over (partition by “品牌” order by num desc) rank from “table_name” where 品牌限制条件 group by “品牌”,“渠道” ) a having a.rank <= 10;3、 取 top10 品牌下各品牌的 top10 渠道中各渠道的 top10 档期select a.* from (select "品牌","渠道","档期",sum/count/其他() as num row_number() over (partition by "档期" order by num desc) rank from "table_name" where 品牌限制条件 group by “品牌”,“渠道) a Having a.rank <= 10;row_number 的使用在 hive 和 spark 的实时计算中常常会用到计算分区中的排序问题,所以使用好 row_number 是很重要的。作者:胜天半子棋链接:http://www.jianshu.com/p/51599bab0c00來源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明hive 组内排序
喜欢 (0)
admin
关于作者:
互联网行业码农一枚/业余铲屎官/数码影音爱好者/二次元

您必须 登录 才能发表评论!