hive组内排序

8,626次阅读

共计 475 个字符，预计需要花费 2 分钟才能阅读完成。

1、hive的分组和组内排序—语法
语法：
row_number() over (partition by 字段a order by 计算项b desc ) rank

rank是排序的别名
partition by：类似hive的建表，分区的意思；
order by ：排序，默认是升序，加desc降序；
这里按字段a分区，对计算项b进行降序排序
2、hive的分组和组内排序 — 实例
要取top10品牌，各品牌的top10渠道，各品牌的top10渠道中各渠道的top10档期

1、取top10品牌

select “品牌” , sum/count/其他() as num from “table_name” order by num desc limit 10;
2、取top10品牌下各品牌的top10渠道

select a.* from (select “品牌”,”渠道”,sum/count() as num, row_number () over (partition by “品牌” order by num desc) rank from “table_name” where 品牌限制条件 group by “品牌”,“渠道” ) a having a.rank <= 10; 3、取top10品牌下各品牌的top10渠道中各渠道的top10档期 select a.* from (select "品牌","渠道","档期",sum/count/其他() as num row_number() over (partition by "档期" order by num desc) rank from "table_name" where 品牌限制条件 group by “品牌”,“渠道) a Having a.rank <= 10; row_number的使用在hive和spark的实时计算中常常会用到计算分区中的排序问题，所以使用好row_number是很重要的。作者：胜天半子棋链接：http://www.jianshu.com/p/51599bab0c00 來源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

正文完

请博主喝杯咖啡吧！

post-qrcode

发表至： Qt

2017-11-10

版权声明：本站原创文章，由 admin 2017-11-10发表，共计475字。

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

xgboost调参–转载

QT多线程（0x02)-Mutex

Deep Learning：Loss function&Back propagation

查看定时任务执行情况

动态分区高效拷贝数据

评论（没有评论）

验证码