1. Join的基本原理 大家都知道,Hive会将所有的SQL查询转化为Map/Reduce作业运行于Hado…
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuff…
Hive 分桶 分桶 对于每一个表或者分区,Hive可以进一步组织成桶,也就是更为细粒度的数据范围划分 Hiv…
博主日常使用查询的工具就是hive,与mysql还是有很多共同之处,但是很多时候也要去hive官网查询相关信息…
列式存储和行式存储 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的…
最近写的脚本都需要向hive中传递相关参数,所以搜集一下网上的资料备注一下,也顺便学习一下。 使用Hive编写…
今天博主需要建立一个备份带分区的数据表,拷贝时若采用静态分区方式需要写N行语句,因此可以使用动态分区,节省大量…
在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实…
经常会对文体文件进行逐行处理,在Shell里面如何获取每行数据,然后处理该行数据,最后读取下一行数据,循环处理…
cut cut 命令不能在分割符是空格的字符串中截取列,只能是 制表符 或 具体的分割符。 选项 -b :仅显…