注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:hive

hive连接优化相关

1. Join的基本原理大家都知道,Hive会将所有的SQL查询转化为Map/Reduce作业运行于Hadoop集群之上。在这里简要介绍Hive将Join转化为Map/Reduce的基本原理(其它查询的原理请参考这里)。假定有user和order两张表,分别如下:user表:sidname1apple2orange……

hive桶概念

Hive 分桶分桶对于每一个表或者分区,Hive可以进一步组织成桶,也就是更为细粒度的数据范围划分Hive是针对某一列进行分桶Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中好处获得更高的查询处理效率使取样(sampling) 更高效分桶的使用select * from bucketed_u……

DML、DCL等基本概念

博主日常使用查询的工具就是hive,与mysql还是有很多共同之处,但是很多时候也要去hive官网查询相关信息,遇到最多了就是ddl等相关的名词,在这记录一下DDL数据定义方法,创建数据表,更改数据表相关信息,新增分区等等操作Data Definition Language (DDL) statements are used to define the……

hive专题(1)-数据表创建

数据库的基本操作很多都是相差不大,从mysql到hive,基本上大部分语法都是相同的,除了一部分本质上的差异,其他语法可以通用,今天就先学习下hive数据表的创建CREATE TABLE pokes (foo INT, bar STRING);hive> CREATE TABLE pokes (foo INT, bar STRING);OK……

AWS之hive单机版环境安装

今晚终于在aws上把hive单机版的环境终于安装好了,现在记录一下安装环境的所有步骤,以后学习hive可以直接在aws上面测试在hive专题可以看到更多的学习资料哦hive需要依赖于hadoop环境,因此我们先安装hadoophadoop安装java环境安装yum search java|grep jdk首先查找先当前的所有jdk版本,默认……

hive collect_set等集合函数

hive工作中用到的一些函数1. concat(string s1, string s2, string s3)这个函数能够把字符串类型的数据连接起来,连接的某个元素可以是列值。如 concat( name, ‘:’, score) 就相当于把name列和score列用逗号连接起来了2. cast用法:cast(value ……

Hadoop 任务执行设置队列参考(转载)

对于集群我们经常会启用公平调度或容量调度来满足多用户的需求,这个时候我们需要去设定相应的队列以及队列的优先级。这里以用到MR和TEZ引擎为例。我这里的队列如下:拥有marketing和operations两个队列分别占用30%和70%的能力总的来说设置如下:作业提交到的队列:mapreduce.job.queuename/tez.queue.name……

HIVE自动生成索引

目前HIVE当中并没有相应的api用于自动生成相应的索引,在一般的sql中包含了identity函数可以用于自动生成相应的索引,为了解决这个问题,在apache官网上提供了相应的解决方法,这个功能还是比较实用的,比如博主需要处理的字段数据中一部分是全部数字,但是有些数据是字符和数字的组合,需要对这些数据做相同的函数处理有的时候是无法做到的,因此可以将其映射到……

HIVE正则表达式

随着HIVE的持续使用,现在业务上也需要匹配文本,一般的加减乘除之类以及统计聚合运算都满足不了了,如果是短的字符串可以使用字符串相关的处理,但是如果是大量的文本都需要正则表达式从中提取出想要的内容,下面的例子都是copy过来的,作为相关函数的说明,会使用就好,来自http://blog.csdn.net/bitcarmanlee/article/detai……

sql 日期转换函数

经常需要查询半年以内或者指定时间范围内的数据,一般情况下数据库中保存的都是时间戳,时间戳实际上就是unix时间,我们可以在正常的日期时间来回转换1、日期函数UNIX时间戳转日期函数:from_unixtime()函数格式返回值说明from_unixtimefrom_unixtime(bigint unixtime[, string……