注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
hive动态分区读写数据遇到的问题

hive动态分区读写数据遇到的问题

1、map和reduce个数设置的问题map和reduce的个数不是越多越好,因为启动时都会消耗很长的时间,而且也要考虑资源问题。因此需要控制保证合适的个数用于执行任务–默认一个map的大小是100m,当然可以调整为500m或者1g都可以,根据实际情况调整set mapred.max.split.size=100000000;se……

hive sql执行顺序以及相关例子

hive sql执行顺序以及相关例子

日常使用的数据查询工具都是hive,了解一下hive sql执行顺序,其实与mysql之间的差异不是太大,参考mysql的执行顺序,hive的执行顺序如下fromonjoinwheregroup byhavingselectdistinctunionorder by举例explainselectcity,ad_type,devi……

一次小失误记录sql count

一次小失误记录sql count

这篇文章会出现是因为在统计一个数据的时候随手写了count,一时忘记count对null的处理,类似其他的空字符串也是不涵盖的,所以copy一篇过来记录一下SQL COUNT() 函数COUNT() 函数返回匹配指定条件的行数。SQL COUNT() 语法SQL COUNT(column_name) 语法COUNT(column_name) ……

HIVE与null判断相关函数

HIVE与null判断相关函数

1.NVL函数NVL函数的格式如下:NVL(expr1,expr2)含义是:如果oracle第一个参数为空那么显示第二个参数的值,如果第一个参数的值不为空,则显示第一个参数本来的值。例如:SQL> select ename,NVL(comm, -1) from emp;ENAME NVL(COMM,-1)——- ̵……

hive日志

hive日志

Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.logger=WARN,DRFAhive……

HIVE错误return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方法

HIVE错误return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask解决方法

今天在执行一个hive查询语句报下面错误:MapReduce Total cumulative CPU time: 0 days 1 hours 0 minutes 8 seconds 970 msecEnded Job = job_1511596090231_19002 with errorsError during job, obtaining d……

hive regexp_extract函数

hive regexp_extract函数

函数描述:regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp字符串正则表达式解析函数。— 这个函数有点类似于 substring(str from ‘regexp’)  ..参数解释:其中:str是被解析的字……

Caused by: java.io.IOException: Malformed ORC file

Caused by: java.io.IOException: Malformed ORC file

将本地文件的数据加载到hive的ORC格式表时,出现以下报错:Diagnostic Messages for this Task:Error: java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hive.io.……

hive连接优化相关

hive连接优化相关

1. Join的基本原理大家都知道,Hive会将所有的SQL查询转化为Map/Reduce作业运行于Hadoop集群之上。在这里简要介绍Hive将Join转化为Map/Reduce的基本原理(其它查询的原理请参考这里)。假定有user和order两张表,分别如下:user表:sidname1apple2orange……

hive桶概念

hive桶概念

Hive 分桶分桶对于每一个表或者分区,Hive可以进一步组织成桶,也就是更为细粒度的数据范围划分Hive是针对某一列进行分桶Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中好处获得更高的查询处理效率使取样(sampling) 更高效分桶的使用select * from bucketed_u……

DML、DCL等基本概念

DML、DCL等基本概念

博主日常使用查询的工具就是hive,与mysql还是有很多共同之处,但是很多时候也要去hive官网查询相关信息,遇到最多了就是ddl等相关的名词,在这记录一下DDL数据定义方法,创建数据表,更改数据表相关信息,新增分区等等操作Data Definition Language (DDL) statements are used to define the……

hive文件存储格式对比

hive文件存储格式对比

列式存储和行式存储上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。 列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能……

hive传递参数变量方法

hive传递参数变量方法

最近写的脚本都需要向hive中传递相关参数,所以搜集一下网上的资料备注一下,也顺便学习一下。使用Hive编写程序最常用的方法是将Hive语句写到文件中,然后使用hive -f filename.hql来批量执行查询语句。经常需要将外部参数传入到hql语句中替换其中的变量来动态执行任务,比如动态设定数据库名、表名、时间值、字段序列等变量,以达到脚本泛化执行的……

hive静态与动态分区理解

hive静态与动态分区理解

今天博主需要建立一个备份带分区的数据表,拷贝时若采用静态分区方式需要写N行语句,因此可以使用动态分区,节省大量时间。Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。一)hive中支持两种类型的分区:静态分区SP(static partition)动态分区D……

hive专题(1)-数据表创建

hive专题(1)-数据表创建

数据库的基本操作很多都是相差不大,从mysql到hive,基本上大部分语法都是相同的,除了一部分本质上的差异,其他语法可以通用,今天就先学习下hive数据表的创建CREATE TABLE pokes (foo INT, bar STRING);hive> CREATE TABLE pokes (foo INT, bar STRING);OK……

AWS之hive单机版环境安装

AWS之hive单机版环境安装

今晚终于在aws上把hive单机版的环境终于安装好了,现在记录一下安装环境的所有步骤,以后学习hive可以直接在aws上面测试在hive专题可以看到更多的学习资料哦hive需要依赖于hadoop环境,因此我们先安装hadoophadoop安装java环境安装yum search java|grep jdk首先查找先当前的所有jdk版本,默认……

hive专题

hive专题

专题内文章导航1、hive安装……

数据库字段类型char、varchar、nchar、nvarchar的区别

数据库字段类型char、varchar、nchar、nvarchar的区别

对于程序中的string型字段,char、varchar、nchar、nvarchar四种类型来对应(暂时不考虑text和ntext),开建立数据库中,对这四种类型往往比较模糊,这里做一下对比。定长或变长所谓定长就是长度固定的,当输入的数据长度没有达到指定的长度时将自动以英文空格在其后面填充,使长度达到相应的长度;有var前缀的,表示是实际存储空间是变……