• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:Sql

hive动态分区读写数据遇到的问题

hive动态分区读写数据遇到的问题

1、map 和 reduce 个数设置的问题map 和 reduce 的个数不是越多越好,因为启动时都会消耗很长的时间,而且也要考虑资源问题。因此需要控制保证合适的个数用于执行任务–默认一个 map 的大小是 100m,当然可以调整为 500m 或者 1g 都可以,根据实际情况调整set mapred.max.split.size=1……

hive sql执行顺序以及相关例子

hive sql执行顺序以及相关例子

日常使用的数据查询工具都是 hive,了解一下 hive sql 执行顺序,其实与 mysql 之间的差异不是太大,参考 mysql 的执行顺序,hive 的执行顺序如下fromonjoinwheregroup byhavingselectdistinctunionorder by举例explainselectcity,ad_t……

一次小失误记录sql count

一次小失误记录sql count

这篇文章会出现是因为在统计一个数据的时候随手写了 count,一时忘记 count 对 null 的处理,类似其他的空字符串也是不涵盖的,所以 copy 一篇过来记录一下SQL COUNT() 函数COUNT() 函数返回匹配指定条件的行数。SQL COUNT() 语法SQL COUNT(column_name) 语法COUNT(column……

Caused by: java.io.IOException: Malformed ORC file

Caused by: java.io.IOException: Malformed ORC file

将本地文件的数据加载到 hive 的 ORC 格式表时,出现以下报错:Diagnostic Messages for this Task:Error: java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hive……

hive桶概念

hive桶概念

Hive 分桶分桶对于每一个表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分Hive 是针对某一列进行分桶Hive 采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中好处获得更高的查询处理效率使取样(sampling) 更高效分桶的使用select * from buckete……

DML、DCL等基本概念

DML、DCL等基本概念

博主日常使用查询的工具就是 hive,与 mysql 还是有很多共同之处,但是很多时候也要去 hive 官网查询相关信息,遇到最多了就是 ddl 等相关的名词,在这记录一下DDL数据定义方法,创建数据表,更改数据表相关信息,新增分区等等操作Data Definition Language (DDL) statements are used to def……

hive文件存储格式对比

hive文件存储格式对比

列式存储和行式存储上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。 列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,……

hive传递参数变量方法

hive传递参数变量方法

最近写的脚本都需要向 hive 中传递相关参数,所以搜集一下网上的资料备注一下,也顺便学习一下。使用 Hive 编写程序最常用的方法是将 Hive 语句写到文件中,然后使用 hive -f filename.hql 来批量执行查询语句。经常需要将外部参数传入到 hql 语句中替换其中的变量来动态执行任务,比如动态设定数据库名、表名、时间值、字段序列等变量,……

hive静态与动态分区理解

hive静态与动态分区理解

今天博主需要建立一个备份带分区的数据表,拷贝时若采用静态分区方式需要写 N 行语句,因此可以使用动态分区,节省大量时间。Hive 的分区方式:由于 Hive 实际是存储在 HDFS 上的抽象,Hive 的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。一)hive 中支持两种类型的分区:静态分区 SP(static partit……

AWS之hive单机版环境安装

AWS之hive单机版环境安装

今晚终于在 aws 上把 hive 单机版的环境终于安装好了,现在记录一下安装环境的所有步骤,以后学习 hive 可以直接在 aws 上面测试在hive 专题可以看到更多的学习资料哦hive 需要依赖于 hadoop 环境,因此我们先安装 hadoophadoop 安装java 环境安装yum search java|grep jdk首先查……

hive分桶

hive分桶

Hive 分桶分桶对于每一个表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分Hive 是针对某一列进行分桶Hive 采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中好处获得更高的查询处理效率使取样(sampling) 更高效分桶的使用select * from bucketed_……

数据库字段类型char、varchar、nchar、nvarchar的区别

数据库字段类型char、varchar、nchar、nvarchar的区别

对于程序中的 string 型字段,char、varchar、nchar、nvarchar四种类型来对应(暂时不考虑 text 和 ntext),开建立数据库中,对这四种类型往往比较模糊,这里做一下对比。定长或变长所谓定长就是长度固定的,当输入的数据长度没有达到指定的长度时将自动以英文空格在其后面填充,使长度达到相应的长度;有var前缀的,表示是实际存……

sql 日期转换函数

sql 日期转换函数

经常需要查询半年以内或者指定时间范围内的数据,一般情况下数据库中保存的都是时间戳,时间戳实际上就是 unix 时间,我们可以在正常的日期时间来回转换1、日期函数 UNIX 时间戳转日期函数:from_unixtime()函数格式返回值说明from_unixtimefrom_unixtime(bigint unixtime[, st……

hive 百分比统计

hive 百分比统计

在 hive 查询中关于聚合和统计函数中涉及到百分比函数,比如 PERCENT_RANK,不过这都是依据某个字段行数统计,有些时候我们是需要统计某个字段的当前值除以这个字段值总和来代表相应的百分比,这个目前没有直接的 func 来完成,但是在实际的数据抽取过程中又会用到,所以今天碰到这个问题卡了一下,不过还是解决了,记录一下下面给出在 mysql 上的实际……

HIVE string 操作

HIVE string 操作

1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串 A 的长度举例:hive> select length('abcedfg') from lxw_dual;72. 字符串反转函数:reverse语法: reverse(string A)返回值: s……

HIVE over函数用法

HIVE over函数用法

今天需要统计一个 table 中一个分组前百分之十的记录,查了下资料有 over 函数,类似 row_number over 之类,下面就是从网上拖过来一个写的比较全的一个关于 hive over 函数的使用HIVE  OVER(PARTITION BY)函数介绍开窗函数Oracle 从 8.1.6 开始提供分析函数,分析函数用于计算基于组的某种聚……

mysql5.7修改密码最新版

mysql5.7修改密码最新版

版本更新,现在网上的资料大部分都不能用了,博主写这个博客一开始就踩到坑了,现在把坑填了,博主的使用环境是阿里云 ECS centos6.8+ mysqlsever5.7+mysql5.7如果 mysql 正在运行,首先停止服务service mysqld stop修改/etc/my.cnf 在[mysqld]之后加入skip-grant-tabl……

ETL基本概念

ETL基本概念

ETL 是什么ETL 是 Extract Transform Load 三个英文单词的缩写 中文意思就是抽取、转换、加载。说到 ETL 就必须提到数据仓库。先说下背景知识:信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理 OLTP 的业务系统和办公自动化系统(例如电信行业的各种运营支撑……