注册 登录
    • 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

最新发布 第5页

算法之道机器学习、Python和算法爱好者

Haar-like人脸检测

2001年viola和jones发表的论文《Robust Real Time Object Detection》是人脸检测的一个里程碑,用该方法识别图片或者视频中的人脸有比较高的检测率,不过人脸的姿势(非正脸),光照等其他因素的影响还是比较严重的影响到了检测率。下面我讲我浅薄的理解写下来,如果有误,还请大家指正:Haar-like检测器 = Haar-l……

hash table理解 转载

在前面的系列文章中,依次介绍了基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况下的时间复杂度:可以看到在时间复杂度上,红黑树在平均情况下插入,查找以及删除上都达到了lgN的时间复杂度。那么有没有查找效率更高的数据结构呢,答案就是本文接下来要介绍了散列表,也叫哈希表(Hash Table)什么是哈希表……

hive分桶

Hive 分桶分桶对于每一个表或者分区,Hive可以进一步组织成桶,也就是更为细粒度的数据范围划分Hive是针对某一列进行分桶Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中好处获得更高的查询处理效率使取样(sampling) 更高效分桶的使用select * from bucketed_use……

Spark RDD中的aggregate函数

刚开始看spark快速编程这本书的时候真的是没有理解这个函数的意思,后来看了博客再去看先关的api文档,现在基本上理解了该函数的意思。aggregate主要先对单个分区进行聚合操作,在对所有的分区进行聚合操作,所以需要传递两个函数seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue.……

机器学习数据集

1.西瓜数据集2.0123456789101112131415161718编号,色泽,根蒂,敲声,纹理,脐部,触感,好瓜1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是4,青绿,蜷……

Hadoop 任务执行设置队列参考(转载)

对于集群我们经常会启用公平调度或容量调度来满足多用户的需求,这个时候我们需要去设定相应的队列以及队列的优先级。这里以用到MR和TEZ引擎为例。我这里的队列如下:拥有marketing和operations两个队列分别占用30%和70%的能力总的来说设置如下:作业提交到的队列:mapreduce.job.queuename/tez.queue.name……

数据库字段类型char、varchar、nchar、nvarchar的区别

对于程序中的string型字段,char、varchar、nchar、nvarchar四种类型来对应(暂时不考虑text和ntext),开建立数据库中,对这四种类型往往比较模糊,这里做一下对比。定长或变长所谓定长就是长度固定的,当输入的数据长度没有达到指定的长度时将自动以英文空格在其后面填充,使长度达到相应的长度;有var前缀的,表示是实际存储空间是变……

Python函数陷阱

最近开始回头看下python学习手册,只想说这本书真的讲的很详细,每次看都会学到新的东西,看来基础还是不是太扎实,需要在磨练,精通python势在必行。这篇博文也是在看到迭代器和生成器这块附录关于函数的一些介绍(1)本地变量静态检测在函数中定义的变量默认是本地变量,其实这个大家应该不会犯这个错误 def test(): ……

Spark mlib协同过滤算法中文翻译

最近看了下spark协同过滤的api,并根据提供的代码写了一版商品推荐代码,现在将当前的模块一些api函数翻译一下,万一有人需要呢,这个也是说不准,也加强自己对其的理解吧,大数据之路走起来pyspark.mllib.recommendation module中文翻译class pyspark.mllib.recommendation.MatrixFac……

Spark读取csv跳首行

目前开发的版本的是spark1.6,因此很多最新的api无法使用,典型的就是读取csv文件无法跳过首行,现在给出我现在使用的方法,不过对于多文件可能会出现一定的错误 data = sc.textFile('path_to_data')header = data.first() #extract headerdat……

HIVE自动生成索引

目前HIVE当中并没有相应的api用于自动生成相应的索引,在一般的sql中包含了identity函数可以用于自动生成相应的索引,为了解决这个问题,在apache官网上提供了相应的解决方法,这个功能还是比较实用的,比如博主需要处理的字段数据中一部分是全部数字,但是有些数据是字符和数字的组合,需要对这些数据做相同的函数处理有的时候是无法做到的,因此可以将其映射到……

map_reduce原理

进入大数据领域经常接触到的词汇就是map /reduce,其实在这个在python中经常用到,比如处理一个list时,如果你要对每个元素进行相应的函数操作,就可以通过map的方式,当然你也可以通过生成烈表式来做,在大数据中区别还是在于分布式操作。转载一篇白话原理http://blog.csdn.net/lifuxiangcaohui/article/det……

spark-yarn集群python异常

今天在spark yarn集群上面跑代码发现出现import numpy error ,提示没有相应的模块,其实在当前节点上是已经安装好了python开发环境,后面查找了下原因,在其他节点上没有相应的环境配置,需要admin去修改环境配置以及环境变量的设置,确保所有的节点都是一样的环境。……

HIVE正则表达式

随着HIVE的持续使用,现在业务上也需要匹配文本,一般的加减乘除之类以及统计聚合运算都满足不了了,如果是短的字符串可以使用字符串相关的处理,但是如果是大量的文本都需要正则表达式从中提取出想要的内容,下面的例子都是copy过来的,作为相关函数的说明,会使用就好,来自http://blog.csdn.net/bitcarmanlee/article/detai……

技术大牛养成指南,一篇不鸡汤的成功学实践

有的人想成为大牛,却不曾为此努力。有的人辛苦耕耘,却收获寥寥。很多时候,你跟成功的差距并不是能力,也不是运气,或许只是正确的方法?这是一篇不鸡汤的成功学指南,如果你相信且愿意坚持尝试,未必帮不到你!一碗有勺子的鸡汤我工作已经将近 12 年了(其实 12 年才混到这个地步,天资实在是一般),在华为做了 5 年,在 UC 做了 6 年,现在主要负责阿里游戏……

改善 Python 程序的 91 个建议(二)

建议 24:遵循异常处理的几点基本原则异常处理的几点原则:注意异常的粒度,不推荐在 try 中放入过多的代码谨慎使用单独的 except 语句处理所有异常,最好能定位具体的异常注意异常捕获的顺序,在适合的层次处理异常,Python 是按内建异常类的继承结构处理异常的,所以推荐的做法是将继承结构中子类异常在前抛出,父类异常在后抛出使用更为友好的异常……

改善 Python 程序的 91 个建议(一)

第 1 章 引论建议 1:理解 Pythonic 概念PythonicTim Peters 的 《The Zen of Python》相信学过 Python 的都耳熟能详,在交互式环境中输入import this可以查看,其实有意思的是这段 Python 之禅的源码:d = {}for c in (65, 97): for i in r……

sql 日期转换函数

经常需要查询半年以内或者指定时间范围内的数据,一般情况下数据库中保存的都是时间戳,时间戳实际上就是unix时间,我们可以在正常的日期时间来回转换1、日期函数UNIX时间戳转日期函数:from_unixtime()函数格式返回值说明from_unixtimefrom_unixtime(bigint unixtime[, string……