• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

最新发布 第2页

算法之道机器学习、Python和算法爱好者

关于subprocess执行脚本输出定向问题

博主使用这个模块,主要想利用这个去循环执行 hive 脚本,调用 shell 去执行,同时也要适当的时候将结果输出到指定的位置。一、subprocess运行 python 的时候,我们都是在创建并运行一个进程。subprocess.call()父进程等待子进程完成返回退出信息(returncode,相当于 Linux exit code)subp……

hive调优记录

hive调优记录

最近有场讲座是关于 hive 的一个培训,也去听了一下,其中的某些点还是自己的盲区,平时也没注意到这些地方的优化,这些还是比较重要的,特此记录一下。并行优化set hive.exec.parallel=true;    //开启任务并行执行假设你有两个子查询然后需要 join 关联处理,并且两个子查询之间没有任何的关联,这个时候两个子查询可以并行执……

Hive之行转列lateral view用法

Hive之行转列lateral view用法

一般写 sql 经常会遇到行转列或者列转行之类的操作,就像 concat_ws 之类的函数被广泛的使用,今天这个也是经常要使用的拓展方法。Lateral View 语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias……

Embedding向量化的一些理解

Embedding向量化的一些理解

:grin:有个同事某一天问我 embedding 向量化的过程,巴拉巴拉一堆,在日常写代码就两步构建向量矩阵查询但是向量化的真正意图是什么?或者说为什么要进行向量化?个人觉得应该先从 onehot 说起,在日常的工程中经常会遇到各种各样的 id 类特征,这些特征类别量很大,比如用户的 id 会有好多亿,如果你直接使用 onehot 那么你的特征……

关于keras多输入的一些问题

tf2.0 是要力推 keras,最近将之前的代码改造成 keras(挤时间自己改的,还在测试),这中间看着 keras 官方文档加上搜索,有些点其实还是存在一定的疑问。其实主要的问题就是在这模型输入输出这块,keras 在构造网络这块还是比较简单的,看着官网的例子关于函数式 api 提供的例子都是非常的简单。基本上套路就是一个 Input 然后 FC ……

GRU原理白话解析

GRU原理白话解析

接上一篇描述 RNN 网络说道 gradient vanish 的问题,要解决这个问题,那么 gru/lstm 是解决其问题的,说的抽象一点是解决这个问题,实在一点就是要解决记忆问题。基本原理假设给你一个很长很长的文章,一开始你读了很多行还记得前面写了啥,大概描述内容都记得,但是越往后面渐渐的你发现之前的内容是啥记得不太清了,gru 就可以帮助你一直记住……

MTL有效性

MTL有效性

我们假设我们有两个相关的任务 A 和 B,依赖一个共享的隐藏层表示 F。1、Implicit data augmentationMTL 可以有效增加用于模型训练的样本量。由于所有任务难免会有一些噪声,当我们在任务 A 上训练模型, 我们的目标是学习针对任务 A 的一个好的表示,可以完全避免依赖数据的噪音,而且泛化效果好。由于不同的任务有不同的噪声模式,一……

网站图标下载

网站图标下载

不知从何时起有不少人邮件问我网站的鼠标图片之类的资源,今天就打包一份供下载,文末回复刷新即可下载相关附件(ps:骗一波回复)亚丝娜镇楼……

RNN模型入门

RNN模型入门

研究这 RNN,还是要为后面的 Attention 相关服务的,以前的工程里面也用过对特征使用 Attention 机制,但是业务场景只是使用而已,最近要去研究 NLP 相关通用能力,与 NLP 相关的基础算法都要去了解一下。这个也不是 RNN 的基础详细解释,毕竟网上的文章都是随处可以看到了,这个也是自己到处看看然后自己做个简单的笔记记录吧!RNN 循……

word2vec到bert发展史

word2vec到bert发展史

Bert 最近很火,应该是最近最火爆的 AI 进展,网上的评价很高,那么 Bert 值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多 NLP 的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是 Bert 具备广泛……

wp高效插件复制粘贴图片上传插件-the paste

博主的 wp 博客文章里面会经常插入好几张图,每次在媒体里面通过点击上传很麻烦,在网上一搜发现插件 the paste这样可以通过复制粘贴的方式实现图片的上传算是神器吧!安装插件之后就会出现上面的效果了,哈哈,这个图片就是我用这种方式上传的哦,是不是很神奇。。。本站下载……

DCN网络浅析

DCN网络浅析

在 CTR 预估领域出现了很多模型,之前看过一篇微信文章讲述十大经典 CTR 模型,DCN 就是其中一个模型,估计很多公司都已经将其应用到自己的业务场景中了。最早的 wide&deep 网络,对 wide 部分特征的要求是很高的,超高维特征加上线性模型是可以去的不错的效果,主要是模型会简单并且可解释性会很好,对于 wide&deep 其实对……

TensorFlow timeline模块使用

现在 TensorFlow 是机器学习中最常用的库之一。有时,描述张量图可能是非常有用的,并且知道什么操作需要更多的时间和更少的时间。这可以用张量流timeline模块完成。如何执行张量流代码的分析。如何从多次会话运行合并时间轴。分析期间可能会出现什么问题,以及如何解决问题使用Timeline对象来获取图中每个节点的执行时间:你使用一个经典的……

ESMM模型CVR预估

ESMM模型CVR预估

这个文章阿里妈妈最近公开的,但是这个算法在 MTL 领域应该大家都已经使用,只是没人公布出来,如果你多看看 MTL 的文章就会发现这篇文章其实没有什么太大的创新,但是既然论文发表出来了并且在工业实践上取得了很好的成绩,所以还是值得肯定的。核心的要点两个方面:权值共享与完备空间这个网络的有一个很好的地方就是子网络可以自由的去定义,可以根据实际的调参情况确定……

Ring Allreduce并行计算优化

之前使用的 horovod 就是使用 ring allreduce 的方法实现深度学习并行计算优化,这篇文章主要来源于转载,部分加上自己的注释。当将神经网络的训练并行化到许多 GPU 上时,你必须选择如何将不同的操作分配到你可用的不同 GPU 上。在这里,我们关注一种称为数据并行随机梯度下降( SGD )的技术。与标准 SGD 一样,梯度下降是通过数据……

记一次Docker 定时任务问题

最近需要在 docker 中设置定时任务,关于 docker 现在还是入门都没到的地步。现在还是只是一次启动之后,之后就没关过,在里面做些操作。关于镜像是其他小伙伴已经制作好的镜像,我是直接拿来使用的,里面可能有些包没有安装上,所幸 crontab 是被安装了 ,现在就想在 Linux 一样通过corntab -e来创建定时任务,在完成编辑之后,自己测……

计算广告入门概念

计算广告入门概念

最近开始研究计算广告相关的东西了,那么首先我们要弄懂计算广告中一些常见的概念,本文就让我们一起来整理下吧。主要参考的两本书:《计算广告》和 《互联网广告的市场设计》1、广告市场的参与方广告活动的两个主动的参与方是需求方和供给方,被动的参与方是受众。需求方:这里的需求方包括广告主,代表广告主利益的代理商或其他技术形态的采买方,概括来说,就是想要投放广告……

Tensorflow 分布式训练 horovod概念

在写这篇文章之前,压根就没使用过 tensorflow 分布式学习,以前日常工作的数据量也不需要这么大的计算资源,现在需要面临处理数亿级别的数据,所以为了提升模型训练的效率,必须要使用分布式训练,所以还是需要去学习分布式模型训练,并且还要修改源码支持分布式训练。 为什么不选择传统分布式 TensorFlow?The primary motivatio……