• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

关于keras多输入的一些问题

tf2.0 是要力推 keras,最近将之前的代码改造成 keras(挤时间自己改的,还在测试),这中间看着 keras 官方文档加上搜索,有些点其实还是存在一定的疑问。其实主要的问题就是在这模型输入输出这块,keras 在构造网络这块还是比较简单的,看着官网的例子关于函数式 api 提供的例子都是非常的简单。基本上套路就是一个 Input 然后 FC ……

GRU原理白话解析

GRU原理白话解析

接上一篇描述 RNN 网络说道 gradient vanish 的问题,要解决这个问题,那么 gru/lstm 是解决其问题的,说的抽象一点是解决这个问题,实在一点就是要解决记忆问题。基本原理假设给你一个很长很长的文章,一开始你读了很多行还记得前面写了啥,大概描述内容都记得,但是越往后面渐渐的你发现之前的内容是啥记得不太清了,gru 就可以帮助你一直记住……

MTL有效性

MTL有效性

我们假设我们有两个相关的任务 A 和 B,依赖一个共享的隐藏层表示 F。1、Implicit data augmentationMTL 可以有效增加用于模型训练的样本量。由于所有任务难免会有一些噪声,当我们在任务 A 上训练模型, 我们的目标是学习针对任务 A 的一个好的表示,可以完全避免依赖数据的噪音,而且泛化效果好。由于不同的任务有不同的噪声模式,一……

网站图标下载

网站图标下载

不知从何时起有不少人邮件问我网站的鼠标图片之类的资源,今天就打包一份供下载,文末回复刷新即可下载相关附件(ps:骗一波回复)亚丝娜镇楼……

RNN模型入门

RNN模型入门

研究这 RNN,还是要为后面的 Attention 相关服务的,以前的工程里面也用过对特征使用 Attention 机制,但是业务场景只是使用而已,最近要去研究 NLP 相关通用能力,与 NLP 相关的基础算法都要去了解一下。这个也不是 RNN 的基础详细解释,毕竟网上的文章都是随处可以看到了,这个也是自己到处看看然后自己做个简单的笔记记录吧!RNN 循……

word2vec到bert发展史

word2vec到bert发展史

Bert 最近很火,应该是最近最火爆的 AI 进展,网上的评价很高,那么 Bert 值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多 NLP 的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是 Bert 具备广泛……

wp高效插件复制粘贴图片上传插件-the paste

博主的 wp 博客文章里面会经常插入好几张图,每次在媒体里面通过点击上传很麻烦,在网上一搜发现插件 the paste这样可以通过复制粘贴的方式实现图片的上传算是神器吧!安装插件之后就会出现上面的效果了,哈哈,这个图片就是我用这种方式上传的哦,是不是很神奇。。。本站下载……

DCN网络浅析

DCN网络浅析

在 CTR 预估领域出现了很多模型,之前看过一篇微信文章讲述十大经典 CTR 模型,DCN 就是其中一个模型,估计很多公司都已经将其应用到自己的业务场景中了。最早的 wide&deep 网络,对 wide 部分特征的要求是很高的,超高维特征加上线性模型是可以去的不错的效果,主要是模型会简单并且可解释性会很好,对于 wide&deep 其实对……

TensorFlow timeline模块使用

现在 TensorFlow 是机器学习中最常用的库之一。有时,描述张量图可能是非常有用的,并且知道什么操作需要更多的时间和更少的时间。这可以用张量流timeline模块完成。如何执行张量流代码的分析。如何从多次会话运行合并时间轴。分析期间可能会出现什么问题,以及如何解决问题使用Timeline对象来获取图中每个节点的执行时间:你使用一个经典的……

ESMM模型CVR预估

ESMM模型CVR预估

这个文章阿里妈妈最近公开的,但是这个算法在 MTL 领域应该大家都已经使用,只是没人公布出来,如果你多看看 MTL 的文章就会发现这篇文章其实没有什么太大的创新,但是既然论文发表出来了并且在工业实践上取得了很好的成绩,所以还是值得肯定的。核心的要点两个方面:权值共享与完备空间这个网络的有一个很好的地方就是子网络可以自由的去定义,可以根据实际的调参情况确定……

Ring Allreduce并行计算优化

之前使用的 horovod 就是使用 ring allreduce 的方法实现深度学习并行计算优化,这篇文章主要来源于转载,部分加上自己的注释。当将神经网络的训练并行化到许多 GPU 上时,你必须选择如何将不同的操作分配到你可用的不同 GPU 上。在这里,我们关注一种称为数据并行随机梯度下降( SGD )的技术。与标准 SGD 一样,梯度下降是通过数据……

记一次Docker 定时任务问题

最近需要在 docker 中设置定时任务,关于 docker 现在还是入门都没到的地步。现在还是只是一次启动之后,之后就没关过,在里面做些操作。关于镜像是其他小伙伴已经制作好的镜像,我是直接拿来使用的,里面可能有些包没有安装上,所幸 crontab 是被安装了 ,现在就想在 Linux 一样通过corntab -e来创建定时任务,在完成编辑之后,自己测……

计算广告入门概念

计算广告入门概念

最近开始研究计算广告相关的东西了,那么首先我们要弄懂计算广告中一些常见的概念,本文就让我们一起来整理下吧。主要参考的两本书:《计算广告》和 《互联网广告的市场设计》1、广告市场的参与方广告活动的两个主动的参与方是需求方和供给方,被动的参与方是受众。需求方:这里的需求方包括广告主,代表广告主利益的代理商或其他技术形态的采买方,概括来说,就是想要投放广告……

Tensorflow 分布式训练 horovod概念

在写这篇文章之前,压根就没使用过 tensorflow 分布式学习,以前日常工作的数据量也不需要这么大的计算资源,现在需要面临处理数亿级别的数据,所以为了提升模型训练的效率,必须要使用分布式训练,所以还是需要去学习分布式模型训练,并且还要修改源码支持分布式训练。 为什么不选择传统分布式 TensorFlow?The primary motivatio……

TensorFlow SaveModel API 入门

最近换了新坑,组里的 tensorflow 版本基本上都赶到了最新的 1.13 版本了,我最近写的代码都是基于 1.13.1 了,其中有一个就是 tensorflow 保存模型这块,使用了 SavedModel。为什么不使用 checkpoint?Saver.restore()需要提前建立好计算图,这在理论上是可行的,但是对于模型跨平台来说,成本和效率……

Tensorflow中梯度裁剪

Tensorflow中梯度裁剪

本文简单介绍梯度裁剪(gradient clipping)的方法及其作用,不管在 RNN 或者在其他网络都是可以使用的,比如博主最最近训练的 DNN 网络中就在用。梯度裁剪一般用于解决 梯度爆炸(gradient explosion) 问题,而梯度爆炸问题在训练 RNN 过程中出现得尤为频繁,所以训练 RNN 基本都需要带上这个参数。常见的 gradien……

Tensorflow pipline 性能

输入管道性能指南GPU 和 TPU 可以从根本上缩短执行单个训练步骤所需的时间。为了实现最佳性能的目的,我们需要一个高效的输入管道用于在当前步骤完成前为下一步骤提供数据。tf.data API 有利于构建灵活高效的输入管道。本文档介绍了 tf.data 的特性以及在各种模型和加速器中构建高性能 TensorFlow 输入管道的最佳实践。本指南主要有以下内……

tf.GraphKeys简介

GraphKeystf.GraphKeys包含所有graph collection中的标准集合名,有点像 Python 里的 build-in fuction。首先要了解graph collection是什么。graph collection在官方教程——图和会话中,介绍什么是 tf.Graph是这么说的:tf.Graph包含两类相关信息:……