• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

WordPress接入小程序

WordPress版微信小程序安装使用说明昨天在群里,有刚刚使用WordPress版微信小程序朋友,在问安装过程中的问题,这些问题是经常被问到,这至少说明两个问题:1、我开发的程序安装和使用不够简易,无法通过简单的配置就可以使用,特别是如果没有基本的wordpress或微信小程序的知识,是很难搭建成功的。2、缺乏一个简明的安装使用说明。这是我昨天……

hive 高级聚合函数

hive 高级聚合函数

HQL里着实还有很多未发掘的东东,平时写的SQL都感觉很简单。直到最近做些统计报表发现一些新大陆。grouping setsgrouping sets相当于多个group by分组统计后再union的逻辑,那么你想统计多个维度的聚合就需要写多个子查询,使用grouping sets 可以轻松帮忙实现。按省份和地市统计新增数selectsheng……

深度召回工程实践

深度召回工程实践

新业务线上现在有很多种召回策略,在线和离线都有,使用深度召回期望能召回与用户更相关并且感兴趣的物品。这几天页研究了下当前深度召回的常见方法。目前主要看了两个算法,一个是谷歌的 Youtube DNN 深度召回 ,另外一个是 DSSM 召回。这两个的原理其实都不是太复杂,还是以工程实践且效果综合判断,这篇主要是从工程实践这块谈下自己的理解。Youtube ……

Faiss接触的这段时间

Faiss接触的这段时间

引言关于faiss的使用也是在使用embedding相似度召回的时候接触到,的确是一个高效的计算相似度的方案,由FB推出,业界使用的也是比较多。对于faiss的使用我日常使用就是调接口,因为特征平台组都帮我封装好了,更新索引/实时添加索引/查询/监控等都做的比较完善了,去年也去听过一场PPT汇报,大概还是有点印象。如今有个小业务要交界处去,也牵扯到这个……

Python grequests闲话

前段时间看到这个grequests库,感觉还是蛮有意思的,所以今天来对这个库拆解拆解。这个库是崇拜的大神kennethreitz写的。Github地址:https://github.com/kennethreitz/grequests首先看到文档上给的示例:import grequestsurls = ['http://www.……

self attention 使用的一小段经历

self attention 使用的一小段经历

引子大名鼎鼎的NLP论文《all in attention》诠释了attention的厉害。attention这种注意力机制的确在一些自然语言任务如机器翻译等取得了非凡的成就。Bert 的出现横扫业界主流评测数据集上的得分,当然这也跟transformer架构有关,这里面也是存在attention。去年组内同事花了两个晚上大约4小时给我们讲解 bert ……

机器学习id类特征实用性

机器学习id类特征实用性

ID类特征在很多应用场景下都会遇到,电商里面的物品id,信息流里面资讯id,用户的id等等。id 类特征可以直接onehot编码使用,也可以进行embedding使用,前者是巨大的稀疏onehot编码向量,后者面临embedding varaiable 问题。提到这个id类特征是我在进行baseline模型训练的时候前后对比,发现在AUC上竟然可以提升一个点……

wordpress 主题错误后台无法打开修复方案

真的是好久没有来看自己的博客,刚打开懵逼,网站报错了,随后ssh去看了下感觉像是被黑了一样,网站文件里存在好几个可疑文件且wp配置文件也被修改了,赶紧修复了下。升级Wordpress修复好了发现自己的wp版本还是4.9.12版本,估计会存在一定的安全隐患,毕竟现在都已经5.4版本了,先去官网下载最新的5,4中文版本,下载后把wp-content文件夹删掉……

linux 文件大小排序

概要主要用到了以下几个命令:du disk usage查看磁盘使用情况、find 查找文件、sort 排序命令、head 显示top N的命令。查看占用情况查看自己的home磁盘使用率:pichu@Archer ~ $ df -h文件系统 容量 已用 可用 已用% 挂载点udev 7.8G 0 7.8G 0% /devtmpfs 1……

关于图像去重的一点研究

关于图像去重的一点研究

最近在看一些图像去重的一些方法,网上一搜就会看到phash、dhash和ahash等基于哈希方法的去重算法,这一点跟文本上的simhash和minhash有着“相似”的处理逻辑。phash具体处理逻辑如下所示:缩小尺寸 为了后边的步骤计算简单些简化色彩 将图片转化成灰度图像,进一步简化计算量计算DCT 计算图片的DCT变换,得到32*32的DC……

开源Polynote:一个受IDE启发的多语言notebook

我们很高兴宣布Polynote的开源发布:一个新的多语言笔记本,具有一流的Scala支持,Apache Spark集成,包括Scala,Python和SQL在内的多语言互操作性,按需输入自动完成功能等等。Polynote为数据科学家和机器学习研究人员提供了一个笔记本环境,使他们可以自由地将我们基于JVM的ML平台(大量使用Scala)与Python生态系统……

keras预训练模型位置

最近在使用图像一些预训练模型做一些特征提取,提取的特征可以接下游的任务一起工作,使用的keras快速实验验证。如果直接写代码它会默认去github上面去拉预训练模型的文件,但是你懂得速度很感人,所以需要使用工具提前下载好与训练模型,keras是去指定的位置去找这些模型的,所以需要放在合适的位置。Linux下是放在“~/.keras/models/”中W……

Docker部署Familia相关问题解决方法

Docker部署Familia相关问题解决方法

百度的Familia提供了工业界主题向量的应用,现在应该很多的工业界项目中会应用到,也取得不错的效果。官方的文档还是写不够细致甚至还是有点小错误。github上给出的Docker使用方法如下所示:Dockerdocker run -d \ --name familia \ -e MODEL_NAME=news \ -p 5……

深度学习优化器-优化Tricks

深度学习优化器-优化Tricks

在前面两篇文章中,我们用一个框架梳理了各大优化算法,并且指出了以Adam为代表的自适应学习率优化算法可能存在的问题。那么,在实践中我们应该如何选择呢?本文介绍Adam+SGD的组合策略,以及一些比较有用的tricks.回顾前文:Adam那么棒,为什么还对SGD念念不忘 (1)Adam那么棒,为什么还对SGD念念不忘 (2)不同优化算法的核心差异:下……

深度学习优化器-Adam两宗罪

深度学习优化器-Adam两宗罪

在上篇文章中,我们用一个框架来回顾了主流的深度学习优化算法。可以看到,一代又一代的研究者们为了我们能炼(xun)好(hao)金(mo)丹(xing)可谓是煞费苦心。从理论上看,一代更比一代完善,Adam/Nadam已经登峰造极了,为什么大家还是不忘初心SGD呢?举个栗子。很多年以前,摄影离普罗大众非常遥远。十年前,傻瓜相机开始风靡,游客几乎人手一个。智能手……

深度学习优化器-一个框架看懂优化算法

深度学习优化器-一个框架看懂优化算法

机器学习界有一群炼丹师,他们每天的日常是:拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的……

关于矩概念有意思的描述

因为我们常常会将随机变量(先假定有任意阶矩)作一个线性变换,把一阶矩(期望)归零,二阶矩(方差)归一,以便统一研究一些问题。这时候,在同样期望为0方差为1的标准情况下(以下均假设随机变量满足该条件),随机变量最重要的指标就变成了接下来的两个矩了。三阶矩,就是我们所称的「偏度」。粗略来说,一个典型的正偏度变量X的分布满足这样的特征:很大的概率X会取绝对值较小……

第一次接触RPC

很久很久以前经常听到同事提到RPC,因为对工程的了解没那么多,所以也没去纠结RPC,最近自己也在着手写一写工程代码,用到了dubbo,顺便了解了RPC。RPC(Remote Produce Call)指的是进程间通信。就是允许程序调用另一个地址空间(通常是共享网络的另一台机器上)的过程或函数,且不需要显式编码这个远程调用的细节。RPC解决的问题:解决……