• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

代码重构之UML图学习

最近组内的算法代码准备重构,落到自己的身上,以前也没干过这事,感觉压力有点大,重构之前还是先把 uml 图绘制出来,理清楚思路再去重构。。。1、为什么需要类图?类图的作用我们做项目的需求分析,最开始往往得到的是一堆文字,请看下面这堆文字:本项目是在一期的基础上增加对电缆、通讯工程的管理和施工详细数据的记录和统计,使整个系统更好的管理各工程项目从中……

Git回滚到历史节点(SourceTree篇)

Git回滚到历史节点(SourceTree篇)

1. 原理原理,我们都知道 Git 是基于 Git 树进行管理的,要想要回滚必须做到如下 2 点:本地头节点与远端头节点一样(Git 提交代码的前提条件);于本地头节点获取某次历史节点的更改。说的有点抽象,以图来进行形容。2. 详细步骤步骤简记如下:两个节点 当前节点(最新节点) 与 历史节点1 点击历史节点,重置到历史节点,选……

推荐系统中融合特征排序两三事

推荐系统中融合特征排序两三事

一般情况下对于推荐输出的召回的候选集进行排序,ltr 排序这个也是大家经常使用的。lr+gbdt这个组合在 ctr 预估中已经被广泛使用了,当然在推荐结果的重排序中也发挥着重要的作用。如果直接将构造的特征向量输入到 lr 模型当中,每个特征都是单独的特征,各自之间没有什么联系。其实很多时候特征之间的组合的意义大于特征自身,因此 facebook 使用……

EM角度理解kmeans

EM角度理解kmeans

最近需要做一个国家区域的聚类分析,使用的是 kmeans 聚类方法,构造接近 900 维特征来进行聚类。使用 sklean 基本上就可以使用较少的代码来实现。中间使用过 TSNE 观察降维之后的特征在二维平面上的分布情况。kmeans 应该算是聚类算法中最简单的聚类算法了,在 spark 中也有其对应的实现。至于本篇文章的由来那就是归功于 LDA 的……

AUC推荐评价指标

AUC推荐评价指标

最近在极客时间上买了一个推荐三十六式的课程,作为一个推荐系统方面的新手,在这个课程上还是可以学习不少推荐方面的知识,今天在看到 BPR 的时候给出了 AUC 在衡量推荐结果指标这块的分析。乍一看 AUC 还可以干这事,至少之前是没想过的,以前都是使用 ROC 或者 AUC 来衡量监督学习的好坏,现在还可以用来衡量推荐算法的好坏。要分析这个就要从 AUC……

ip地址相关解释

最近在分析电商网站在各个国家地区的特征,由于埋点记录只有 ip,所以需要解析 ip 获取对应的国家地区等信息在网上找了一个开源的数据库,提供的格式有 mmdb 和 csv 等格式,mmdb 是二进制文件。在看 csv 文件中记录 ip 的格式是这个样子的,算是学习了,说白了计算机网络了解的不够xx.xx.xx.2/24   最简单的说明这个 24 ……

协程的全局变量无需加锁

请问下面的输出是?import eventletimport threadingcount = 0def count_10000(): global count for i in xrange(10000): count += 1def count_in_threads(): ……

spark获取指定分区数据

使用 mapPartitionsWithIndex 如下所示// Create (1, 1), (2, 2), ..., (100, 100) dataset// and partition by key so we know what to expectval rdd = sc.parallelize((1 to 100) map (i =&……

pyhive在redhat部署问题

在自己的 mac 上面操作没有任何问题,具体的安装过程可以参考这个文章pyhive 简明教程但是今天早上找运维大哥在我们的线上服务器部署时就出现报错,主要的错误如下所示thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl_client_……

pyhive使用简明教程

博主使用的是 pyhive,目前发现 github 作者还在一直维护当中附上链接pyhive作为工具,我们直接使用就好了,当然你的服务器也要开启对用的服务,后面我们才可以通过客户端连接使用在 macos 下面可以通过安装下面的包即可pip install pyhivepip install thiftpip install saslpi……

sklearn中tsne可视化

sklearn中tsne可视化

声明:manifold:可以称之为流形数据。像绳结一样的数据,虽然在高维空间中可分,但是在人眼所看到的低维空间中,绳结中的绳子是互相重叠的不可分的。参考sklearn 官方文档对数据降维比较熟悉的朋友可以看这篇博客t-SNE 实践——sklearn 教程数据降维与可视化——t-SNEt-SNE 是目前来说效果最好的数据降维与可视化方法,但是它……

openmp与mpi

openmp与mpi

I’ve been taking the course Parallel Computing this semester, and I’m also participating in some student cluster competitions. Therefore, I wanted to configure OpenMP and MPI on my……

mongodb查询之数组查询

mongodb查询之数组查询

1、$all一般情况下数组中会有多个元素,使用 all 可以给出多个元素查询条件,对应的文档要全部包含查询条件中的数据才是匹配的文档。db.test.find({"fruit":{"$all":["apple","banana"]}}){ "_i……

mongodb特定情况查询

mongodb特定情况查询

1、null 查询db.test.find({"enemies":null}){ "_id" : ObjectId("5b042463c42e07823911338e"), "name" : 25.0, "friends……

mongodb查询之查询条件

mongodb查询之查询条件

1、$gt $gte $lt $lte如果直接记忆这些不太好记,但是你要是知道其中的意思就好记了,gte 就是 greater than equal 也就是大于等于的意思,这样好记多了db.test.find({ "friends" : {"$gte":32} }){ "_id……

mongodb误操作查数据表操作日志

起因今天早上过来发现生产系统使用的 MongoDB 库被删掉了。说明可能是两种情况:一、误删,连操作者自己也没意识到做了一个删除操作;二、bug,在某个程序中存在一个 bug。后来定位到自己的代码出现 BUG,赶紧代码修改然后测试今天的调度任务MongoDB 系统日志路径从配置文件中可以查看。MongoDB 进程信息中可以看到配置文件的位置:[ro……

机器学习和深度学习课程笔记打印版

机器学习和深度学习课程笔记打印版

Coursera 深度学习教程中文笔记课程概述https://mooc.study.163.com/university/deeplearning_ai#/c这些课程专为已有一定基础(基本的编程知识,熟悉Python、对机器学习有基本了解),想要尝试进入人工智能领域的计算机专业人士准备。介绍显示:“深度学习是科技业最热门的技能之一,本课程将帮你掌握……

mongodb查询入门(1)

mongodb查询入门(1)

说实话使用关系型数据库习惯了,一开始接触 mongodb 还是有点不太习惯,但是也发现了其有点,数据都是以文档的形式保存,那么数据保存的形式就是多样化了,例如现在推荐算法的数据都是以数组的形式保存的。查询mongodb 是使用 find 函数来实现相关文档的查询操作。db.test.find({})上述代码中 find 中没有任何的参数那么会……