• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

最新发布 第5页

算法之道机器学习、Python和算法爱好者

推荐系统老司机的十一条经验

一年一度的 ACM Recsys 会议在 9 月份已经胜利闭幕,留下一堆 slides 和 tutorials 等着我们去学习。翻看今年的各种分享,其中老司机 Xavier Amatriain 的分享引起了我的兴趣:Lessons Learned from Building Real­-Life Recommender Systems。主要分享了作为推……

网易云课堂0x3-偏差与方差

网易云课堂0x3-偏差与方差

其实吧这篇文章可写可不写,因为这个偏差和方差的问题在机器学习中算是经常遇到,大家根据不同的业务场景来做相应的取舍。说道这个也是昨天晚上看深度学习课程的时候,吴恩达大大提到了传统的机器学习方法一般情况下很难固定其中一个减小另外一个,但是深度学习可以做得到,当然深度学习的调参依赖于一定的手段,最佳的参数也是在不断的尝试中得到。从这一点来说,深度学习可以占据一……

spark写hive表遇到的字段问题

 问题:spark 版本 1.6,将 dataframe 写到 hive 表中,hive 表事先已经在库中建立好了,所以不需要重复建表,在使用 saveAsTable 函数保存时,hive 的表字段名都被重写为 _1 之类解决方法:出现上述问题的原因是 dataframe 没有 schema,也就是 dateframe 的列名称,对应数据表的字……

idea打包scala代码

迫于 python 的接口太少,现在博主转向 scala 了,想要运行 spark 程序需要将 scala 代码打包成 jar 包,必要时给 jar 传递额外参数,IDE 使用的是 idea,很强大的工具打包 jar 包主要以下两个步骤1、file->project structure初始状态在中间部分 spark-jar 下面会有很多的 j……

spark问题集锦

今天刚打了一个 jar 包放在 yarn 集群运行报了错误,干脆整个文章记录所有遇到的问题1、Lost Executor Due to Heartbeat TimeoutIf you see errors like the following:2016-10-09T19:56:51,174 - WARN [dispatcher-eve……

数据清洗的几个常用方法

数据清洗的几个常用方法

数据科学家花了大量的时间清洗数据集,并将这些数据转换为他们可以处理的格式。事实上,很多数据科学家声称开始获取和清洗数据的工作量要占整个工作的 80%。因此,如果你正巧也在这个领域中,或者计划进入这个领域,那么处理这些杂乱不规则数据是非常重要的,这些杂乱数据包括一些缺失值,不连续格式,错误记录,或者是没有意义的异常值。在这个教程中,我们将利用 Pyth……

LTR排序之pair-wise-ranknet算法TensorFlow实现

LTR排序之pair-wise-ranknet算法TensorFlow实现

在之前的有一篇文章给出了pointwise 之 prank 算法说明以及实现,这一篇文章会讲解 pairwise。写这篇文章之前也看了很多篇博客包括原版论文,在这里自己尽量用白话 的方式让读者理解这个看似很厉害的方法。乍一看 pair,英文直接翻译就是一对的意思,哈哈,这个排序方法与组队有很大的关系,究竟组队会在哪里体现呢?等会就知道了先看两幅图,为什……

Python偶遇glob

今天在看一个代码的时候发现 glob,源代码是需要将子目录里面所有带指定后缀名的文件检索出来,我们并不关心文件的名字,只关心文件后缀名。代码中给出了 glob 函数的操作,通过给出正则表达式匹配所有的文件并返回列表,找到则不为空。有了这个就不需要自己去便利每一个子目录了。。。。Python 的包真的是多,知道能省很多时间,不知道又要自己造轮子了。。。。。……

技术篇-每日一篇0x5-python工厂模式

前面介绍过单例模式,单例模式的思想就是一个对象只有一个实例,当你想创建多个实例的时候也只会返回已存在的实例,并不会给你再次创建,这个会解决大量的实例常见和 gc 回收带来的消耗。不需要的额外的频繁操作。今天来说一说工厂模式。既然是工厂,那么干的事情就会很多了,而且效率高,我们要维护一个工厂如果干事不利索那还办啥工厂,你说是不是,早就倒闭了。。。。。说……

网易云课堂-0x2深度学习激活函数

网易云课堂-0x2深度学习激活函数

:mrgreen:博主今天跑完微马拉松,回来之后躺在沙发上就睡着了,醒来洗个澡开始学习了,网易云课堂的视频最近也在看,今天来说下几个激活函数吧,在没有深度学习之前基本上常用的就是 sigmoid 函数,主要还是在 lr 中用到的比较多。在吴恩达的 DeepLearning 视频中给出了四个激活函数,分别是 sigmoid,tanh 和 relu lea……

mac下pycharm快捷键

mac下pycharm快捷键

Mac 键盘符号和修饰键说明⌘ Command⇧ Shift⌥ Option⌃ Control↩︎ Return/Enter⌫ Delete⌦ 向前删除键(Fn+Delete)↑ 上箭头↓ 下箭头← 左箭头→ 右箭头⇞ Page Up(Fn+↑)⇟ Page Down(Fn+↓)Home Fn + ←End Fn + →……

LTR-pointwise之prank-python代码实现

LTR-pointwise之prank-python代码实现

修改记录:2017/3/22 修改代码中的部分 BUG核心代码 https://github.com/zhusimaji/ml/blob/master/prank.pydef learn_to_rank(self): print 'start to learn rank' new_label = [0 for x in rang……

技术篇–每日一篇0x4-python单例模式

方法一:使用装饰器装饰器维护一个字典对象 instances,缓存了所有单例类,只要单例不存在则创建,已经存在直接返回该实例对象。def singleton(cls): instances = {} #看到有人在这有疑问,为啥 instances 会有缓存功能?函数调用结束时所有变量不是释放? #正解:只有程序运行结束……

深度学习关键词

batch: batch 是批。深度学习每一次参数的更新所需要损失函数并不是由一个{data:label}获得的,而是由一组数据加权得到的,这一组数据的数量就是[batch size]。batch 的思想,至少有两个作用,一是更好的处理非凸的损失函数,非凸的情况下, 全样本就算工程上算的动, 也会卡在局部优上, 批表示了全样本的部分抽样实现, 相当于人……

spark实现gbdt和lr

spark 对 python 开放的接口实在是有限,只有 scala 是亲生的。查了下 scala 的包和函数,发现提供的真全,博主从零开始撸 scala 代码,边写边查的节奏,给出以下 example 代码给大家参考import org.apache.spark.mllib.classification.LogisticRegressionWit……

mac配置spark本地开发环境

网上的资料一大堆都是很早以前版本的教程,干脆自己写一个最新版的。此处有一定要强调,类似环境的安装一定要去官网看说明,不然你本地哗哗哗搞定程序一跑报错,懵逼了DownloadingGet Spark from the downloads page of the project website. This documentation is for Sp……

mac下编译安装TensorFlow

前言如果直接通过pip install tensorflow安装 Tensorflow 的话,在运行时可能会有这种警告W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instruction……

最大熵理论推导

最大熵理论推导

先给出一个例子抛出最大熵的问题。。掷骰子,骰子总共有 6 个点数,现在你觉得每个点数掷到的概率多大?你毫不犹豫的说 1/6,此时你就使用了最大熵模型来解决这个问题,只是你自己不知道。在没有任何约束的情况下,你认为等概率事件是最好的结果,如果现在继续告诉你 1 点和 2 点的概率占比 1/2,那么剩下的四个点数的总规律是 1/2,此时你又要做均分了……