• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

标签:大数据

Spark中Container killed by YARN for exceeding memory limits

昨天在 yarn 集群上跑代码遇到这个问题,现在发现 spark 代码写好是重要的一方面,spark submit 参数设置也起着重要的作用Container killed by YARN for exceeding memory limits,直白的意思就是超出内存限制了,查看 yarn 集群的设置,在 yarn 的配置表 yarn.schedul……

大数据常见错误解决方案

1、用./bin/spark-shell 启动 spark 时遇到异常:java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries!解决方法:add export SPARK_……

推荐系统老司机的十一条经验

一年一度的 ACM Recsys 会议在 9 月份已经胜利闭幕,留下一堆 slides 和 tutorials 等着我们去学习。翻看今年的各种分享,其中老司机 Xavier Amatriain 的分享引起了我的兴趣:Lessons Learned from Building Real­-Life Recommender Systems。主要分享了作为推……

spark问题集锦

今天刚打了一个 jar 包放在 yarn 集群运行报了错误,干脆整个文章记录所有遇到的问题1、Lost Executor Due to Heartbeat TimeoutIf you see errors like the following:2016-10-09T19:56:51,174 - WARN [dispatcher-eve……

深度学习关键词

batch: batch 是批。深度学习每一次参数的更新所需要损失函数并不是由一个{data:label}获得的,而是由一组数据加权得到的,这一组数据的数量就是[batch size]。batch 的思想,至少有两个作用,一是更好的处理非凸的损失函数,非凸的情况下, 全样本就算工程上算的动, 也会卡在局部优上, 批表示了全样本的部分抽样实现, 相当于人……

mac下编译安装TensorFlow

前言如果直接通过pip install tensorflow安装 Tensorflow 的话,在运行时可能会有这种警告W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instruction……

技术篇-每日一篇0x3-Keras 发布官方中文文档

今年 1 月,Keras 作者、谷歌 AI 研究员 François Chollet 在推特上发出召唤:讲中文的 Keras 用户们,是否有人愿意帮忙一起搞个 Keras 文档的中文版?一个多月后,官方中文文档来了。Keras 是 Google 的一位工程师 François Chollet 开发的一个框架,它能够以 TensorFlow, CN……

网易云课堂-深度学习笔记0x1

深度学习目前基本上已经被很多行业使用,博主每天也会逛技术论坛或者 sf 等网站都会对此有有很多的文章讨论,从工作以来由于接触的平台原因,深度学习暂时使用不到,但是技术一直在持续的发展。之前看过吴恩达教授斯坦福的机器学习课程,现在在网易的云课堂上也有了深度学习的课程,正好也当是入门,对这个技术有入门的了解,现在从事的大数据行业也会用得上。今天快速学习了神……

ACM recsys十年回顾(转载)

ACM recsys十年回顾(转载)

ACM(国际计算机学会)主办的推荐系统专场(Recsys)是推荐系统圈子的顶级会议,从 2007 年开始,至今已经十年,这十年中每年都有 Tutorial 公布,本文整理出来,可以一探推荐系统的业界和学界兴趣点的迁移。十年回顾2007本年度并没有公开的 Tutorial,但从会议收录的文章主题,可以看到本届会议重点讨论的话题是:隐私和信任,协同过滤……

mapreduce之shuffle操作

Shuffle 过程是 MapReduce 的核心,也被称为奇迹发生的地方。要想理解 MapReduce, Shuffle 是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做 MapReduce job 性能调优的工作,需要深入代码研究 MapReduce 的运行机制,这才对 Shuffle 探了……

特征选择(7)-基于树模型的选择

上一篇文章使用基于模型的方法进行特征选择,其中主要描述了使用正则项、lasso 等方法实现的特征选择,这篇文章是这个主题的最后一篇,主要是通过树模型来选择特征。常见的决策树模型原理基本知道,从单棵树到多棵树,过渡到随机森林和 GBDT,这些在实际中都有很大用途,尤其是在陈天奇博士的 xgboost 中,完全将决策树提升到一个新的层次。sklearn 函数……

特征选择(6)-嵌入式选择(embedded)

上一篇讲解了使用基于递归消除法,从大范围来讲是通过 wrapper 的方法,中文就是包装的方法,递归消除是这其中主要的方法,还有其他类似 GA 等启发式搜索方法。从根本上来说基于 wrapper 是一种搜索方式,将当前的特征组合作为待搜索的大集合,然后在其中找出最优的特征组合然后返回结果。区别于 wrapper 方法,embedded 方法是在选定模型的情……

特征选择(5)-递归消除法

上一篇文章使用最大信息系数筛选特征,本篇使用递归消除法筛选特征。递归消除法,首先递归肯定是要循环执行多次来筛选特征,原理上首先要指定一个基模型,这个模型可以是 lr 或者 decisionTree 都可以,套用 sklearn 官方的说法First, the estimator is trained on the initial set of featu……

特征选择(4)-最大信息系数方法

上一篇使用卡方系数进行特征选择,使用的是假设检验的思路,这篇文章使用最大信息系数的方法进行计算。为什么要使用 mic?MIC 的优越性根据 MIC 的性质,MIC 具有普适性、公平性和对称性。所谓普适性,是指在样本量足够大(包含了样本的大部分信息)时,能够捕获各种各样的有趣的关联,而不限定于特定的函数类型(如线性函数、指数函数或周期函数),或者说能均衡……

特征选择(3)-卡方检验

上一篇说明从皮尔逊系数选择,这次使用卡方检验的方法来选择特征,使用假设检验的方式。首先还是从卡方检验的原理,一切还是从白话文说起。一个案例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了 515 个成年人,其中吸烟者 220 人,不吸烟者 295 人.调查结果是:吸烟的 220 人中有 37 人患呼吸道疾病(简称患病),183……

特征选择(2)-相关系数法

上一篇文章讲到使用方差选择特征,这篇文章主要是使用 pearson 系数进行特征选择使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的 P 值相关系数的计算公式如下:$$s=\frac{\sum_{i=0}^{n}(x_i-\overline{x})*(y_i-\overline{y})}{\sqrt{\sum_{i=0}^{n}(x_i……

特征选择(1)-方差选择法

方差选择法当然是使用方差来衡量特征,处理的维度是特征维度,计算当前的特征的方差大小,根据设定的方差阈值选取出大于阈值的特征。为什么方差可以用来选择特征?理论上是认为在样本集上如果当前特征基本上都差异不大,因此可以认为这个特征对我们区分样本贡献不大,因此可以在构造特征过程中可以将其去掉。sklearn 函数剖析 from sklearn.f……

特征选择

特征选择在机器学习中占据了重要的地位,通常在构造完特征之后会发现很多特征,少则十几个多则几十个,其实这些特征并不完全对我们构造的模型有益,也许其中只有部分特征会对我们的模型是最佳组合,因此我们需要筛选出相应的特征组合作为训练的特征。特征较多带来的问题:特征维数较高,训练模型会比较麻烦维数灾难,训练的模型效果不一定好且泛化能力较差因此需要特征选择的……