• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下
Spark中Container killed by YARN for exceeding memory limits

Spark中Container killed by YARN for exceeding memory limits

昨天在 yarn 集群上跑代码遇到这个问题,现在发现 spark 代码写好是重要的一方面,spark submit 参数设置也起着重要的作用Container killed by YARN for exceeding memory limits,直白的意思就是超出内存限制了,查看 yarn 集群的设置,在 yarn 的配置表 yarn.schedul……

大数据常见错误解决方案

大数据常见错误解决方案

1、用./bin/spark-shell 启动 spark 时遇到异常:java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries!解决方法:add export SPARK_……

推荐系统老司机的十一条经验

推荐系统老司机的十一条经验

一年一度的 ACM Recsys 会议在 9 月份已经胜利闭幕,留下一堆 slides 和 tutorials 等着我们去学习。翻看今年的各种分享,其中老司机 Xavier Amatriain 的分享引起了我的兴趣:Lessons Learned from Building Real­-Life Recommender Systems。主要分享了作为推……

spark写hive表遇到的字段问题

spark写hive表遇到的字段问题

 问题:spark 版本 1.6,将 dataframe 写到 hive 表中,hive 表事先已经在库中建立好了,所以不需要重复建表,在使用 saveAsTable 函数保存时,hive 的表字段名都被重写为 _1 之类解决方法:出现上述问题的原因是 dataframe 没有 schema,也就是 dateframe 的列名称,对应数据表的字……

spark问题集锦

spark问题集锦

今天刚打了一个 jar 包放在 yarn 集群运行报了错误,干脆整个文章记录所有遇到的问题1、Lost Executor Due to Heartbeat TimeoutIf you see errors like the following:2016-10-09T19:56:51,174 - WARN [dispatcher-eve……

深度学习关键词

深度学习关键词

batch: batch 是批。深度学习每一次参数的更新所需要损失函数并不是由一个{data:label}获得的,而是由一组数据加权得到的,这一组数据的数量就是[batch size]。batch 的思想,至少有两个作用,一是更好的处理非凸的损失函数,非凸的情况下, 全样本就算工程上算的动, 也会卡在局部优上, 批表示了全样本的部分抽样实现, 相当于人……

spark实现gbdt和lr

spark实现gbdt和lr

spark 对 python 开放的接口实在是有限,只有 scala 是亲生的。查了下 scala 的包和函数,发现提供的真全,博主从零开始撸 scala 代码,边写边查的节奏,给出以下 example 代码给大家参考import org.apache.spark.mllib.classification.LogisticRegressionWit……

mac下编译安装TensorFlow

mac下编译安装TensorFlow

前言如果直接通过pip install tensorflow安装 Tensorflow 的话,在运行时可能会有这种警告W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instruction……

技术篇-每日一篇0x3-Keras 发布官方中文文档

技术篇-每日一篇0x3-Keras 发布官方中文文档

今年 1 月,Keras 作者、谷歌 AI 研究员 François Chollet 在推特上发出召唤:讲中文的 Keras 用户们,是否有人愿意帮忙一起搞个 Keras 文档的中文版?一个多月后,官方中文文档来了。Keras 是 Google 的一位工程师 François Chollet 开发的一个框架,它能够以 TensorFlow, CN……

网易云课堂-深度学习笔记0x1

网易云课堂-深度学习笔记0x1

深度学习目前基本上已经被很多行业使用,博主每天也会逛技术论坛或者 sf 等网站都会对此有有很多的文章讨论,从工作以来由于接触的平台原因,深度学习暂时使用不到,但是技术一直在持续的发展。之前看过吴恩达教授斯坦福的机器学习课程,现在在网易的云课堂上也有了深度学习的课程,正好也当是入门,对这个技术有入门的了解,现在从事的大数据行业也会用得上。今天快速学习了神……

技术篇-每日一篇0x1

技术篇-每日一篇0x1

前言在大数据计算领域,Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL 类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学(包括笔者在内),最初开始尝试使用 Spark 的原……

slope one python版与spark sql版本代码分享

slope one python版与spark sql版本代码分享

slopeone 原理Slope One  是一种很简单的类比类似的算法, 其实大体意思 就是 A B 不同的用户 对不同的 item1 item2 打分那么 一个新用户 C 对 item 的打分,就是  该用户的打分 减去 其他用户打分的平均 就是 C 用户对未知 tem 的打分他有个很好的有点,数据少的时候效果也很好。useritem1……

spark训练rm推荐模型cholesky分解异常分析

spark训练rm推荐模型cholesky分解异常分析

最近隔壁的小伙伴跑模型出现了类似以下的错误,当然最主要的错误在下面的红色标识出来client token: N/Adiagnostics: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in……

mapreduce之shuffle操作

mapreduce之shuffle操作

Shuffle 过程是 MapReduce 的核心,也被称为奇迹发生的地方。要想理解 MapReduce, Shuffle 是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做 MapReduce job 性能调优的工作,需要深入代码研究 MapReduce 的运行机制,这才对 Shuffle 探了……

特征选择(7)-基于树模型的选择

特征选择(7)-基于树模型的选择

上一篇文章使用基于模型的方法进行特征选择,其中主要描述了使用正则项、lasso 等方法实现的特征选择,这篇文章是这个主题的最后一篇,主要是通过树模型来选择特征。常见的决策树模型原理基本知道,从单棵树到多棵树,过渡到随机森林和 GBDT,这些在实际中都有很大用途,尤其是在陈天奇博士的 xgboost 中,完全将决策树提升到一个新的层次。sklearn 函数……

特征选择(6)-嵌入式选择(embedded)

特征选择(6)-嵌入式选择(embedded)

上一篇讲解了使用基于递归消除法,从大范围来讲是通过 wrapper 的方法,中文就是包装的方法,递归消除是这其中主要的方法,还有其他类似 GA 等启发式搜索方法。从根本上来说基于 wrapper 是一种搜索方式,将当前的特征组合作为待搜索的大集合,然后在其中找出最优的特征组合然后返回结果。区别于 wrapper 方法,embedded 方法是在选定模型的情……

特征选择(5)-递归消除法

特征选择(5)-递归消除法

上一篇文章使用最大信息系数筛选特征,本篇使用递归消除法筛选特征。递归消除法,首先递归肯定是要循环执行多次来筛选特征,原理上首先要指定一个基模型,这个模型可以是 lr 或者 decisionTree 都可以,套用 sklearn 官方的说法First, the estimator is trained on the initial set of featu……

特征选择(4)-最大信息系数方法

特征选择(4)-最大信息系数方法

上一篇使用卡方系数进行特征选择,使用的是假设检验的思路,这篇文章使用最大信息系数的方法进行计算。为什么要使用 mic?MIC 的优越性根据 MIC 的性质,MIC 具有普适性、公平性和对称性。所谓普适性,是指在样本量足够大(包含了样本的大部分信息)时,能够捕获各种各样的有趣的关联,而不限定于特定的函数类型(如线性函数、指数函数或周期函数),或者说能均衡……