keras任意中间层结果输出
最近使用 keras 写了一点代码,输入是正负样本,loss 使用的是交叉熵,但是最终我只需要网络对给定的样本的预测分数就可以了,也就是输入只有一个样本,不存在正负样本对的情况。如果你的模型就一个输入一个输出,那么通过以下的方式你可以拿到你想要的输出from keras import backend as K# with a Sequenti……
Keras过拟合相关解决办法
这种过拟合的处理称为正则化。 我们来学习一些最常用的正则化技术,并将其应用于实践中。1.缩小神经网络的规模防止过拟合最简单的方法是缩小模型的规模:模型中的可学习的参数数量(由层数和每层节点数决定)。 在深度学习中,模型中参数的数量通常被称为模型的能力。 直观地说,拥有更多参数的模型具有更强的记忆能力,甚至可以可以轻松地学习训练样本与其目标之间的类似字典的……
spark获取指定分区数据
使用 mapPartitionsWithIndex 如下所示// Create (1, 1), (2, 2), ..., (100, 100) dataset// and partition by key so we know what to expectval rdd = sc.parallelize((1 to 100) map (i =&……
Spark中Container killed by YARN for exceeding memory limits
昨天在 yarn 集群上跑代码遇到这个问题,现在发现 spark 代码写好是重要的一方面,spark submit 参数设置也起着重要的作用Container killed by YARN for exceeding memory limits,直白的意思就是超出内存限制了,查看 yarn 集群的设置,在 yarn 的配置表 yarn.schedul……
大数据常见错误解决方案
1、用./bin/spark-shell 启动 spark 时遇到异常:java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries!解决方法:add export SPARK_……
推荐系统老司机的十一条经验
一年一度的 ACM Recsys 会议在 9 月份已经胜利闭幕,留下一堆 slides 和 tutorials 等着我们去学习。翻看今年的各种分享,其中老司机 Xavier Amatriain 的分享引起了我的兴趣:Lessons Learned from Building Real-Life Recommender Systems。主要分享了作为推……
spark写hive表遇到的字段问题
问题:spark 版本 1.6,将 dataframe 写到 hive 表中,hive 表事先已经在库中建立好了,所以不需要重复建表,在使用 saveAsTable 函数保存时,hive 的表字段名都被重写为 _1 之类解决方法:出现上述问题的原因是 dataframe 没有 schema,也就是 dateframe 的列名称,对应数据表的字……
spark实现gbdt和lr
spark 对 python 开放的接口实在是有限,只有 scala 是亲生的。查了下 scala 的包和函数,发现提供的真全,博主从零开始撸 scala 代码,边写边查的节奏,给出以下 example 代码给大家参考import org.apache.spark.mllib.classification.LogisticRegressionWit……
mac下编译安装TensorFlow
前言如果直接通过pip install tensorflow安装 Tensorflow 的话,在运行时可能会有这种警告W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instruction……
技术篇-每日一篇0x3-Keras 发布官方中文文档
今年 1 月,Keras 作者、谷歌 AI 研究员 François Chollet 在推特上发出召唤:讲中文的 Keras 用户们,是否有人愿意帮忙一起搞个 Keras 文档的中文版?一个多月后,官方中文文档来了。Keras 是 Google 的一位工程师 François Chollet 开发的一个框架,它能够以 TensorFlow, CN……
网易云课堂-深度学习笔记0x1
深度学习目前基本上已经被很多行业使用,博主每天也会逛技术论坛或者 sf 等网站都会对此有有很多的文章讨论,从工作以来由于接触的平台原因,深度学习暂时使用不到,但是技术一直在持续的发展。之前看过吴恩达教授斯坦福的机器学习课程,现在在网易的云课堂上也有了深度学习的课程,正好也当是入门,对这个技术有入门的了解,现在从事的大数据行业也会用得上。今天快速学习了神……
技术篇-每日一篇0x1
前言在大数据计算领域,Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL 类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学(包括笔者在内),最初开始尝试使用 Spark 的原……
slope one python版与spark sql版本代码分享
slopeone 原理Slope One 是一种很简单的类比类似的算法, 其实大体意思 就是 A B 不同的用户 对不同的 item1 item2 打分那么 一个新用户 C 对 item 的打分,就是 该用户的打分 减去 其他用户打分的平均 就是 C 用户对未知 tem 的打分他有个很好的有点,数据少的时候效果也很好。useritem1……
spark训练rm推荐模型cholesky分解异常分析
最近隔壁的小伙伴跑模型出现了类似以下的错误,当然最主要的错误在下面的红色标识出来client token: N/Adiagnostics: User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in……
mapreduce之shuffle操作
Shuffle 过程是 MapReduce 的核心,也被称为奇迹发生的地方。要想理解 MapReduce, Shuffle 是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做 MapReduce job 性能调优的工作,需要深入代码研究 MapReduce 的运行机制,这才对 Shuffle 探了……
特征选择(7)-基于树模型的选择
上一篇文章使用基于模型的方法进行特征选择,其中主要描述了使用正则项、lasso 等方法实现的特征选择,这篇文章是这个主题的最后一篇,主要是通过树模型来选择特征。常见的决策树模型原理基本知道,从单棵树到多棵树,过渡到随机森林和 GBDT,这些在实际中都有很大用途,尤其是在陈天奇博士的 xgboost 中,完全将决策树提升到一个新的层次。sklearn 函数……