• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

2018年04月的内容

python多进程event进程间通信

 嘿嘿,有的时候两个人一起干活还是需要交流的,就算是博主一值都拿生产饼干的例子来作为说明的材料,上一篇文章使用信号量表示控制同时干活的进程的数量,现在需要两个人干活的时候需要多交流交流,这个可以通过 event 实现进程之间的通信首先我们先看下 Event 类的定义class Event(object): def __init_……

python多进程信号量(Semaphore)

上一个Lock 是控制资源的访问权限,谁拿到了锁才会去干活,信号量主要控制同时访问资源的进程的数量,比如生产饼干的任务一次只能两个人在车间里面干活,到点了这两个人撤了睡觉去了,在来两个人顶替,或者其中有个人临时有事也得找一个人来顶替干活。下面举个例子来说明import multiprocessingimport timedef worker……

python多进程Lock锁

无论是使用多线程或者多进程都会涉及资源的争夺,比如在多个任务同时读写一个文件,任务就是不断的争夺文件的读写控制权。其中一个任务读写,其他任务就不能执行相同的操作。所以我们使用锁的概念,举个通俗易懂的例子吧!我们的任务就是在一间房子里生产饼干,A 任务抢先拿了锁,那么 A 把门锁住了,其他的都进不来,大约过了一个小时,A 任务执行完毕了要去干别的事情,这个……

python多进程multiprocess理解

目前的工作任务大部分都是在基于分布式操作,前提是当前这个任务可以分布式操作,如果不可以的话也得通过单机操作,单机操作为了更好的利用机器的资源,适当使用多进程或者多线层可以一定程度上提升计算效率。大家都知道 python 存在 GIL 全局锁,所以多线程并不是真的多线程,每次实际上只有一个线程在运作。这个只是一般意义上的说法,比如遇到文件 IO 读写,GI……

python增强命令行神器

ptpythonA better Python REPLpip install ptpythonPtpython is an advanced Python REPL. It should work on all Python versions from 2.6 up to 3.5 and work cross platform (Linu……

PersonalRank算法以及实现

PersonalRank算法以及实现

先举个例子上面的二部图表示 user A 对 item a 和 c 感兴趣,B 对 a b c d 都感兴趣,C 对 c 和 d 感兴趣。本文假设每条边代表的感兴趣程度是一样的。现在我们要为 user A 推荐 item,实际上就是计算 A 对所有 item 的感兴趣程度。在 personal rank 算法中不区分 user 节点和 item ……

Spark中Container killed by YARN for exceeding memory limits

昨天在 yarn 集群上跑代码遇到这个问题,现在发现 spark 代码写好是重要的一方面,spark submit 参数设置也起着重要的作用Container killed by YARN for exceeding memory limits,直白的意思就是超出内存限制了,查看 yarn 集群的设置,在 yarn 的配置表 yarn.schedul……

大数据常见错误解决方案

1、用./bin/spark-shell 启动 spark 时遇到异常:java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries!解决方法:add export SPARK_……

推荐系统老司机的十一条经验

一年一度的 ACM Recsys 会议在 9 月份已经胜利闭幕,留下一堆 slides 和 tutorials 等着我们去学习。翻看今年的各种分享,其中老司机 Xavier Amatriain 的分享引起了我的兴趣:Lessons Learned from Building Real­-Life Recommender Systems。主要分享了作为推……

网易云课堂0x3-偏差与方差

网易云课堂0x3-偏差与方差

其实吧这篇文章可写可不写,因为这个偏差和方差的问题在机器学习中算是经常遇到,大家根据不同的业务场景来做相应的取舍。说道这个也是昨天晚上看深度学习课程的时候,吴恩达大大提到了传统的机器学习方法一般情况下很难固定其中一个减小另外一个,但是深度学习可以做得到,当然深度学习的调参依赖于一定的手段,最佳的参数也是在不断的尝试中得到。从这一点来说,深度学习可以占据一……

spark写hive表遇到的字段问题

 问题:spark 版本 1.6,将 dataframe 写到 hive 表中,hive 表事先已经在库中建立好了,所以不需要重复建表,在使用 saveAsTable 函数保存时,hive 的表字段名都被重写为 _1 之类解决方法:出现上述问题的原因是 dataframe 没有 schema,也就是 dateframe 的列名称,对应数据表的字……

idea打包scala代码

迫于 python 的接口太少,现在博主转向 scala 了,想要运行 spark 程序需要将 scala 代码打包成 jar 包,必要时给 jar 传递额外参数,IDE 使用的是 idea,很强大的工具打包 jar 包主要以下两个步骤1、file->project structure初始状态在中间部分 spark-jar 下面会有很多的 j……

spark问题集锦

今天刚打了一个 jar 包放在 yarn 集群运行报了错误,干脆整个文章记录所有遇到的问题1、Lost Executor Due to Heartbeat TimeoutIf you see errors like the following:2016-10-09T19:56:51,174 - WARN [dispatcher-eve……

数据清洗的几个常用方法

数据清洗的几个常用方法

数据科学家花了大量的时间清洗数据集,并将这些数据转换为他们可以处理的格式。事实上,很多数据科学家声称开始获取和清洗数据的工作量要占整个工作的 80%。因此,如果你正巧也在这个领域中,或者计划进入这个领域,那么处理这些杂乱不规则数据是非常重要的,这些杂乱数据包括一些缺失值,不连续格式,错误记录,或者是没有意义的异常值。在这个教程中,我们将利用 Pyth……