首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

一个简单好用的Python并行函数

用Python跑有大量数据的任务的时候,启用多进程加速效果明显。但因为我之前在使用Python的多进程库时总遇到卡住的问题,后来对这块避而远之,总是用别的方法来加速。最近发现OpenMMLab的一些库提供了多进程并行的函数功能,简单好用。比如一个简单的toy例子,OpenCV读图像,resize然后保存,在8个CPU核的 Mac 上,加速比能达到3.4倍(45ms vs 13ms),也就是以前要跑3个多小时的任务,现在1个小时就能搞定,省了不少时间,更多实际例子也证明了这个函数的加速效果,还是挺实用的。这里写个教程,希望也能方便到别的有同样需要的人,当然同类型的库应该也有很多,这里只是取一瓢饮。

03

从数据沉淀、数据挖掘和数据呈现这三个概念了解大数据

对于国内数据分析市场,我们感觉如下: 1. 市场巨大。 许多企业(无论是互联网的新锐还是传统的企业)都在讨论这个,也有实际的需求并愿意为此付钱,但是比较零碎尚不系统化。目前对数据需求最强烈的行业依此是:金融机构(从基金到银行到保险公司到P2P公司),以广告投放及电商为代表的互联网企业等。 2. 尚没出现平台级公司的模式(这或许往往是大市场或者大机会出现之前的混沌期)。 3. To B服务的氛围在国内尚没完全形成。 对于一些有能力的技术公司,如果数据需求强烈的话,考虑到自身能力的健全以及数据安全性,往往不会外包或者采用外部模块,而倾向于自建这块业务。 4. 未来BAT及京东、58和滴滴打车等企业,凭借其自身产生的海量数据,必然是数据领域的大玩家。 但是整个行业很大而且需求旺盛,即使没有留给创业公司出现平台级巨型企业的机会,也将留出各种各样的细分市场机会让大家可以获得自己的领地。 对于数据业务,按照我们的理解,简单将其分为三块:数据沉淀、挖掘和可视化,每一块分别对应不同的模式及产品或服务。(数据挖掘业务又被细分为分析、理解及存储。)下面会进行简单介绍,其实从我们的业务也可以看到一些整个行业的大致状况。

03
领券