首页
学习
活动
专区
工具
TVP
发布

PPV课数据科学社区

专栏作者
2119
文章
2439545
阅读量
187
订阅数
【重磅】33款可用来抓数据的开源爬虫软件工具
要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接
小莹莹
2018-04-24
3.9K0
案例 | 机器学习案例实战:信用卡欺诈检测
作者简介: 唐宇迪,深度学习领域多年一线实践研究专家,同济大学硕士。 主要研究深度学习领域,计算机视觉,图像识别。精通机器学习,热爱各种开源技术尤其人工智能方向。在图像识别领域有着丰富经验,实现过包括人脸识别,物体识别,关键点检测等多种应用的最新算法。 故事背景 原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数据做特征提取的操作,但是面对的挑战还是蛮大的。 imp
小莹莹
2018-04-24
1.6K0
【技术】Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据
scrapy_jingdong[9]- 京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。[9]: https://github.com/taizilongxu/scrapy_jingdong QQ-Groups-Spider[10]- QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。[10]: https://github.com/caspartse/QQ-Groups-Spider wooyun_public
小莹莹
2018-04-24
2.5K0
工具 | Facebook 开源产业级深度学习框架 Caffe2,带来跨平台机器学习工具
来源:caffe2.ai 作者:caffe2 team 译者:文强 【导读】近日,Facebook 宣布开源 production-ready 的深度学习框架 Caffe2,轻量级、模块化,在移动端和云上都做了优化。同时提供的还有 C++ 和 Python API,以及模型库 Caffe2 Model Zoo,里面有视觉、语音、翻译等预训练模型,方便开发人员和研究者直接使用。 AI 模型的训练和部署通常与大量数据中心或超级计算机相关联,原因很简单。从大规模的图像、视频、文本和语音等各种信息中持续处理、创
小莹莹
2018-04-24
6810
Python机器学习库和深度学习库总结
我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目,并挑选出最受欢迎和最活跃的项目。 1. Scikit-learn(重点推荐) www.github.com/scikit-learn/scikit-learn Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Pyth
小莹莹
2018-04-24
6150
3天学会TensorFlow | 中国香港科技大学
整理 | 周翔 2015 年底,谷歌开源了内部使用的深度学习框架 TensorFlow。与 Caffe、Torch、MXNet 等框架相比,TensorFlow 在 Github 上的 star 数量、fork 数量、contributor 数量这三个数据上都完胜竞争对手,而且在图形分类、音频处理、推荐系统和自然语言处理等场景下也有丰富的应用。此外,Keras 框架底层默认使用 TensorFlow,这无不印证了 TensorFlow 在业界的流行程度。 TensorFlow 的流行让深度学习的门槛越来
小莹莹
2018-04-24
3.1K0
2017编程语言排行榜
2017年马上就要结束了,在过去的这一年里,究竟哪个编程语言是开发者们最喜爱的热门语言,谁能登上排行榜的宝座?你学对了吗? 一年一度的IEEE Spectrum编程语言排行盛宴又来了,IEEE Spectrum 的排序是来自 10 个重要线上数据源的综合。 例如 Stack Overflow、Twitter、Reddit、IEEE Xplore、GitHub、CareerBuilder 等,对 48 种语言进行排行。 与其他排行榜不同的是,IEEE Spectrum 可以让读者自己选择参数组合时的权重,
小莹莹
2018-04-24
1.4K0
近期GitHub上最热门的开源项目(附链接)
来源:开源最前线 2 月份 GitHub 上最热门的开源项目又出炉了,又有哪些新的项目挤进热门榜单了呢,一起来看看。 ……………………………… 1、nocode https://github.com/kelseyhightower/nocode Star 16256 这是 2 月份新出炉的项目,可以说是 2018 年最火的佛系编程了,这个项目里面没有一行代码,它的 description 是这样的:The best way to write secure and reliable application
小莹莹
2018-04-24
8450
干货 | 全球100款大数据工具汇总(收藏备用)
导读:你熟悉多少工具?今天我们将常用的100款工具推荐给您,若您有更多更好的工具欢迎留言! 1、 Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract
小莹莹
2018-04-24
1.1K0
【机器学习】你需要多少训练数据?
从谷歌的机器学习代码中得知,目前需要一万亿个训练样本。 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练数据,模型也会产生相应的结果。但是,问题是你需要多少训练数据合适呢?这恰恰取决于你正在执行的任务、最终想通过模型实现的性能、现有的输入特征、训练数据中含有的噪声、已经提取的特征中含有的噪声以及模型的复杂性等等诸多因素。所以,发现所有这些变量相互之间有何联系,如何工作的方法即是通过在数量不一的训练样本上训练模型,并且绘制出模型关于各个训练样本集
小莹莹
2018-04-23
1.4K0
用R进行文本挖掘与分析:分词、画词云
要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直
小莹莹
2018-04-23
2.2K0
浅谈开源大数据平台的演变
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。 Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗;小部分离线存储和计算需求,在对性能要求不高的情况下,也可以使用Hadoop实现。因此
小莹莹
2018-04-23
1.1K0
吴甘沙:既然不能避免个人数据泄漏,何不做自己数据的CEO呢?|高峰论坛
本文由未来创客(futuretrek)根据峰会内容整理,未经授权禁止转载 6月18日下午,湛庐文化·未来创客在清华大学学经管学院伟伦楼一层报告厅,举办了题为“数据风暴中,谁将成为下一个产业颠覆者?”的大数据应用创新高峰论坛,本文为因特尔中国研究院院长吴甘沙先生的演讲内容整理版。 文章有点长,但小创强烈建议一定要认真阅读。现在谈论大数据时,我们往往是从商业角度探讨这一话题,但吴先生却更多地从大家更关心的个人隐私角度来分析问题。在这个互联网日益发达的大数据时代,一个人不可能很好地隐藏自己的数据,那么我们就应该学
小莹莹
2018-04-23
7840
数据挖掘系列(5)使用mahout做海量数据关联规则挖掘
上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。 安装mahout   骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所以我假定已经
小莹莹
2018-04-23
7540
【学习】公司的大数据业务为什么都基于Hadoop方案
  一、可以帮助我们解决什么问题   现在不管是在国内外的大公司,对于大数据都是非常的渴望,会想尽所有的办法搜集一切的数据,由于现代信息的不对称从而导致不断的数据变化,大量的信息是可以通过数据分析获取
小莹莹
2018-04-23
5810
Ambari——大数据平台的搭建利器
Ambari 是什么 Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让
小莹莹
2018-04-23
1.2K0
【学习】R语言各种优点
开源R软件不再是学术机构的独宠或专有工具。经过多年来的持续演进,它现在已成为数据科学家、业务分析师和数据挖掘人员的理想分析软件。 Rexer Analytics发布的2013年数据挖掘人员调查显示,70%的数据挖掘人员使用R软件进行分析工作,其中有24%将其用作主要工具。这些结果类似于2013 年KDnuggets调查的结果,该调查指出有61%的响应者表示使用R处理分析、数据挖掘和数据科学工作。相比前一年,这一比例上升了16%。 R 是什么? R 是在用户数量和分析功能方面增长最快的分析工具。它也被称为“
小莹莹
2018-04-20
1.6K0
盘点互联网巨头奉献的十大开源安全工具
Facebook等大型互联网公司推动的服务器与数据中心、大数据工具的开源化项目类似,当大型互联网公司们在超大规模基础设施运营方面面临的挑战超出技术厂商的能力时,这些巨头就选择反客为主,成为创新技术的推动者和提供者。同样的情况也在信息安全领域中发生着。不少大型互联网公司经常会将自己开发的顶级安全工具开源,推动整个互联网的安全发展。 本月早些时候安全牛曾介绍过Google开源的web安全测试工具Firing Range、Nogofail以及Facebook开源的Osquery等。 事实上不仅Google、F
小莹莹
2018-04-20
9850
六款值得推荐的数据挖掘得力助手
当今这个时代,说数据就是金钱一点都不夸张。随着向一个基于应用的领域过渡,数据则呈现出了指数级增长。然而,大部分数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解、可用的形式。 而在数据挖掘任务中,有大量的工具可供使用,比如采用人工智能、机器学习,以及其他技术等来提取数据。 以下为您推荐六款强大的开源数据挖掘工具: 1、RapidMiner 该工具是用Java 语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供
小莹莹
2018-04-20
7430
Android数据库高手秘籍(二)——创建表和LitePal的基本用法
上一篇文章中我们学习了一些Android数据库相关的基础知识,和几个颇为有用的SQLite命令,都是直接在命令行操作的。但是我们都知道,数据库是要和程序结合在一起使用的,单独对一个数据库去进行増删改查操作并没有什么意义,因此今天我们就来学习一下如何在Android程序当中去操作SQLite数据库,还没看过前一篇文章的朋友可以先去参考 Android数据库高手秘籍(一)——SQLite命令 。 操作数据库的第一步当然是创建表了,传统创建表的方法相信大多数人都知道,那么今天我除了会展示传统的建表方法之外,还
小莹莹
2018-04-20
9010
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档