腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
PPV课数据科学社区
专栏成员
举报
2119
文章
2533071
阅读量
188
订阅数
订阅专栏
申请加入专栏
全部文章(999+)
大数据(882)
数据分析(506)
其他(333)
数据挖掘(193)
机器学习(184)
编程算法(167)
人工智能(159)
python(130)
数据库(116)
r 语言(101)
数据可视化(81)
存储(72)
深度学习(66)
hadoop(66)
安全(59)
数据处理(42)
游戏(39)
微信(36)
sas(33)
开源(31)
java(27)
神经网络(27)
sql(25)
NLP 服务(22)
apache(22)
爬虫(22)
自动化(20)
机器人(20)
物联网(20)
spark(19)
搜索引擎(18)
分布式(17)
数据结构(17)
推荐系统(16)
线性回归(16)
tensorflow(15)
决策树(14)
ios(12)
云数据库 SQL Server(11)
nosql(11)
php(10)
android(10)
hbase(10)
互联网金融(9)
区块链(7)
mapreduce(7)
电商(7)
黑客(7)
https(7)
人脸识别(6)
matlab(6)
图像识别(6)
卷积神经网络(6)
hive(6)
监督学习(6)
比特币(5)
git(5)
erp(5)
numpy(5)
互联网(5)
自动驾驶(4)
oracle(4)
github(4)
api(4)
企业(4)
运维(4)
scrapy(4)
nat(4)
it(4)
javascript(3)
.net(3)
postgresql(3)
mongodb(3)
图像处理(3)
网站(3)
无人驾驶(3)
gui(3)
sql server(3)
seo(3)
keras(3)
迁移学习(3)
windows(3)
云计算(3)
excel(3)
程序员(3)
数据科学(3)
iphone(2)
ruby(2)
react(2)
json(2)
access(2)
TDSQL MySQL 版(2)
知识图谱(2)
o2o(2)
http(2)
互联网医疗(2)
网络安全(2)
强化学习(2)
pytorch(2)
scikit-learn(2)
模式识别(2)
无监督学习(2)
facebook(2)
架构师(2)
快捷键(2)
数学(2)
图表(2)
数字货币(1)
swift(1)
c++(1)
perl(1)
lua(1)
node.js(1)
html(1)
ajax(1)
嵌入式(1)
mvc(1)
打包(1)
ide(1)
sphinx(1)
linux(1)
unix(1)
云直播(1)
腾讯云测试服务(1)
es 2(1)
DevOps 解决方案(1)
金融(1)
出行(1)
大数据解决方案(1)
智能硬件(1)
工业物联(1)
express(1)
sass(1)
缓存(1)
shell(1)
html5(1)
jvm(1)
正则表达式(1)
面向对象编程(1)
dns(1)
hashmap(1)
openstack(1)
二叉树(1)
flash(1)
敏捷开发(1)
ntp(1)
anaconda(1)
系统架构(1)
架构设计(1)
信息流(1)
虚拟化(1)
特征工程(1)
学习方法(1)
验证码(1)
智能推荐平台(1)
汽车(1)
教育(1)
anova(1)
app(1)
aws(1)
bat(1)
dt(1)
export(1)
logic(1)
offset(1)
point(1)
project(1)
prompt(1)
shift(1)
stackoverflow(1)
t4(1)
ui(1)
whatsapp(1)
wifi(1)
word(1)
x11(1)
xls(1)
编程(1)
翻译(1)
行业(1)
流量(1)
软件开发(1)
手机(1)
数据(1)
腾讯(1)
搜索文章
搜索
搜索
关闭
【重磅】33款可用来抓数据的开源爬虫软件工具
开源
爬虫
要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接
小莹莹
2018-04-24
3.9K
0
案例 | 机器学习案例实战:信用卡欺诈检测
机器学习
深度学习
图像识别
开源
作者简介: 唐宇迪,深度学习领域多年一线实践研究专家,同济大学硕士。 主要研究深度学习领域,计算机视觉,图像识别。精通机器学习,热爱各种开源技术尤其人工智能方向。在图像识别领域有着丰富经验,实现过包括人脸识别,物体识别,关键点检测等多种应用的最新算法。 故事背景 原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数据做特征提取的操作,但是面对的挑战还是蛮大的。 imp
小莹莹
2018-04-24
1.7K
0
【技术】Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据
python
开源
爬虫
scrapy_jingdong[9]- 京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。[9]: https://github.com/taizilongxu/scrapy_jingdong QQ-Groups-Spider[10]- QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。[10]: https://github.com/caspartse/QQ-Groups-Spider wooyun_public
小莹莹
2018-04-24
2.5K
0
工具 | Facebook 开源产业级深度学习框架 Caffe2,带来跨平台机器学习工具
开源
深度学习
机器学习
人工智能
来源:caffe2.ai 作者:caffe2 team 译者:文强 【导读】近日,Facebook 宣布开源 production-ready 的深度学习框架 Caffe2,轻量级、模块化,在移动端和云上都做了优化。同时提供的还有 C++ 和 Python API,以及模型库 Caffe2 Model Zoo,里面有视觉、语音、翻译等预训练模型,方便开发人员和研究者直接使用。 AI 模型的训练和部署通常与大量数据中心或超级计算机相关联,原因很简单。从大规模的图像、视频、文本和语音等各种信息中持续处理、创
小莹莹
2018-04-24
693
0
Python机器学习库和深度学习库总结
github
git
开源
python
我们在Github上的贡献者和提交者之中检查了用Python语言进行机器学习的开源项目,并挑选出最受欢迎和最活跃的项目。 1. Scikit-learn(重点推荐) www.github.com/scikit-learn/scikit-learn Scikit-learn 是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括支持向量机,逻辑回归,朴素贝叶斯分类器,随机森林,Gradient Boosting,聚类算法和DBSCAN。而且也设计出了Pyth
小莹莹
2018-04-24
649
0
3天学会TensorFlow | 中国香港科技大学
tensorflow
开源
深度学习
整理 | 周翔 2015 年底,谷歌开源了内部使用的深度学习框架 TensorFlow。与 Caffe、Torch、MXNet 等框架相比,TensorFlow 在 Github 上的 star 数量、fork 数量、contributor 数量这三个数据上都完胜竞争对手,而且在图形分类、音频处理、推荐系统和自然语言处理等场景下也有丰富的应用。此外,Keras 框架底层默认使用 TensorFlow,这无不印证了 TensorFlow 在业界的流行程度。 TensorFlow 的流行让深度学习的门槛越来
小莹莹
2018-04-24
3.1K
0
2017编程语言排行榜
python
swift
ios
开源
2017年马上就要结束了,在过去的这一年里,究竟哪个编程语言是开发者们最喜爱的热门语言,谁能登上排行榜的宝座?你学对了吗? 一年一度的IEEE Spectrum编程语言排行盛宴又来了,IEEE Spectrum 的排序是来自 10 个重要线上数据源的综合。 例如 Stack Overflow、Twitter、Reddit、IEEE Xplore、GitHub、CareerBuilder 等,对 48 种语言进行排行。 与其他排行榜不同的是,IEEE Spectrum 可以让读者自己选择参数组合时的权重,
小莹莹
2018-04-24
1.4K
0
近期GitHub上最热门的开源项目(附链接)
github
开源
来源:开源最前线 2 月份 GitHub 上最热门的开源项目又出炉了,又有哪些新的项目挤进热门榜单了呢,一起来看看。 ……………………………… 1、nocode https://github.com/kelseyhightower/nocode Star 16256 这是 2 月份新出炉的项目,可以说是 2018 年最火的佛系编程了,这个项目里面没有一行代码,它的 description 是这样的:The best way to write secure and reliable application
小莹莹
2018-04-24
870
0
干货 | 全球100款大数据工具汇总(收藏备用)
大数据
开源
导读:你熟悉多少工具?今天我们将常用的100款工具推荐给您,若您有更多更好的工具欢迎留言! 1、 Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract
小莹莹
2018-04-24
1.1K
0
【机器学习】你需要多少训练数据?
机器学习
开源
tensorflow
从谷歌的机器学习代码中得知,目前需要一万亿个训练样本。 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练数据,模型也会产生相应的结果。但是,问题是你需要多少训练数据合适呢?这恰恰取决于你正在执行的任务、最终想通过模型实现的性能、现有的输入特征、训练数据中含有的噪声、已经提取的特征中含有的噪声以及模型的复杂性等等诸多因素。所以,发现所有这些变量相互之间有何联系,如何工作的方法即是通过在数量不一的训练样本上训练模型,并且绘制出模型关于各个训练样本集
小莹莹
2018-04-23
1.6K
0
用R进行文本挖掘与分析:分词、画词云
开源
r 语言
要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多。词语提取后,还可以做成词云,让词语的频率属性可视化,更加直
小莹莹
2018-04-23
2.3K
0
浅谈开源大数据平台的演变
开源
大数据
hadoop
mapreduce
分布式
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。 Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗;小部分离线存储和计算需求,在对性能要求不高的情况下,也可以使用Hadoop实现。因此
小莹莹
2018-04-23
1.1K
0
吴甘沙:既然不能避免个人数据泄漏,何不做自己数据的CEO呢?|高峰论坛
大数据
.net
开源
本文由未来创客(futuretrek)根据峰会内容整理,未经授权禁止转载 6月18日下午,湛庐文化·未来创客在清华大学学经管学院伟伦楼一层报告厅,举办了题为“数据风暴中,谁将成为下一个产业颠覆者?”的大数据应用创新高峰论坛,本文为因特尔中国研究院院长吴甘沙先生的演讲内容整理版。 文章有点长,但小创强烈建议一定要认真阅读。现在谈论大数据时,我们往往是从商业角度探讨这一话题,但吴先生却更多地从大家更关心的个人隐私角度来分析问题。在这个互联网日益发达的大数据时代,一个人不可能很好地隐藏自己的数据,那么我们就应该学
小莹莹
2018-04-23
810
0
数据挖掘系列(5)使用mahout做海量数据关联规则挖掘
hadoop
编程算法
开源
分布式
数据挖掘
上一篇介绍了用开源数据挖掘软件weka做关联规则挖掘,weka方便实用,但不能处理大数据集,因为内存放不下,给它再多的时间也是无用,因此需要进行分布式计算,mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。 安装mahout 骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所以我假定已经
小莹莹
2018-04-23
776
0
【学习】公司的大数据业务为什么都基于Hadoop方案
hadoop
大数据
开源
分布式
一、可以帮助我们解决什么问题 现在不管是在国内外的大公司,对于大数据都是非常的渴望,会想尽所有的办法搜集一切的数据,由于现代信息的不对称从而导致不断的数据变化,大量的信息是可以通过数据分析获取
小莹莹
2018-04-23
605
0
Ambari——大数据平台的搭建利器
大数据
hadoop
开源
apache
Ambari 是什么 Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让
小莹莹
2018-04-23
1.2K
0
【学习】R语言各种优点
r 语言
开源
数据挖掘
数据可视化
开源R软件不再是学术机构的独宠或专有工具。经过多年来的持续演进,它现在已成为数据科学家、业务分析师和数据挖掘人员的理想分析软件。 Rexer Analytics发布的2013年数据挖掘人员调查显示,70%的数据挖掘人员使用R软件进行分析工作,其中有24%将其用作主要工具。这些结果类似于2013 年KDnuggets调查的结果,该调查指出有61%的响应者表示使用R处理分析、数据挖掘和数据科学工作。相比前一年,这一比例上升了16%。 R 是什么? R 是在用户数量和分析功能方面增长最快的分析工具。它也被称为“
小莹莹
2018-04-20
1.7K
0
盘点互联网巨头奉献的十大开源安全工具
开源
安全
Facebook等大型互联网公司推动的服务器与数据中心、大数据工具的开源化项目类似,当大型互联网公司们在超大规模基础设施运营方面面临的挑战超出技术厂商的能力时,这些巨头就选择反客为主,成为创新技术的推动者和提供者。同样的情况也在信息安全领域中发生着。不少大型互联网公司经常会将自己开发的顶级安全工具开源,推动整个互联网的安全发展。 本月早些时候安全牛曾介绍过Google开源的web安全测试工具Firing Range、Nogofail以及Facebook开源的Osquery等。 事实上不仅Google、F
小莹莹
2018-04-20
1K
0
六款值得推荐的数据挖掘得力助手
数据挖掘
人工智能
机器学习
开源
当今这个时代,说数据就是金钱一点都不夸张。随着向一个基于应用的领域过渡,数据则呈现出了指数级增长。然而,大部分数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解、可用的形式。 而在数据挖掘任务中,有大量的工具可供使用,比如采用人工智能、机器学习,以及其他技术等来提取数据。 以下为您推荐六款强大的开源数据挖掘工具: 1、RapidMiner 该工具是用Java 语言编写的,通过基于模板的框架提供先进的分析技术。该款工具最大的好处就是,用户无需写任何代码。它是作为一个服务提供
小莹莹
2018-04-20
773
0
Android数据库高手秘籍(二)——创建表和LitePal的基本用法
android
数据库
sql
开源
上一篇文章中我们学习了一些Android数据库相关的基础知识,和几个颇为有用的SQLite命令,都是直接在命令行操作的。但是我们都知道,数据库是要和程序结合在一起使用的,单独对一个数据库去进行増删改查操作并没有什么意义,因此今天我们就来学习一下如何在Android程序当中去操作SQLite数据库,还没看过前一篇文章的朋友可以先去参考 Android数据库高手秘籍(一)——SQLite命令 。 操作数据库的第一步当然是创建表了,传统创建表的方法相信大多数人都知道,那么今天我除了会展示传统的建表方法之外,还
小莹莹
2018-04-20
946
0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档