腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习AI算法工程

机器学习，深度学习，大数据，公众号：datayx

专栏作者

1330

文章

2440923

阅读量

326

订阅数

TensorFlow 2 项目进阶实战，比官方文档还强

tensorflow keras 分布式

记得 TensorFlow 2.0 刚发布时，一票开发者都在疯狂吐槽：官方文档不好找，bug 没有及时修复和更新等等。尽管上线这么久，仍有大量开发者不愿从 1.x 升级，或从别的框架迁移过来。事实上，TensorFlow 2 不仅继承了 Keras 快速上手和易于使用的特性，还扩展了原有 Keras 所不支持的分布式训练，并整合了 TF 生态的其他组件（如 TF Serving、TF Lite、TF Hub、TFX 等），能有效提升生产环境的稳定性和可维护性。所以，掌握 TensorFlow 2 是一

机器学习AI算法工程

2022-03-21

6840

如何产生好的词向量？

NLP 服务神经网络分布式

词向量、词嵌入（word vector，word embedding）也称分布式表示（distributed representation），想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中，研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。在使用这些工具产生词向量时，不同的训练数据，参数，模型等都会对产生的词向量有所影响，那么如何产生好的词向量对于工程来说很重要。中科院自动化所的来斯惟博士对此进行了详细的研究。本篇也是我阅读来博士发表的论文《How to

机器学习AI算法工程

2019-10-28

1.3K0

京东商品和评论的分布式爬虫

爬虫 tcp/ip 分布式搜索引擎 scrapy

众所周知，爬虫比较难爬取的就是动态生成的网页，因为需要解析 JS, 其中比较典型的例子就是淘宝，天猫，京东，QQ 空间等。所以在我爬取京东网站的时候，首先需要确定的就是爬取策略。因为我想要爬取的是商品的信息以及相应的评论，并没有爬取特定的商品的需求。所以在分析京东的网页的 url 的时候, 决定使用类似全站爬取的策略。分析如图：

机器学习AI算法工程

2019-10-28

1.5K0

Scrapy分布式、去重增量爬虫的开发与设计

爬虫 tcp/ip 分布式云数据库 Redis scrapy

分布式采用主从结构设置一个Master服务器和多个Slave服务器，Master端管理Redis数据库和分发下载任务，Slave部署Scrapy爬虫提取网页和解析提取数据，最后将解析的数据存储在同一个MongoDb数据库中。分布式爬虫架构如图所示。

机器学习AI算法工程

2019-10-28

1.7K0

功能比Scrapy强，却使用最方便的Gerapy分布式爬虫管理框架

scrapy 分布式爬虫

从 Scrapy 的部署、启动到监控、日志查看，我们只需要鼠标键盘点几下就可以完成，那岂不是美滋滋？更或者说，连 Scrapy 代码都可以帮你自动生成，那岂不是爽爆了？有需求就有动力，没错，Gerapy 就是为此而生的，GitHub：https://github.com/Gerapy/Gerapy。安装 Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Spla

机器学习AI算法工程

2018-03-15

3K0

基于Hadoop 的分布式网络爬虫技术

hadoop 分布式爬虫

一、网络爬虫原理 Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统，比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外，还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断获得网络上的其它网页。正是因为这种采集过程像一个爬虫或者蜘蛛在网络上漫游，所以它才被称为网络爬虫系统或者网络蜘蛛系统，在英文中称为 Spider或者Crawler。

机器学习AI算法工程

2018-03-13

2.9K0

分布式机器学习的故事

分布式机器学习大数据编程算法存储

一个新时代起源分布式机器学习是随着“大数据”概念兴起的。在有大数据之前，有很多研究工作为了让机器学习算法更快，而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”，其核心目标是把计算任务拆解成多个小的任务，分配到多个处理器上做计算。分布式计算或者分布式机器学习除了要把计算任务分布到多个处理器上，更重要的是把数据（包括训练数据以及中间结果）分布开来。因为在大数据时代，一台机器的硬盘往往装不下全部数据，或者即使装下了，也会受限于机器的I/O通道的带宽，以至于访问速度很慢。为了更大的存储容量、吞

机器学习AI算法工程

2018-03-12

1.4K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态