首页
学习
活动
专区
工具
TVP
发布

机器学习AI算法工程

机器学习,深度学习,大数据 ,公众号:datayx
专栏作者
1330
文章
2440923
阅读量
326
订阅数
TensorFlow 2 项目进阶实战,比官方文档还强
记得 TensorFlow 2.0 刚发布时,一票开发者都在疯狂吐槽:官方文档不好找,bug 没有及时修复和更新等等。尽管上线这么久,仍有大量开发者不愿从 1.x 升级,或从别的框架迁移过来。 事实上,TensorFlow 2 不仅继承了 Keras 快速上手和易于使用的特性,还扩展了原有 Keras 所不支持的分布式训练,并整合了 TF 生态的其他组件(如 TF Serving、TF Lite、TF Hub、TFX 等),能有效提升生产环境的稳定性和可维护性。 所以,掌握 TensorFlow 2 是一
机器学习AI算法工程
2022-03-21
6840
如何产生好的词向量?
词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation),想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。在使用这些工具产生词向量时,不同的训练数据,参数,模型等都会对产生的词向量有所影响,那么如何产生好的词向量对于工程来说很重要。中科院自动化所的来斯惟博士对此进行了详细的研究。本篇也是我阅读来博士发表的论文《How to
机器学习AI算法工程
2019-10-28
1.3K0
京东商品和评论的分布式爬虫
众所周知,爬虫比较难爬取的就是动态生成的网页,因为需要解析 JS, 其中比较典型的 例子就是淘宝,天猫,京东,QQ 空间等。所以在我爬取京东网站的时候,首先需要确 定的就是爬取策略。因为我想要爬取的是商品的信息以及相应的评论,并没有爬取特定 的商品的需求。所以在分析京东的网页的 url 的时候, 决定使用类似全站爬取的策略。 分析如图:
机器学习AI算法工程
2019-10-28
1.5K0
Scrapy分布式、去重增量爬虫的开发与设计
分布式采用主从结构设置一个Master服务器和多个Slave服务器,Master端管理Redis数据库和分发下载任务,Slave部署Scrapy爬虫提取网页和解析提取数据,最后将解析的数据存储在同一个MongoDb数据库中。分布式爬虫架构如图所示。
机器学习AI算法工程
2019-10-28
1.7K0
功能比Scrapy强,却使用最方便的Gerapy分布式爬虫管理框架
从 Scrapy 的部署、启动到监控、日志查看,我们只需要鼠标键盘点几下就可以完成,那岂不是美滋滋?更或者说,连 Scrapy 代码都可以帮你自动生成,那岂不是爽爆了? 有需求就有动力,没错,Gerapy 就是为此而生的,GitHub:https://github.com/Gerapy/Gerapy。 安装 Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Spla
机器学习AI算法工程
2018-03-15
3K0
基于Hadoop 的分布式网络爬虫技术
一、网络爬虫原理 Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见 Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外,还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断获得网络上的其它网页。正是因为这种采集过程像一个爬虫或者蜘蛛在网络上漫游,所以它才被称为网络爬虫系统或者网络蜘蛛系统,在英文中称为 Spider或者Crawler。
机器学习AI算法工程
2018-03-13
2.9K0
分布式机器学习的故事
一个新时代 起源 分布式机器学习是随着“大数据”概念兴起的。在有大数据之前,有很多研究工作为了让机器学习算法更快,而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”,其核心目标是把计算任务拆解成多个小的任务,分配到多个处理器上做计算。分布式计算或者分布式机器学习除了要把计算任务分布到多个处理器上,更重要的是把数据(包括训练数据以及中间结果)分布开来。因为在大数据时代,一台机器的硬盘往往装不下全部数据,或者即使装下了,也会受限于机器的I/O通道的带宽,以至于访问速度很慢。为了更大的存储容量、吞
机器学习AI算法工程
2018-03-12
1.4K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档