崔庆才的专栏

305 篇文章
147 人订阅

https

崔庆才

爬虫智能解析库 Readability 和 Newspaper 的用法

舆情爬虫是网络爬虫一个比较重要的分支,舆情爬虫往往需要爬虫工程师爬取几百几千个新闻站点。比如一个新闻页面我们需要爬取其标题、正文、时间、作者等信息,如果用传统的...

11740
崔庆才

将 CNN 与 RNN 组合使用,天才还是错乱?

从有一些有趣的用例看,我们似乎完全可以将 CNN 和 RNN/LSTM 结合使用。许多研究者目前正致力于此项研究。但是,CNN 的最新研究进展趋势可能会令这一想...

8910
崔庆才

数据科学、机器学习IDE概览

IDE 提供的丰富特性对软件开发极为有用,大大提高了程序员的生活质量。这一点同样适用于数据科学家。然而,因为数据科学家除了可以选择传统的 IDE,还可以选择 J...

8230
崔庆才

小数据福音!BERT 在极小数据下带来显著提升的开源实现

本文授权转载自学术平台 PaperWeekly,公众号ID:paperweekly

6620
崔庆才

重磅!微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

今天,我们很高兴向大家介绍微软研究开放数据项目——这套新的云数据存储库致力于促进全球研究界的广泛合作。微软研究开放数据将提供一套便捷的数据集云托管平台,其同时代...

15980
崔庆才

目标检测指南

目标检测 (Object detection) 是一种计算机视觉技术,旨在检测汽车、建筑物和人类等目标。这些目标通常可以通过图像或视频来识别。

8630
崔庆才

别再造假数据了,来试试 Faker 这个库吧!

在做程序开发的时候,我们经常会用到一些测试数据,相信大多数同学是这么来造测试数据的:

11220
崔庆才

200 行代码实现一个滑动验证码

做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动、点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大致说明下这些验证码的...

20780
崔庆才

你与数据科学家只差这 26 条 Python 技巧

作者 Peter Gleeson 是一名数据科学家,日常工作几乎离不 python。一路走来,他积累了不少有用的技巧和 tips,现在就将这些技巧分享给大家。这...

11120
崔庆才

神器推荐!AI 所有领域哪些模型牛逼一看便知!

刚刚发现了一款神器,叫做 Papers With Code,这个网站非常之牛逼!如果你是做数据挖掘、机器学习、深度学习相关的,这个网站可以帮上大忙。

13130
崔庆才

支持 53 种语言预训练模型,斯坦福发布全新 NLP 工具包 StanfordNLP

StanfordNLP 结合了斯坦福团队参加 CoNLL 2018 Shared Task on Universal Dependency Parsing 使用...

12220
崔庆才

Python 如何爬取实时变化的 WebSocket 数据

作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图:

19240
崔庆才

你的 Mac 用对了吗?推荐一些 Mac 上比较好用的软件

最近有一个朋友刚入手了 Mac,准备专门搞开发用,让我给他推荐几款软件,然后我就把我的 Launchpad 截图发给了他,他看到这密密麻麻的软件完全不知所措,如...

55100
崔庆才

自然语言处理全家福:纵览当前NLP中的任务、数据、模型与论文

组合范畴语法(CCG; Steedman, 2000)是一种高度词汇化的形式主义。Clark 和 Curran 2007 年提出的标准解析模型使用了超过 400...

81500
崔庆才

腾讯云Ubuntu搭建TinyProxy代理服务器

本节为大家讲解腾讯云主机搭建TinyProxy代理服务器的过程。什么是TinyProxy它是一个代理服务器,用来实现http或https代理,windows系统...

4.9K00

扫码关注云+社区

领取腾讯云代金券