崔庆才的专栏

305 篇文章
147 人订阅

网络安全

崔庆才

爬虫智能解析库 Readability 和 Newspaper 的用法

舆情爬虫是网络爬虫一个比较重要的分支,舆情爬虫往往需要爬虫工程师爬取几百几千个新闻站点。比如一个新闻页面我们需要爬取其标题、正文、时间、作者等信息,如果用传统的...

11740
崔庆才

Kaggle前1%参赛者经验:ML竞赛中常被忽视的特征工程技术

创造力一直是人类进化的本质。数千年来,人类已经在历史长河中发掘了不少奇妙发现,而这种行为的起源契机可能是第一个轮子开始滚动,或是某个疯狂想法背后的思维火花崩现。...

7320
崔庆才

小数据福音!BERT 在极小数据下带来显著提升的开源实现

本文授权转载自学术平台 PaperWeekly,公众号ID:paperweekly

6620
崔庆才

重磅!微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

今天,我们很高兴向大家介绍微软研究开放数据项目——这套新的云数据存储库致力于促进全球研究界的广泛合作。微软研究开放数据将提供一套便捷的数据集云托管平台,其同时代...

15980
崔庆才

cookie 免密登录了解一下

我们都知道 HTTP 是无状态的,用户每次打开 web 页面时,服务器都打开新的会话,而且服务器也不会自动维护客户的上下文信息,那么服务器是怎么识别用户的呢?

13530
崔庆才

js_cookie 破解

那我们就直接入正题了,首先我们的目标网址是 “http://www.mps.gov.cn/n2253534/n2253535/index.html”,我们直接发...

12020
崔庆才

目标检测指南

目标检测 (Object detection) 是一种计算机视觉技术,旨在检测汽车、建筑物和人类等目标。这些目标通常可以通过图像或视频来识别。

8630
崔庆才

别再造假数据了,来试试 Faker 这个库吧!

在做程序开发的时候,我们经常会用到一些测试数据,相信大多数同学是这么来造测试数据的:

11220
崔庆才

200 行代码实现一个滑动验证码

做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动、点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大致说明下这些验证码的...

20880
崔庆才

你与数据科学家只差这 26 条 Python 技巧

作者 Peter Gleeson 是一名数据科学家,日常工作几乎离不 python。一路走来,他积累了不少有用的技巧和 tips,现在就将这些技巧分享给大家。这...

11120
崔庆才

神器推荐!AI 所有领域哪些模型牛逼一看便知!

刚刚发现了一款神器,叫做 Papers With Code,这个网站非常之牛逼!如果你是做数据挖掘、机器学习、深度学习相关的,这个网站可以帮上大忙。

13130
崔庆才

支持 53 种语言预训练模型,斯坦福发布全新 NLP 工具包 StanfordNLP

StanfordNLP 结合了斯坦福团队参加 CoNLL 2018 Shared Task on Universal Dependency Parsing 使用...

12220
崔庆才

Python 如何爬取实时变化的 WebSocket 数据

作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据、股市实时数据或币圈实时变化的数据。如下图:

19340
崔庆才

项目里文件名永远不要用中文!永远不要!

最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行。

18640

扫码关注云+社区

领取腾讯云代金券