首页
学习
活动
专区
工具
TVP
发布

Small Code

alanlee.fun
专栏作者
88
文章
192073
阅读量
40
订阅数
C4 数据集基本信息速览
参考 Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus。
Alan Lee
2022-10-05
1.4K0
Disqus 有评论但没显示的一种解决方案
前段时间将博客的主题从 hexo-theme-archer 换到了 hexo-theme-tranquilpeak,虽然一些功能上没有原主题好,比如侧边栏目录,但是新主题更为简洁清爽,自定义程度比较高,语法上也支持“扩展的” markdown 语法,比如支持如下 image 语法,居中显示,可显示注释,具体效果可参考这篇博文:
Alan Lee
2022-09-30
3680
TensorBoard Projector 简易指南
TensorBoard(TB)是一个非常棒的模型可视化工具,早期我也写过一篇文章来详细介绍各个面板。
Alan Lee
2022-05-10
1.5K0
NLP 中的通用数据增强方法及针对 NER 的变种
本文结合 A Visual Survey of Data Augmentation in NLP 和最新的综述论文 A Survey of Data Augmentation Approaches for NLP,大致总结了目前 NLP 领域的通用数据增强方法和几种针对如 NER 的序列标注模型进行适配的变种方法,关于后者,重点介绍了基于 mixup 改进的 SeqMix 方法。
Alan Lee
2021-12-07
1.2K0
使用 Transformers 在你自己的数据集上训练文本分类模型
最近实在是有点忙,没啥时间写博客了。趁着周末水一文,把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。
Alan Lee
2021-12-07
2.1K0
理解 PyTorch 中的 gather 函数
我遇到的代码是 NLP 相关的,代码中用 torch.gather() 来将一个 tensor 的 shape 从 (batch_size, seq_length, hidden_size) 转为 (batch_size, labels_length, hidden_size) ,其中 seq_length >= labels_length 。
Alan Lee
2021-12-07
1.2K0
Exception [WinError 995] 由于线程退出或应用程序请求 的解决办法
Windows 10 系统下,IPython 解释器内执行某些程序,会导致出现类似如下报错:
Alan Lee
2021-12-07
1.4K0
Ghost 博客 SSL 证书过期的解决办法
点击 高级 也没有进去的链接,而且页面地址前面写着”不安全“,证书显示也已经过期一个月了。而且我自己部署的 flask 服务也访问不了了。
Alan Lee
2021-12-07
6870
Ubuntu 18.04 安装 nvtop:一个高颜值的 nvidia-smi
平常我们查看 GPU 信息,比如哪个进程在占用 GPU,占用了多少,GPU 利用率怎么样等信息,都是使用 nvidia-smi,但这些信息都是实时的,也就是说你无法查看一定时间段内的变化情况。
Alan Lee
2021-12-07
1K0
Python 3.10 的新功能:模式匹配 Pattern Matching
2021 年 3 月 2 日的时候,Guido 发推说 3.10.0a6 出来了,文档也已经有了,4 月 5 日会释出 a7,5 月 3 日出 b1。
Alan Lee
2021-03-22
5280
Lemmatization VS Stemming
简单来说,两者都是对词的归一化,但 Stemming(中文一般译为词干提取,以下简称 stem)更为简单、快速一些,通常会使用一种启发式方法去掉一个词的结尾。 Lemmatization(中文一般译为词形还原,以下简称 lemma)更为「智能」一些,上下文相关,有一个 vocab,不在其中的词不会被处理:
Alan Lee
2021-03-22
8870
Ubuntu 18.04 安装 nvtop
平常我们查看 GPU 信息,比如哪个进程在占用 GPU,占用了多少,GPU 利用率怎么样等信息,都是使用 nvidia-smi,但这些信息都是实时的,也就是说你无法查看一定时间段内的变化情况。
Alan Lee
2020-11-26
1.6K0
给 Python 程序员的 C++ 简易入门指南
本文改编自 Michigan State University 的 Rich Enbody 和 Bill Punch 的一篇文档。
Alan Lee
2020-11-24
1.4K0
Constituency Parsing with a Self-Attensive Encoder 论文解读
之前没咋涉略过 parsing 部分,最近有用到,遇到一个实现的很不错的库:benepar,无论是速度、代码还是性能上,伯克利出品。而本文要讲的论文就是 benepar 的参考论文,代码和论文作者都是一个人:Nikita Kitaev,论文发表于 ACL 2018。代码还参考了作者的另一篇论文:Multilingual Constituency Parsing with Self-Attention and Pre-Training。
Alan Lee
2020-11-24
3770
理解编辑距离
顾名思义,编辑距离(Edit distance)是一种距离,用于衡量两个字符串之间的远近程度,方式是一个字符串至少需要多少次基础变换才能变成另一个字符串,可应用在拼写检查、判断 DNA 相似度等场景中。根据可操作的基础变换不同,可分为以下几种:
Alan Lee
2020-10-29
1.2K0
如何计算 LSTM 的参数量
之前翻译了 Christopher Olah 的那篇著名的 Understanding LSTM Networks,这篇文章对于整体理解 LSTM 很有帮助,但是在理解 LSTM 的参数数量这种细节方面,略有不足。本文就来补充一下,讲讲如何计算 LSTM 的参数数量。
Alan Lee
2020-10-29
2.3K0
BERT 是如何构建模型的
前面我写了一篇文章来讲 BERT 是如何分词的,现在,轮到该说说 BERT 模型是如何定义的了。
Alan Lee
2020-06-24
2.1K0
有意思的 lstrip 和 removeprefix(Python 3.9)
Python 3.9 的新特性中,有两个新的字符串方法:str.removeprefix(prefix, /)、str.removesuffix(suffix, /),前者是去除前缀,后者是去除后缀。
Alan Lee
2020-05-26
9630
PDF 转图片时丢字的一种可能解决方案
Python 中 PDF 转图片一般用的是 pdf2image。有时我们会发现 PDF 转出来的图片都是空白,或者缺失了一些字,具体表现就是一些应该有字的区域是空白。由于某些原因我不能把出现问题的文件放上来,不过大致就是这个情况。
Alan Lee
2020-04-10
3.3K0
使用 plotly 绘制 Choropleth 地图
本文将通过绘制中国省级 Choropleth 地图来解释如何使用 plotly 绘制 Choropleth 地图,主要有两种方法:底层 API plotly.graph_objects.Choroplethmapbox 和高层 API plotly.express.choropleth_mapbox,数据是 COVID-19 在某一天的疫情数据。
Alan Lee
2020-03-18
13.7K7
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档