首页
学习
活动
专区
工具
TVP
发布

润风拂过存甘霖

专栏作者
34
文章
88173
阅读量
13
订阅数
如何搜索同时引用了两篇特定文章的论文?
在科研中,有时看到两个研究类似问题的工作,会希望看看是否有后续工作对二者进行了比较和评价。比如,我听说XLNet和RoBERTa是两个很牛的预训练模型,但不知道他们孰强孰弱。那我们就想找找同时引用了它们的论文,看看别人是怎么评价比较他们的?然而,Google Scholar这类的流行的搜索引擎并不直接提供找到同时引用了两篇特定文章A,B的论文,这样的搜索功能,那么我们怎么实现这一点呢?
blmoistawinde
2021-12-06
7620
使用huggingface全家桶(transformers, datasets)实现一条龙BERT训练(trainer)和预测(pipeline)
huggingface的transformers在我写下本文时已有39.5k star,可能是目前最流行的深度学习库了,而这家机构又提供了datasets这个库,帮助快速获取和处理数据。这一套全家桶使得整个使用BERT类模型机器学习流程变得前所未有的简单。
blmoistawinde
2021-01-21
4.9K0
conceptnet-numberbatch: 结合常识知识的词向量 - 概述及使用
在NLP领域,常识知识的使用越发成为热点,因为其有希望帮助克服现有模型的局限:它们仅从训练数据中学到的有偏的、浅薄的知识,而并不擅长像人一样进行真正的推理。
blmoistawinde
2020-12-01
1.2K0
交大ADAPT实验室 | 常识知识论文列表
近年来,常识知识(commonsense knowledge)越发成为NLP领域,乃至多模态,跨学科的研究热点。尽管以BERT为代表的的预训练语言模型已经在实体识别、机器翻译、情感分析等任务上取得了亮眼的表现,它们在面对一些人类可以使用常识轻易解决的问题时仍然表现不佳,面对对抗样本时也极为脆弱。似乎这些模型知识只是学到了一些浅层线索和语义,而与人类的知识体系并不相同。因此,将常识知识融入机器学习中就成为了一个充满前景的解决方案。不过,如何抽取常识知识,如何利用常识知识,乃至如何定义“常识本身”依然是有待研究的难题。 交大ADAPT实验室近年来正将研究兴趣专注于这一领域。在此过程中,我们也将自己的阅读加以筛选、归类和统计,整合成了一份论文列表,在GitHub上开源。
blmoistawinde
2020-11-24
5910
tensorflow/pytorch临时指定CUDA版本,解决版本适配问题
经典的深度学习引擎,如tensorflow和pytorch,其自身版本与CUDA版本有着严格的对应关系,一点点的不符都会使得程序无法运行。
blmoistawinde
2020-06-22
2.4K0
AI/机器学习常用公式的LaTex代码汇总
在写AI/机器学习相关的论文或者博客的时候经常需要用到LaTex的公式,然而作为资深“伸手党”的我在网上搜索的时候,居然没有找到相关现成资源@-@
blmoistawinde
2020-05-26
2.9K0
python文字转图片(二值、RGB)以及numpy数组
文字一般使用unicode等编码的形式在计算机中表示,但是其形态本身也很有价值。如果能够把文字转为图片,就可以做一些应用,比如:
blmoistawinde
2020-05-09
4.8K0
困惑度(perplexity)的基本概念及比较多种模型下的计算(N-gram, 主题模型/LDA, 神经网络/RNN)
发现网络上流传的关于困惑度(perplexity)大多数都是利用了N-gram或者主题模型的例子来阐述的。但是现在这个年代来学习这个指标的人多半都是想研究神经网络的,而两者的对困惑度的计算方法又很不同,这就不能不让人对“困惑度”感到“困惑”了。本人虽然才疏学浅,还是斗胆在这里尝试写一篇文章,试图用简洁的方式来梳理清楚其中的困惑。
blmoistawinde
2020-03-20
9K0
用HarvestText自动识别实体及人物别名,用于实体链接分析
处理1需要文本清洗,处理2需要挖掘出人物别名,HarvestText提供了能够方便处理这些问题的接口:
blmoistawinde
2020-02-14
1.6K0
Python正则表达式清洗微博文本特殊符号(网址, @, 表情符等)
在做文本分类的实验时,找到一个微博的情感分析语料,但是其中保留了很多微博中的特殊符号,对于算法的训练来说不太有利。
blmoistawinde
2019-12-24
4.5K1
infoROM is corrupted at gpu解决方法
使用nvidia-smi指令查看显卡信息,发现在最后出现了infoROM is corrupted at gpu这样的警告。
blmoistawinde
2019-12-19
4.2K0
VS Code jupyter报错Error starting original kernel
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
blmoistawinde
2019-11-26
1.3K0
sklearn: TfidfVectorizer 中文处理及一些使用参数
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
blmoistawinde
2019-10-30
2.9K0
NeuralCoref: python的共指消解工具,向代词指代的问题进军!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
blmoistawinde
2019-10-30
2K0
NeuralCoref: 用指代消解来做一个“能多轮对话的问答对话机器人”
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
blmoistawinde
2019-10-30
1.5K0
更少标注的机器学习方法——主动学习(python示例)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
blmoistawinde
2019-10-30
1.1K0
jupyter notebook黑科技——制作PPT式的演示文稿
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
blmoistawinde
2019-10-30
2K0
深度学习哪家强?用数据来一较高下吧
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
blmoistawinde
2019-10-30
5310
基于知识图谱的文本自动注释(python+html)
在探索知识图谱的过程中,发现它可以做一个有趣的应用——文本自动注释。在此整理并分享给大家。为了具体说明它的效果,让我们先来看一个例子:
blmoistawinde
2019-10-30
8900
pyDatalog: python的逻辑编程引擎【五:与“知识图谱”的交互】
这一回,我们的目标是用pyDatalog与“知识图谱”交互。知识图谱是个很复杂的概念,但一般其中的知识都是以RDF三元组的形式存储的,所以我在这里实际上演示的是pyDatalog与RDF类三元组的交互。官网上没有提供这类问题的“标准解法”,下面的例子是我的一些思考,我也从中发现了用Datalog管理和维护知识图谱的一些特有优势:
blmoistawinde
2019-10-30
1.2K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档