首页
学习
活动
专区
工具
TVP
发布

AI小白入门

专栏成员
163
文章
205607
阅读量
36
订阅数
【NLP】文本生成评价指标的进化与推翻
文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数)不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量,从而进一步推动text generation 商业化能力。
yuquanle
2020-06-24
5.1K0
【NLP】机器如何生成文本?
最近,由于在大规模语料集上训练的大型Transformer-based语言模型的兴起(如著名的OpenAI-GPT2模型),社区对开放式语言生成的兴趣日益增加。GPT2、XLNet、CTRL这些开放式语言生成的结果令人印象深刻,除了得益于优化的transformer架构和大量无监督的训练数据外,「更好的解码方法」也发挥了重要作用。
yuquanle
2020-04-25
4.6K0
【NLP】XLNet详解
BERT本身很有效,但它也存在一些问题,比如不能用于生成、以及训练数据和测试数据的不一致(Discrepancy)。在本文中,我们重点介绍比BERT更强大的预训练模型XLNet,它为了达到真正的双向学习,采用了Permutation语言模型、以及使用了双流自注意力机制,并结合了Transformer-XL的相对位置编码。
yuquanle
2020-03-13
1.3K0
【NLP】关于Transformer,面试官们都怎么问
前些时间,赶完论文,开始对 Transformer、GPT、Bert 系列论文来进行仔仔细细的研读,然后顺手把站内的相关问题整理了一下
yuquanle
2020-03-12
1.4K0
【ML】深入理解CatBoost
CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Boosting族算法的一种。CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器,都是在GBDT算法框架下的一种改进实现。XGBoost被广泛的应用于工业界,LightGBM有效的提升了GBDT的计算效率,而Yandex的CatBoost号称是比XGBoost和LightGBM在算法准确率等方面表现更为优秀的算法。
yuquanle
2020-02-24
9890
详解医学顶刊《柳叶刀》最新发表新型冠状病毒研究论文
新型冠状病毒(2019-nCoV)的突发恰逢春节,千家万户都对疫情十分关注。令人心痛的是,病毒带来的不止有病痛,还有来自各路媒体的大量谣言和不实解读。作为科研工作者的我们,希望能略尽绵薄之力,为大家整理学术界最新研究成果,并进行通俗易懂、严谨客观的翻译和解读。
yuquanle
2020-02-21
3020
【科研】论文的可复现性,能否量化分析?
300 多年以来,同行评审一直是科学研究的必要环节。但是,即使在引入同行评审机制之前,复现性也是科学方法的重要组成部分。
yuquanle
2020-02-20
6700
【NLP】文本分类任务之逻辑回归
在某些平台评论中会经常出现一些有毒评论(即一些粗鲁,不尊重或者可能让某人离开讨论的评论),这使得许多人不愿意再表达自己并放弃在平台中评论。因此,为了促进用户对话,提出一系列的方案,来缓解这一问题。我们将其看作一个文本分类问题,来介绍一系列的文本分类方案。
yuquanle
2020-02-14
1K0
【工程】模型秒变API只需一行代码,支持TensorFlow等框架
专注于机器学习应用的人们知道,从训练好的模型到实际的工业生产工具还有一定的距离。其中工作量很大的地方在于将模型打包,预留 API 接口,并和现有的生产系统相结合。近日,GitHub 上有了这样一个项目,能够让用户一行代码将任意模型打包为 API。这一工具无疑能够帮助开发者在实际的生产应用中快速部署模型。
yuquanle
2019-11-28
4240
【NLP】加速BERT:从架构优化、模型压缩到模型蒸馏最新进展详解
原文链接:https://blog.inten.to/speeding-up-bert-5528e18bb4ea
yuquanle
2019-11-14
1.2K0
Python 3.8正式发布,重要新功能都在这里
【导读】最新版本的Python发布了!今年夏天,Python 3.8发布beta版本,但在2019年10月14日,第一个正式版本已准备就绪。现在,我们都可以开始使用新功能并从最新改进中受益。
yuquanle
2019-10-23
1.5K0
【技巧】Pandas常见的性能优化方法
Pandas是数据科学和数据竞赛中常见的库,我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方,如果你没有合适的使用,那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧,主要是用来节约内存和提高代码速度。
yuquanle
2019-10-13
1.2K0
【综述】自动机器学习最近研究进展
本文首先从端到端系统的角度总结了自动机器学习在各个流程中的研究成果,然后着重对最近广泛研究的神经结构搜索进行了总结,最后讨论了一些未来的研究方向。
yuquanle
2019-10-08
4170
干货 | 线性代数的本质课程笔记完整合集
线性代数中最基础,最根源的组成部分是向量,那么什么是向量呢?从不同学生的视角看,有以下三种观点:
yuquanle
2019-09-27
7250
初学者|不能不会的NLTK
本文简绍了NLTK的使用方法,这是一个被称为“使用Python进行计算语言学教学和工作的绝佳工具”。
yuquanle
2019-07-12
1.3K0
初学者|分词的那些事儿
本文谈一谈分词的那些事儿,从定义、难点到基本方法总结,文章最后推荐一些不错的实战利器。
yuquanle
2019-05-29
5230
初学者|一起来看看词性标注
本文根据自己的学习过程以及查阅相关资料的理解,对自然语言基础技术之词性标注进行了相对全面的简绍,包括定义、目前的难点以及常见方法,还推荐了一大波python实战利器,并且包括工具的用法。
yuquanle
2019-05-29
9570
初学者|一文读懂命名实体识别
本文对自然语言基础技术之命名实体识别进行了相对全面的简绍,包括定义、发展历史、常见方法、以及相关数据集,最后推荐一大波python实战利器,并且包括工具的用法。
yuquanle
2019-05-29
1.4K0
初学者|什么是语义角色标注
本文记录自然语言基础技术之语义角色标注学习过程,包括定义、常见方法、例子、以及相关评测,最后推荐python实战利器,并且包括工具的用法。
yuquanle
2019-05-29
1.5K0
初学者|知否?知否?一文学会Jieba使用方法
我始终觉得,入门学习一件事情最好的方式就是实践,加之现在python如此好用,有越来越多的不错nlp的python库,所以接下来的一段时间里,让我们一起来感受一下这些不错的工具。后面代码我均使用jupyter编辑。先来罗列一波:jieba、hanlp、snownlp、Stanfordcorenlp、spacy、pyltp、nltk、Textblob等等…今天从jieba开始吧,let's begin。
yuquanle
2019-05-29
4560
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档