首页
学习
活动
专区
工具
TVP
发布

AI小白入门

专栏成员
163
文章
205552
阅读量
36
订阅数
【NLP】文本生成评价指标的进化与推翻
文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数)不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量,从而进一步推动text generation 商业化能力。
yuquanle
2020-06-24
5.1K0
【NLP】机器如何生成文本?
最近,由于在大规模语料集上训练的大型Transformer-based语言模型的兴起(如著名的OpenAI-GPT2模型),社区对开放式语言生成的兴趣日益增加。GPT2、XLNet、CTRL这些开放式语言生成的结果令人印象深刻,除了得益于优化的transformer架构和大量无监督的训练数据外,「更好的解码方法」也发挥了重要作用。
yuquanle
2020-04-25
4.6K0
【NLP】XLNet详解
BERT本身很有效,但它也存在一些问题,比如不能用于生成、以及训练数据和测试数据的不一致(Discrepancy)。在本文中,我们重点介绍比BERT更强大的预训练模型XLNet,它为了达到真正的双向学习,采用了Permutation语言模型、以及使用了双流自注意力机制,并结合了Transformer-XL的相对位置编码。
yuquanle
2020-03-13
1.3K0
【NLP】关于Transformer,面试官们都怎么问
前些时间,赶完论文,开始对 Transformer、GPT、Bert 系列论文来进行仔仔细细的研读,然后顺手把站内的相关问题整理了一下
yuquanle
2020-03-12
1.4K0
【资源】吴恩达 AI 完整课程资源超级大汇总!
吴恩达(Andrew Ng),毫无疑问,是全球人工智能(AI)领域的大 IP!随着近些年来 AI 越来越火的大趋势下,吴恩达一直致力于普及、宣传、推广 AI 教育,包括最前沿、最火爆的 AI 基础课程、深度学习课程等等。惠及全球超过 500w 的人工智能爱好者。
yuquanle
2020-02-26
1.9K0
【DL】Self-Attention与Transformer
答:编码器-解码器(Encoder-Decoder)模型最初是由Cho等提出应用在机器翻译中。由于在机器翻译中是文本到文本的转换,比如将法语翻译成英语,Sutskever等也称编码器-解码器模型为序列到序列学习(Seq2Seq)。
yuquanle
2020-02-25
1K0
【ML】深入理解CatBoost
CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Boosting族算法的一种。CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器,都是在GBDT算法框架下的一种改进实现。XGBoost被广泛的应用于工业界,LightGBM有效的提升了GBDT的计算效率,而Yandex的CatBoost号称是比XGBoost和LightGBM在算法准确率等方面表现更为优秀的算法。
yuquanle
2020-02-24
9880
【NLP实战】XLNet只存在于论文?已经替你封装好了!
相信前段时间大家都被各种XLNet的解读、解析轰炸了吧。好容易熬过了学会了,到网上一搜,诶!官方没有公布中文预训练模型,其他大佬都还没动静,散了散了,追ALBERT的热点去了。
yuquanle
2020-02-20
1.9K3
【科研】论文的可复现性,能否量化分析?
300 多年以来,同行评审一直是科学研究的必要环节。但是,即使在引入同行评审机制之前,复现性也是科学方法的重要组成部分。
yuquanle
2020-02-20
6690
【NLP】文本分类任务之逻辑回归
在某些平台评论中会经常出现一些有毒评论(即一些粗鲁,不尊重或者可能让某人离开讨论的评论),这使得许多人不愿意再表达自己并放弃在平台中评论。因此,为了促进用户对话,提出一系列的方案,来缓解这一问题。我们将其看作一个文本分类问题,来介绍一系列的文本分类方案。
yuquanle
2020-02-14
1K0
【工程】模型秒变API只需一行代码,支持TensorFlow等框架
专注于机器学习应用的人们知道,从训练好的模型到实际的工业生产工具还有一定的距离。其中工作量很大的地方在于将模型打包,预留 API 接口,并和现有的生产系统相结合。近日,GitHub 上有了这样一个项目,能够让用户一行代码将任意模型打包为 API。这一工具无疑能够帮助开发者在实际的生产应用中快速部署模型。
yuquanle
2019-11-28
4240
【NLP】加速BERT:从架构优化、模型压缩到模型蒸馏最新进展详解
原文链接:https://blog.inten.to/speeding-up-bert-5528e18bb4ea
yuquanle
2019-11-14
1.2K0
Python 3.8正式发布,重要新功能都在这里
【导读】最新版本的Python发布了!今年夏天,Python 3.8发布beta版本,但在2019年10月14日,第一个正式版本已准备就绪。现在,我们都可以开始使用新功能并从最新改进中受益。
yuquanle
2019-10-23
1.5K0
【技巧】Pandas常见的性能优化方法
Pandas是数据科学和数据竞赛中常见的库,我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方,如果你没有合适的使用,那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧,主要是用来节约内存和提高代码速度。
yuquanle
2019-10-13
1.2K0
初学者|一步步掌握FoolNLTK
本文介绍了FoolNLTK的使用方法,是一个使用双向 LSTM 构建的便捷的中文处理工具包,该工具不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。
yuquanle
2019-10-08
5140
初学者|手把手带你学TextBlob
本文介绍了TextBlob的使用方法,这是一个用Python编写的开源的文本处理库。它可以用来执行很多自然语言处理的任务,比如,词性标注,名词性成分提取,情感分析,文本翻译,等等。
yuquanle
2019-10-08
2.7K0
【综述】自动机器学习最近研究进展
本文首先从端到端系统的角度总结了自动机器学习在各个流程中的研究成果,然后着重对最近广泛研究的神经结构搜索进行了总结,最后讨论了一些未来的研究方向。
yuquanle
2019-10-08
4170
干货 | 线性代数的本质课程笔记完整合集
线性代数中最基础,最根源的组成部分是向量,那么什么是向量呢?从不同学生的视角看,有以下三种观点:
yuquanle
2019-09-27
7250
初学者|一起走进PKUSeg
本文介绍了PKUSeg的使用方法,它简单易用,支持细分领域分词,有效提升了分词准确度,支持用户自训练模型。支持用户使用全新的标注数据进行训练。
yuquanle
2019-07-23
1.4K0
初学者|不能不会的NLTK
本文简绍了NLTK的使用方法,这是一个被称为“使用Python进行计算语言学教学和工作的绝佳工具”。
yuquanle
2019-07-12
1.3K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档