首页
学习
活动
专区
工具
TVP
发布

SimpleAI

专栏作者
103
文章
137719
阅读量
36
订阅数
​我如何用Annoy和ThreadPool把相似度计算加速360倍
我最近的一个项目中需要大量查询一个词的相似词,而无论是英文的WordNet,还是中文的同义词词林,都覆盖面太窄,我决定借助训练好的Word2Vec模型,使用gensim库,调用它经典的.most_similar()函数来进行相似词查询。而由于程序中需要大量查询相似词,所以就需要大量调用.most_similar()函数,而这,就成为了整个程序的瓶颈,因为:
beyondGuo
2022-03-28
5640
「课代表来了」跟李沐读论文之——Transformer
背景是机器翻译、encoder-decoder框架,而且一般都会在中间使用Attention机制。
beyondGuo
2021-12-21
6920
什么是Inductive bias(归纳偏置)?
文章比较长,也不是我熟悉的领域,所以我只是随便瞅了瞅,里面有一段话和一个表,对inductive bias做了很详细清楚的解释:
beyondGuo
2021-12-15
2.3K0
「论文解读」在特征空间增强数据集
最常用的数据增强方法,无论是CV还是NLP中,都是直接对原始数据进行各种处理。比如对图像的剪切、旋转、变色等,对文本数据的单词替换、删除等等。对于原始数据进行处理,往往是高度领域/任务相关的,即我们需要针对数据的形式、任务的形式,来设计增强的方法,这样就不具有通用性。比如对于图像的增强方法,就没法用在文本上。因此,本文提出了一种“领域无关的”数据增强方法——特征空间的增强。具体的话就是对可学习的样本特征进行 1) adding noise, 2) interpolating, 3) extrapolating 来得到新的样本特征。
beyondGuo
2021-12-02
6390
Huggingface🤗NLP笔记4:Models,Tokenizers,以及如何做Subword tokenization
前面都是使用的AutoModel,这是一个智能的wrapper,可以根据你给定的checkpoint名字,自动去寻找对应的网络结构,故名Auto。
beyondGuo
2021-10-08
1.9K0
Huggingface🤗NLP笔记2:一文看清Transformer大家族的三股势力
Transformer结构最初就是在大2017年名鼎鼎的《Attention Is All You Need》论文中提出的,最开始是用于机器翻译任务。
beyondGuo
2021-10-08
3.4K0
损失函数的“噪音免疫力”
如果一个损失函数,在有噪音的情况下,其风险最小化的模型(minimizer)跟没有噪音时是相同的,就称这个损失函数是抗噪的(noise-tolerant)。换言之,有噪音的情况下的最优模型,跟没噪音一样。(听起来是不是不可能?)
beyondGuo
2021-01-21
1K0
【Embedding】fastText:极快的文本分类工具
今天我们来看 Mikolov 大佬 2016 年的另一大巨作——fastText。2013 年大佬在 Google 开源了 Word2Vec,2016 年刚就职于 FaceBook 就开源了 fastText,全都掀起了轩然大波。
beyondGuo
2020-06-12
1.4K0
【Hello NLP】CS224n笔记[4]:自然语言中的依存分析(Dependency Parsing)
SimpleAI 【HelloNLP】系列笔记,主要参考各知名网课(Stanford CS224n、DeepLearning.ai、李宏毅机器学习等等),并配合NLP的经典论文和研究成果、我的个人项目实践经验总结而成。希望能和各位NLP爱好者一起探索这颗AI皇冠的明珠!
beyondGuo
2020-03-25
8950
【Hello NLP】CS224n学习笔记[3]:共现矩阵、SVD与GloVe词向量
SimpleAI 【HelloNLP】系列笔记,主要参考各知名网课(Stanford CS224n、DeepLearning.ai、李宏毅机器学习等等),并配合NLP的经典论文和研究成果、我的个人项目实践经验总结而成。希望能和各位NLP爱好者一起探索这颗AI皇冠的明珠!
beyondGuo
2020-03-11
2.1K0
【DL笔记2】矢量化技巧&Logistic Regression算法解析
为啥呢,因为深度学习中的数据量往往巨大,用for循环去跑的话效率会非常低下,相比之下,矩阵运算就会快得多。而python的矩阵“传播机制(broadcasting)”和专门用于矩阵计算的numpy包更是给了我们使用矩阵运算的理由。
beyondGuo
2020-03-11
6240
【Hello NLP】CS224n笔记[2]:Word2Vec算法推导&实现
相比于计算机视觉,NLP可能看起来没有那么有趣,这里没有酷炫的图像识别、AI作画、自动驾驶,我们要面对的,几乎都是枯燥的文本、语言、文字。但是,对于人工智能的征途来说,NLP才是皇冠上的那颗珍珠,它美丽却又难以摘取,当NLP的问题解决了,机器才真正具备了理解、思考的能力,我们才敢说实现了真正的“智能”。
beyondGuo
2020-02-26
1.1K0
【Hello NLP】CS224n学习笔记[1]:词向量从而何来
相比于计算机视觉,NLP可能看起来没有那么有趣,这里没有酷炫的图像识别、AI作画、自动驾驶,我们要面对的,几乎都是枯燥的文本、语言、文字。但是,对于人工智能的征途来说,NLP才是皇冠上的那颗珍珠,它美丽却又难以摘取,当NLP的问题解决了,机器才真正具备了理解、思考的能力,我们才敢说实现了真正的“智能”。
beyondGuo
2020-02-25
6351
机器学习算法复习手册——SVM
本手册整理自机器学习各相关书籍、网络资料、个人的理解与实践。总体编写宗旨: ①一看就懂; ②用20%的文字,涵盖80%的内容。 至于剩下的20%,一般属于比较偏、难的部分,建议自行查询相关书籍资料学习。而只用20%的文字,则代表手册里面几乎没有废话,也只有极少数必要的例子。
beyondGuo
2019-12-27
4780
数据结构学习笔记分享
偶然的机会,在bilibli上看到了郝斌老师教的《数据结构入门》,课程录制时间是2009年,也就是10年前。虽然如此久远,但是我从听第一节课开始就深深被郝斌老师所折服,从未见过谁可以将这门枯燥的课教授地如此生动有趣(想当年我的数据结构只考了61分......)。于是花了几个星期的晚上,把这门课给听完了,相关的代码也跟着老师敲了一遍,笔记也整理了一下,并自己绘制了一些精美的示意图来辅助理解。代码部分不完全跟老师课堂上一致,但思路基本一致。这里分享给大家。
beyondGuo
2019-11-06
8200
PaperReading-图嵌入之node2vec
不同于图像、自然语言这种欧式空间的数据,网络结构的数据——图,通常无法通过CNN或者RNN来处理,这就需要我们寻找其他的方法来处理图数据。图数据其实非常常见,例如社交网络关系、分子结构、论文互相引用的关系网络等等,所以如何表达网络节点的特征就十分重要,表达好了节点的特征,我们就可以用它做下游的分类、预测、聚类、可视化等等任务。
beyondGuo
2019-05-28
2.2K0
Why Writing?
对于计算机,一开始我是抗拒的,高考填志愿,第一志愿是金融,第二志愿是国际金融,第三志愿想来想去填了一个管理科学。。。以我高出录取线两分的成绩,我理所当然地被分到第三志愿——管理科学。鬼知道这玩意居然在信息学院!居然是学计算机!居然课程表里都是C++、面向对象程序设计、数据结构...让人心碎啊!
beyondGuo
2018-10-25
3990
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档