腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SimpleAI

专栏作者

103

文章

137719

阅读量

36

订阅数

我如何用Annoy和ThreadPool把相似度计算加速360倍

https 网络安全编程算法

我最近的一个项目中需要大量查询一个词的相似词，而无论是英文的WordNet，还是中文的同义词词林，都覆盖面太窄，我决定借助训练好的Word2Vec模型，使用gensim库，调用它经典的.most_similar()函数来进行相似词查询。而由于程序中需要大量查询相似词，所以就需要大量调用.most_similar()函数，而这，就成为了整个程序的瓶颈，因为：

2022-03-28

5640

「课代表来了」跟李沐读论文之——Transformer

机器学习神经网络深度学习人工智能编程算法

背景是机器翻译、encoder-decoder框架，而且一般都会在中间使用Attention机制。

2021-12-21

6920

什么是Inductive bias（归纳偏置）？

机器学习深度学习人工智能编程算法神经网络

文章比较长，也不是我熟悉的领域，所以我只是随便瞅了瞅，里面有一段话和一个表，对inductive bias做了很详细清楚的解释：

2021-12-15

2.3K0

「论文解读」在特征空间增强数据集

最常用的数据增强方法，无论是CV还是NLP中，都是直接对原始数据进行各种处理。比如对图像的剪切、旋转、变色等，对文本数据的单词替换、删除等等。对于原始数据进行处理，往往是高度领域/任务相关的，即我们需要针对数据的形式、任务的形式，来设计增强的方法，这样就不具有通用性。比如对于图像的增强方法，就没法用在文本上。因此，本文提出了一种“领域无关的”数据增强方法——特征空间的增强。具体的话就是对可学习的样本特征进行 1) adding noise, 2) interpolating, 3) extrapolating 来得到新的样本特征。

2021-12-02

6390

Huggingface🤗NLP笔记4：Models，Tokenizers，以及如何做Subword tokenization

https css 网络安全编程算法 NLP 服务

前面都是使用的AutoModel，这是一个智能的wrapper，可以根据你给定的checkpoint名字，自动去寻找对应的网络结构，故名Auto。

2021-10-08

1.9K0

Huggingface🤗NLP笔记2：一文看清Transformer大家族的三股势力

NLP 服务编程算法 https 网络安全

Transformer结构最初就是在大2017年名鼎鼎的《Attention Is All You Need》论文中提出的，最开始是用于机器翻译任务。

2021-10-08

3.4K0

损失函数的“噪音免疫力”

如果一个损失函数，在有噪音的情况下，其风险最小化的模型（minimizer）跟没有噪音时是相同的，就称这个损失函数是抗噪的（noise-tolerant）。换言之，有噪音的情况下的最优模型，跟没噪音一样。（听起来是不是不可能？）

2021-01-21

1K0

【Embedding】fastText：极快的文本分类工具

机器学习神经网络深度学习人工智能编程算法

今天我们来看 Mikolov 大佬 2016 年的另一大巨作——fastText。2013 年大佬在 Google 开源了 Word2Vec，2016 年刚就职于 FaceBook 就开源了 fastText，全都掀起了轩然大波。

2020-06-12

1.4K0

【Hello NLP】CS224n笔记[4]:自然语言中的依存分析(Dependency Parsing)

编程算法 NLP 服务 linux 机器学习神经网络

SimpleAI 【HelloNLP】系列笔记，主要参考各知名网课（Stanford CS224n、DeepLearning.ai、李宏毅机器学习等等），并配合NLP的经典论文和研究成果、我的个人项目实践经验总结而成。希望能和各位NLP爱好者一起探索这颗AI皇冠的明珠！

2020-03-25

8950

【Hello NLP】CS224n学习笔记[3]:共现矩阵、SVD与GloVe词向量

NLP 服务编程算法

SimpleAI 【HelloNLP】系列笔记，主要参考各知名网课（Stanford CS224n、DeepLearning.ai、李宏毅机器学习等等），并配合NLP的经典论文和研究成果、我的个人项目实践经验总结而成。希望能和各位NLP爱好者一起探索这颗AI皇冠的明珠！

2020-03-11

2.1K0

【DL笔记2】矢量化技巧&Logistic Regression算法解析

机器学习 python numpy 编程算法

为啥呢，因为深度学习中的数据量往往巨大，用for循环去跑的话效率会非常低下，相比之下，矩阵运算就会快得多。而python的矩阵“传播机制（broadcasting）”和专门用于矩阵计算的numpy包更是给了我们使用矩阵运算的理由。

2020-03-11

6240

【Hello NLP】CS224n笔记[2]:Word2Vec算法推导&实现

NLP 服务编程算法

相比于计算机视觉，NLP可能看起来没有那么有趣，这里没有酷炫的图像识别、AI作画、自动驾驶，我们要面对的，几乎都是枯燥的文本、语言、文字。但是，对于人工智能的征途来说，NLP才是皇冠上的那颗珍珠，它美丽却又难以摘取，当NLP的问题解决了，机器才真正具备了理解、思考的能力，我们才敢说实现了真正的“智能”。

2020-02-26

1.1K0

【Hello NLP】CS224n学习笔记[1]:词向量从而何来

编程算法 NLP 服务神经网络深度学习

相比于计算机视觉，NLP可能看起来没有那么有趣，这里没有酷炫的图像识别、AI作画、自动驾驶，我们要面对的，几乎都是枯燥的文本、语言、文字。但是，对于人工智能的征途来说，NLP才是皇冠上的那颗珍珠，它美丽却又难以摘取，当NLP的问题解决了，机器才真正具备了理解、思考的能力，我们才敢说实现了真正的“智能”。

2020-02-25

6351

机器学习算法复习手册——SVM

编程算法机器学习神经网络深度学习

本手册整理自机器学习各相关书籍、网络资料、个人的理解与实践。总体编写宗旨： ①一看就懂； ②用20%的文字，涵盖80%的内容。至于剩下的20%，一般属于比较偏、难的部分，建议自行查询相关书籍资料学习。而只用20%的文字，则代表手册里面几乎没有废话，也只有极少数必要的例子。

2019-12-27

4780

数据结构学习笔记分享

偶然的机会，在bilibli上看到了郝斌老师教的《数据结构入门》，课程录制时间是2009年，也就是10年前。虽然如此久远，但是我从听第一节课开始就深深被郝斌老师所折服，从未见过谁可以将这门枯燥的课教授地如此生动有趣（想当年我的数据结构只考了61分......）。于是花了几个星期的晚上，把这门课给听完了，相关的代码也跟着老师敲了一遍，笔记也整理了一下，并自己绘制了一些精美的示意图来辅助理解。代码部分不完全跟老师课堂上一致，但思路基本一致。这里分享给大家。

2019-11-06

8200

PaperReading-图嵌入之node2vec

node.js 特征工程编程算法

不同于图像、自然语言这种欧式空间的数据，网络结构的数据——图，通常无法通过CNN或者RNN来处理，这就需要我们寻找其他的方法来处理图数据。图数据其实非常常见，例如社交网络关系、分子结构、论文互相引用的关系网络等等，所以如何表达网络节点的特征就十分重要，表达好了节点的特征，我们就可以用它做下游的分类、预测、聚类、可视化等等任务。

2019-05-28

2.2K0

数据结构机器学习 python java 编程算法

对于计算机，一开始我是抗拒的，高考填志愿，第一志愿是金融，第二志愿是国际金融，第三志愿想来想去填了一个管理科学。。。以我高出录取线两分的成绩，我理所当然地被分到第三志愿——管理科学。鬼知道这玩意居然在信息学院！居然是学计算机！居然课程表里都是C++、面向对象程序设计、数据结构...让人心碎啊！

2018-10-25

3990

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态