首页
学习
活动
专区
工具
TVP
发布

机器学习与自然语言处理

专栏作者
38
文章
53919
阅读量
43
订阅数
将句子表示为向量(下):基于监督学习的句子表示学习(sentence embedding)
上一篇介绍了如何用无监督方法来训练sentence embedding,本文将介绍如何利用监督学习训练句子编码器从而获取sentence embedding,包括利用释义数据库PPDB、自然语言推理数据SNLI、以及综合利用监督训练数据和无监督训练数据。
llhthinker
2019-05-25
1.2K0
将句子表示为向量(上):无监督句子表示学习(sentence embedding)
word embedding技术如word2vec,glove等已经广泛应用于NLP,极大地推动了NLP的发展。既然词可以embedding,句子也应该可以(其实,万物皆可embedding,Embedding is All You Need ^_^)。近年来(2014-2018),许多研究者在研究如何进行句子表示学习,从而获得质量较高的句子向量(sentence embedding)。事实上,sentence embedding在信息检索,句子匹配,句子分类等任务上均有广泛应用,并且上述任务往往作为下游任务来评测sentence embedding的好坏。本文将介绍如何用无监督学习方法来获取sentence embedding,是对近期阅读的sentence embedding论文笔记的总结(https://github.com/llhthinker/NLP-Papers#distributed-sentence-representations)。欢迎转载,请保留原文链接https://www.cnblogs.com/llhthinker/p/10335164.html
llhthinker
2019-05-25
3.2K0
信息量,熵,交叉熵,相对熵与代价函数
如果有⼈告诉我们⼀个相当不可能的事件发⽣了,我们收到的信息要多于我们被告知某个很可能发⽣的事件发⽣时收到的信息。如果我们知道某件事情⼀定会发⽣,那么我们就不会接收到信息。 也就是说,信息量应该连续依赖于事件发生的概率分布p(x) 。因此,我们想要寻找⼀个基于概率p(x)计算信息量的函数h(x),它应该具有如下性质:
llhthinker
2018-10-09
6220
“你什么意思”之基于RNN的语义槽填充(Pytorch实现)
1. 概况 1.1 任务 口语理解(Spoken Language Understanding, SLU)作为语音识别与自然语言处理之间的一个新兴领域,其目的是为了让计算机从用户的讲话中理解他们的意图
llhthinker
2018-05-28
2.9K0
Stanford机器学习笔记-3.Bayesian statistics and Regularization
3. Bayesian statistics and Regularization Content   3. Bayesian statistics and Regularization.      3.1 Underfitting and overfitting.      3.2 Bayesian statistics and regularization.      3.3 Optimize Cost function by regularization.        3.3.1 Regulariz
llhthinker
2018-03-13
8440
Stanford机器学习笔记-4. 神经网络Neural Networks (part one)
4. Neural Networks (part one) Content:   4. Neural Networks (part one)      4.1 Non-linear Classification.     4.2 Neural Model(神经元模型)     4.3 Forward Propagation     4.4 神经网络实现与或非门以及异或门       4.4.1 实现与或非门(AND/OR/NOT)        4.4.2 实现异或/同或门(XOR/XNOR)      4
llhthinker
2018-03-13
9410
Stanford机器学习笔记-5.神经网络Neural Networks (part two)
5 Neural Networks (part two) content:   5 Neural Networks (part two)     5.1 cost function     5.2 Back Propagation     5.3 神经网络总结 接上一篇4. Neural Networks (part one). 本文将先定义神经网络的代价函数,然后介绍逆向传播(Back Propagation: BP)算法,它能有效求解代价函数对连接权重的偏导,最后对训练神经网络的过程进行总结。 5.1
llhthinker
2018-03-13
7470
Stanford机器学习笔记-6. 学习模型的评估和选择
6. 学习模型的评估与选择 Content   6. 学习模型的评估与选择     6.1 如何调试学习算法     6.2 评估假设函数(Evaluating a hypothesis)     6.3 模型选择与训练/验证/测试集(Model selection and training/validation/test sets)      6.4 偏差与方差       6.4.1 Diagnosing bias vs. variance.        6.4.2 正则化与偏差/方差
llhthinker
2018-03-13
8750
Stanford机器学习笔记-8. 支持向量机(SVMs)概述
8. Support Vector Machines(SVMs) Content 8. Support Vector Machines(SVMs)       8.1 Optimization Objection       8.2 Large margin intuition       8.3 Mathematics Behind Large Margin Classification       8.4 Kernels       8.5 Using a SVM         8.
llhthinker
2018-03-13
8980
Stanford机器学习笔记-9. 聚类(Clustering)
9. Clustering  Content   9. Clustering     9.1 Supervised Learning and Unsupervised Learning     9.2 K-means algorithm     9.3 Optimization objective     9.4 Random Initialization     9.5 Choosing the Number of Clusters 9.1 Supervised Learning an
llhthinker
2018-03-13
1.3K0
Stanford机器学习笔记-10. 降维(Dimensionality Reduction)
10. Dimensionality Reduction Content  10. Dimensionality Reduction   10.1 Motivation     10.1.1 Motivation one: Data Compression     10.2.2 Motivation two: Visualization   10.2 Principal Component Analysis     10.2.1 Problem formulation     10.2.2
llhthinker
2018-03-13
8320
机器学习之分类问题实战(基于UCI Bank Marketing Dataset)
导读: 分类问题是机器学习应用中的常见问题,而二分类问题是其中的典型,例如垃圾邮件的识别。本文基于UCI机器学习数据库中的银行营销数据集,从对数据集进行探索,数据预处理和特征工程,到学习模型的评估与选择,较为完整的展示了解决分类问题的大致流程。文中包含了一些常见问题的处理方式,例如缺失值的处理、非数值属性如何编码、如何使用过抽样和欠抽样的方法解决分类问题中正负样本不均衡的问题等等。 作者:llhthinker 1. 数据集选取与问题定义 本次实验选取UCI机器学习库中的银行营销数据集(Bank Ma
llhthinker
2018-03-13
5K0
信息量,熵,交叉熵,相对熵与代价函数
本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系。 1. 信息量 信息的量化计算: 解释如下: 信息量的大小应该可以衡量事件发生的“惊讶程度”或不确定性: 如果
llhthinker
2018-03-13
6470
Apriori算法介绍(Python实现)
导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知。我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们。本文首先对Apriori算法进行简介,而后进一步介绍相关的基本概念,之后详细的介绍Apriori算法的具体策略和步骤,最后给出Python实现代码。 1.Apriori算法简介 Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。A priori在拉丁语中指"来自以前"。当定义问题时,通常会使用先验知识或者假设,这被
llhthinker
2018-03-12
3.7K0
0-1整数规划与隐枚举法-感受剪枝的魅力
0-1整数规划与隐枚举法-感受剪枝的魅力 整数规划是线性规划的特殊情况,即当约束条件是变量为整数时,线性规划就变成了整数规划。若要求所有变量都为整数,即为纯整数规划;若允许存在一部分变量不一定为整数,则称为混合整数规划。而本文要讨论的0-1整数规划则是纯整数规划的特殊情况,即所有变量要么等于0,要么等于1,故这种变量又成为逻辑变量。 0-1整数规划在生活中还是很常见的,通常可以总结为“是”“否”问题。例如,有n个产品销地x1,...,xn可供选择,为使得利润最大,那么每一个销地都面临是否选择的问题,通常还会
llhthinker
2018-01-24
2.3K0
中文分词研究入门
导读 本文首先简单介绍了自然语言处理和科研过程中重要的四部曲——调研、思考、编程和写作,然后对中文分词问题进行了说明,介绍了中文分词存在的难点如消歧、颗粒度问题、分词标准等。接着,本文总结了调研文献中的分词方法,包括基于词典的最大匹配法以及其相应的改进方法、基于字标注的分词方法等,同时也介绍了当前中文分词的研究进展和方向,如统计与词典相结合、基于深度学习的分词方法等。而后,本文具体介绍了如何基于词典的双向最大匹配法以及基于字标注的平均感知机进行分词的实验,对实验结果进行了分析并给出了几种改进模型的思路。最后
llhthinker
2018-01-24
1.5K0
Linux系统常用命令总结
1. 最关键的命令 man echo 2. 目录文件操作命令 ls: 查看目录下的文件信息或文件信息 dir: pwd: 打印当前路径 cd:改变路径 mkdir:创建路径 rmdir:删除路径 cp:拷贝文件或目录 mv:移动文件或目录,或改名 rm: 删除文件或目录 tree:输出该目录下的文件目录树 3. 查看文件内容 cat: more: less: head: tail: wc:统计文件的字符数、单词数和行数等信息 4. 用户管理 useradd:添加用户 groupadd: userdel: 删
llhthinker
2018-01-24
1.5K0
深度学习在文本分类中的应用
近期阅读了一些深度学习在文本分类中的应用相关论文(论文笔记),同时也参加了CCF 大数据与计算智能大赛(BDCI)2017的一个文本分类问题的比赛:让AI当法官,并取得了最终评测第四名的成绩(比赛的具体思路和代码参见github项目repo)。因此,本文总结了文本分类相关的深度学习模型、优化思路以及今后可以进行的一些工作。欢迎转载 1. 文本分类任务介绍 文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛。如: 垃圾邮件分类:二分类问
llhthinker
2018-01-24
3K0
Stanford机器学习笔记-7. Machine Learning System Design
7 Machine Learning System Design Content   7 Machine Learning System Design     7.1 Prioritizing What to Work On      7.2 Error Analysis     7.3 Error Metrics for Skewed Classed        7.3.1 Precision/Recall        7.3.2 Trading off precision and re
llhthinker
2018-01-24
5790
04-树4. Root of AVL Tree-平衡查找树AVL树的实现
  对于一棵普通的二叉查找树而言,在进行多次的插入或删除后,容易让树失去平衡,导致树的深度不是O(logN),而接近O(N),这样将大大减少对树的查找效率。一种解决办法就是要有一个称为平衡的附加的结构条件:任何节点的深度均不得过深。有一种最古老的平衡查找树,即AVL树。   AVL树是带有平衡条件的二叉查找树。平衡条件是每个节点的左子树和右子树的高度最多差1的二叉查找树(空树的高度定义为-1)。相比于普通的二叉树,AVL树的节点需要增加一个变量保存节点高度。AVL树的节点声明如下: typedef stru
llhthinker
2018-01-24
8930
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档