首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >NLP -如何执行语义分析?

NLP -如何执行语义分析?
EN

Data Science用户
提问于 2018-08-16 13:15:50
回答 1查看 6.4K关注 0票数 5

我想做一个文本/情感分析。

(positive, neutral, negative)和我使用支持向量机、随机森林、Logistic回归和梯度增强等算法对样本进行了分析。

我的脚本工作正常,通过交叉验证,我可以获得4中最好的算法。

我在python函数"Countvectorizer“中使用有监督的算法。

但是我的老板在网上输入了"NLP“并看了一些文章。

他告诉我:“这三个输出是不够的,我想要一个完整的语义分析来解释这个句子的整体意义。”

他似乎不喜欢有监督的算法和非监督的算法。

他告诉我,他想要一种算法来判断“公司总裁被关在监狱里”相当于“首席执行官在监狱里”。

你知道一个人怎么能做到吗?以及如何在Python中实现它?我想我们需要一个充满文字的数据库,我知道这不是一个非常具体的问题,但我想给他提供所有的解决方案。

令我害怕的是,他似乎对此知之甚少,例如,他告诉我“你必须减少数据集的高维”,而我的数据集只有2000文本字段。

非常感谢你的回答:)

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-08-16 14:26:15

用你的三个标签:积极的,中立的或消极的-它似乎你是在谈论更多的情绪分析。这个问题的答案是:写这篇文章的人的情感是什么?

语义分析是一个较大的术语,意义在于分析文本中所包含的意义,而不仅仅是情感。它寻找单词之间的关系,它们是如何组合的,以及特定单词出现在一起的频率。

为了对你的文本有更深入的了解,你可以阅读以下主题:

  • 语义分析通常指的是你的起点,在这里你解析一个句子来理解和标记不同的词性(POS)。在Python中,spaCy是一个工具,它的用词非常好,并且还提供可视化来向老板展示。
  • 命名实体识别(NER) -查找词性(POS)中指实体的部分,并将它们与后面出现在文本中的代词联系起来。一个例子是区分苹果公司和苹果公司。
  • 嵌入-寻找单个单词的潜在表示,例如使用Word2Vec。文本被处理以n维向量的形式为单个单词生成单个嵌入。然后,您可以计算某些单词的向量之间的相似性度量(例如余弦相似性),以分析它们之间的关系。
  • 这种方法将许多形式的单词减少到它们的基本形式,这意味着它们更有规律地出现,而且我们不认为动词连词是单独的词。例如,trackingtrackedtracker都可以简化为基本形式:track

您的下一步可能是搜索博客和介绍我提到的任何这些术语。

下面是来自spaCy的一个解析树示例:

降维

这是指向量,它描述了你的每一个词。一般来说,Word2Vec向量大约是300维的.你可能想要想象这些单词,在2d空间中绘制它们。您可以尝试一种像t-SNE这样的方法,该方法将300 d向量映射到2d空间,允许显示关系的良好图形,同时保留300 d空间中描述的原始关系。会有一些信息丢失,但你不可能在第一时间看到300 d矢量!

使用单词的向量,您可以计算出presidentCEO之间的相似性(在0到1之间)类似于0.92 --这意味着它们几乎是同义词!

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/37025

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档