我想做一个文本/情感分析。
(positive, neutral, negative)
和我使用支持向量机、随机森林、Logistic回归和梯度增强等算法对样本进行了分析。
我的脚本工作正常,通过交叉验证,我可以获得4中最好的算法。
我在python函数"Countvectorizer“中使用有监督的算法。
但是我的老板在网上输入了"NLP“并看了一些文章。
他告诉我:“这三个输出是不够的,我想要一个完整的语义分析来解释这个句子的整体意义。”
他似乎不喜欢有监督的算法和非监督的算法。
他告诉我,他想要一种算法来判断“公司总裁被关在监狱里”相当于“首席执行官在监狱里”。
你知道一个人怎么能做到吗?以及如何在Python中实现它?我想我们需要一个充满文字的数据库,我知道这不是一个非常具体的问题,但我想给他提供所有的解决方案。
令我害怕的是,他似乎对此知之甚少,例如,他告诉我“你必须减少数据集的高维”,而我的数据集只有2000文本字段。
非常感谢你的回答:)
发布于 2018-08-16 14:26:15
用你的三个标签:积极的,中立的或消极的-它似乎你是在谈论更多的情绪分析。这个问题的答案是:写这篇文章的人的情感是什么?
语义分析是一个较大的术语,意义在于分析文本中所包含的意义,而不仅仅是情感。它寻找单词之间的关系,它们是如何组合的,以及特定单词出现在一起的频率。
为了对你的文本有更深入的了解,你可以阅读以下主题:
tracking
、tracked
、tracker
都可以简化为基本形式:track
。您的下一步可能是搜索博客和介绍我提到的任何这些术语。
下面是来自spaCy的一个解析树示例:
这是指向量,它描述了你的每一个词。一般来说,Word2Vec向量大约是300维的.你可能想要想象这些单词,在2d空间中绘制它们。您可以尝试一种像t-SNE这样的方法,该方法将300 d向量映射到2d空间,允许显示关系的良好图形,同时保留300 d空间中描述的原始关系。会有一些信息丢失,但你不可能在第一时间看到300 d矢量!
使用单词的向量,您可以计算出president
和CEO
之间的相似性(在0到1之间)类似于0.92 --这意味着它们几乎是同义词!
https://datascience.stackexchange.com/questions/37025
复制相似问题