在一篇文章中,我看到了情感分析使用词类(POS)技术。当我搜索的时候,我得到了一些关于POS的论文,但是我不知道POS基本上是什么。虽然我是新的情绪分析,请帮助我理解POS。
发布于 2018-09-10 08:05:37
当你给一个句子或多个句子的每一个单词(通常称为记号)贴上标签时,这就是它的名字。通常它们都带有语法描述,如名词、形容词、副词。它们往往很具体,也可以区分名词的类型(专有名词等)。
然后,您可以使用这些令牌的描述作为模型的输入,或者过滤令牌,只提取您感兴趣的部分。
当我们使用NLP工具包(如spaCy。在这里看看他们可用的POS )解析一个文本块时,POS通常是输出的一部分。
这里有句话的解析树的片段:苹果正考虑以10亿美元收购一家英国初创公司。

苹果被认为是一个专有名词(NNP),也是第一个动词的主语(用标有nsubj的箭头表示)。
关于POS的一个很好的介绍,在NLP中的许多其他术语,看看这篇文章。。
在情感模型中包含POS有很多原因(下面是一些例子),但它们实际上都归结为一个总体原因:多义。其定义是:
一个词或短语的多种可能的意思共存。
所以从本质上说,不同语境中的词可能有不同的含义。这当然是一个巨大的信息增益,我们可以传递给一个模型!
鸭子这个词可以是名词(鸟),也可以是动词(动作,蹲下)。如果我们能告诉一个模型,其中哪一个是在一个给定的句子中,模型可以学会使句子更有意义。
除了区分单个词的意义外,我们还可以简单地在用法或位置上使用它们。一个例子是使用副词:但是。
如果我们的解析器足够好地告诉我们,它在特定的句子中用作对比连词(从技术上讲,这在语法上是不正确的!)一个例子句可以是:
我真的很喜欢松饼,但是,我讨厌草莓。
我们有两个条款:一个正面前,一个后。第一句是肯定的,后一句是否定的。如果我们用-5 ro +5来表示每个子句的情感(可能是该子句中每个单词的平均值),那么我们可以想象得到分数,比如肯定子句的+3和否定句的-3。
这就是我见过一些模型的地方(Vader,SentiStrength等)用POS来衡量那些基本分数。但是,在我们的例子中,可能会使用否定子句的分数增加10%,使其最终得分为-3.3。这是否有意义取决于用例、数据以及开发人员的一般经验。
POS有很多用途,你可以想象很多,是否手工裁剪一个情感模型只是为了产生更多的功能。无论如何,它是一个从原始文本中提取更多信息的过程,应用语言模型(如语法!)这已经过测试,并且众所周知,对于任何官方形式的写作都是健壮的。
发布于 2018-09-10 08:30:29
词性部分解释了一个词在句子中的用法,即它是否是动词、名词、形容词等。在文本处理中,这些POS (或word类)通常表示为它们的缩写,我们称之为tag。
例如,如果我们使用nltk,它使用Penn标记集作为默认设置。https://www.ling.upenn.edu/courses/Fall_2003/penn 001/penn_树岸_pos.html
import nltk
nltk.pos_tag(['I', 'like', 'playing', 'tennis'])它将输出:
[('I', 'PRP'), ('like', 'VBP'), ('playing', 'VBG'), ('tennis', 'NN')]我们可以检查nltk.help.upenn_tagset(),在那里我们知道:
PRP : Personal Pronoun
VBP : Verb, non-3rd person singular present
VBG : Verb, gerund or present participle
NN : Noun, singular or mass发布于 2018-09-18 13:31:46
POS可用于文本分析中的多个应用。文本分析中的大多数技术都是关于标记化和N克(将句子分解成单词)。在大多数情况下,当句子被分解成单词时,文本的语义就会消失,而独立的单词与一组单词或句子相比,无法表达情感和语义。因此,通过将语料库中的每个单词标记到其词类的各个部分,有时就可以很容易地获得使用该词的上下文,并最终将其用于分析情感。
我尝试了Python中的文本Blob和NLTK包来进行文本分析。有关使用这些包的更多信息,请参阅下面的链接。
https://www.nltk.org/ https://pythonprogramming.net/tokenizing-words-sentences-nltk-tutorial/ https://textblob.readthedocs.io/en/dev/quickstart.html https://textblob.readthedocs.io/en/dev/
https://datascience.stackexchange.com/questions/38027
复制相似问题