我在R中有一个向量,它在向量的最后一个索引处有一个单词列表。我需要从列表中删除一些单词 sentence <- "This is a sample sentence with words like or to be removed"
wordsToRemove注意:句子是我的向量中的一个元素,它有int,也有其他数据类型。我已经浏览了下面的链接R: find vector in list of vectors
我正在尝试找出两个句子之间的一些相似性度量。为此,我利用了两个单词各自的语义相似性。但是字典里有很多单词是我从我的句子里造出来的。我想从句子中去掉一些我认为不能传达内容信息的单词。首先,我删除了字母较少的单词,但我不认为这是合理的,因为它还删除了一些信息丰富的单词。"Despite the fact that ..."如果我有一个涉及这
我有一个有一排排句子的Dataframe。现在,我想从Dataframe中删除所有包含字典/列表中>= x (e.g. 2 or 3)字数的句子,这些词可以看上去如下:dict = {"ice", "water", "rain"}
例如,如果x=2,我想删除句子ice and water are similar to each other,因为它有字典中的两个单词</e
目的是从单词列表lexicon = ['word', 'every', 'thing']中删除一个单词的句子。not any(word in sentence.split(' ') for word in lexicon)]
请注意,if not word in sentence不是一个充分条件,因为它还会删除包含词汇中的单词的句子,例如
我有一个包含许多句子的列表。我想遍历列表,从所有句子中删除"and“、" the”、"a“、"are”等单词。for i, j in articles.iteritems():return text
然而,正如您可能知道的那样,当"a“和"an”出现在单词的中间时,这将删除它们。我只需要删除由空格分隔的单词
我试图从语料库中删除较长(>25个标记)和较短(<4个标记)的句子,并删除包含出现次数少于8次的罕见单词的句子。我试图删除它,但每次尝试都会收到错误消息或空列表。语料库是棕色语料库。lens = [w for w in corpus.sents() if len(w)>=25 and len(w)<= 4]out: []
我也不知道如何在这份清单中加入稀有单词的理解如何删除</e