最近我正在读一本书,我发现有很多词我很少看到。当我搜索他们的意思时,我发现对于一个单一的词汇,谷歌有一个use over time for:统计数据--从1800年到2010年。
我可以想象谷歌是如何收集互联网上使用的词汇的频率的。但是在互联网之前呢?他们如何知道1800年人们使用词汇的频率?他们是否首先将图表材料转换成数字数据,然后计算结果或其他什么?
我有一个字符串列表:
corpus = ["Hello I am Sam", "This is a white desk","I ate cereals", ...]
我想在这个语料库上建立一个语言模型(最好是使用nltk),以得到一个句子中单词的概率。所以,我以后的用法是
P(“Sam”=“我是”)
在这个语料库里。我找不到-最好的方法是什么?如何训练一个ngram模型,然后再得到这样的概率?
谢谢!
我想发短信给我的,出于多种原因,我建立了一个数据框架,其中我在一列中有单词,在第二个例子中有频率:
words freq
Have 123
have 5
having 4589
注意,我们可以很快看到,如果频率非常大,这样做可能会更有效地转换词,而不是有一个语料库与特定的词多次重复。
我想用tm来转换使用tolower,stemDocument等的单词
我知道我可以将words列从数据帧中提取到一个语料库中,但是这样我就会丢失频率信息。
我想得到:
words freq
have 123
have 5
have 4589
然后,我想我可以使用setDT、d
背景
我试图用Gensim判断一个短语在语义上是否与语料库中的其他单词有关。例如,这里是预先标记的语料库文档:
**Corpus**
Car Insurance
Car Insurance Coverage
Auto Insurance
Best Insurance
How much is car insurance
Best auto coverage
Auto policy
Car Policy Insurance
我的代码(基于)对语料库中的所有字符串使用余弦相似度来判断短语的语义相关性。
问题
如果查询包含在我的字典中找到的任何术语,则判断该短语在语义上类似于语料库(
有一些标准的停止列表,给出诸如"a of of to“这样的词从语料库中删除。然而,我想知道,停止列表是否应该逐个改变呢?
例如,我有10K的期刊文章,然后因为文章的结构,基本上你会在每一篇文章中看到诸如“导言、评论、结论、页面”这样的词。我担心的是:我们应该把这些词从我们的语料库中删除吗?(每一份文件都有几个字?)感谢每一个评论和建议。
我有一个近两百万份文档的语料库。我想要计算术语在整个语料库中的词频,而不考虑文档边界。 一种天真的方法是将所有文档合并到一个非常大的文档中,并对其进行矢量化。 一种精心设计的方法是使用tm或任何工具构建一个完整的TDM,其中每个术语在每个文档中都有词频,因此在整个语料库中也是如此。我是这样做的: # Build a TDM from the 'corpus' tibble using a filtered 'texts' column:
htgs = VCorpus(VectorSource(subset(x = corpus,
我正在尝试使用R语言tm包中的stemDocument来阻止语料库。我已经尝试了tm手册中的示例:
data("crude")
crude[[1]]
stemDocument(crude[[1]])
并得到以下错误:
Could not initialize the GenericProperitiesCreator. This exception was produced:
java.lang.NullPointerException
感谢您的帮助。我对Java一无所知。
谢谢
R和文本挖掘的初学者。当前使用tm包。
我试图把两个不同文件的文本放在一个语料库中。当我使用这样的语句时
c(corpus.doc[[1]],corpus.doc[[2]])
或粘贴语句
paste(corpus.doc[[1]],corpus.doc[[2]])
我得到了每一行合并的文本的结果。
例如:如果
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
我从这些陈述中得到的是
He visits very often