从大型语料库生成n-gram

文章/答案/技术大牛

发布

1回答

有没有更有效的方法来找到最常见的n-gram？

、、

我试图从一个大型语料库中找到k个最常见的n-gram。我已经看到很多地方建议使用天真的方法--简单地扫描整个语料库，并保留一个包含所有n-gram计数的字典。有没有更好的方法来做这件事？

浏览 1提问于2017-02-22得票数 11

1回答

有效编辑距离

、、、、

我有一个很大的语料库，我试图在语料库中找到最相似的n-gram。在这种情况下，我使用。问题是这个过程需要很长时间。一位朋友建议我将n-gram转换为MD5，然后计算距离。我怀疑它会起作用。在大型语料库中，计算字符串(如n-gram)之间距离的最有效方法是什么？

浏览 17提问于2020-06-09得票数 2

1回答

、、、、

我正在使用wikipidia语料库(17G)和python语言来获取n-gram模型。

浏览 12提问于2021-04-02得票数 0

1回答

在NLTK中寻找n-gram背后的思想或算法是什么？

、、、

我正在使用Python NLTK包从我的语料库生成2-gram和3-gram。但我找不到NLTK如何从语料库中生成它们。，但我想知道是否有其他算法来寻找n-gram。NLTK是否使用本文中的算法来查找n元语法？像往常一样，非常感谢你。

浏览 14提问于2020-01-11得票数 0

2回答

如何使用wordnet来发现两个网页之间的语义关系？

、、

我在谷歌上搜索了一下，发现了一个叫做WordNet (一个大型词法数据库)的东西。我想知道如何使用python和WordNet来实现这一点？

浏览 0提问于2011-05-27得票数 0

回答已采纳

1回答

TF-以色列国防军:如何处理不属于语料库的术语

我正在开发一个基于ML.Net的特性，使用TD-以色列国防军从文档语料库中提取关键字。Given这个测试语料库(每行一个文档)：the number of times n-gram occured in the

浏览 0提问于2019-09-09得票数 0

1回答

在Python中计算n元语法的点式互信息(PMI)得分

、

我有一个庞大的n-gram语料库和几个外部n-gram。我想根据这个语料库(计数)计算每个外部n-gram的PMI分数。问题是我的n-gram是2-gram、3-gram、4-gram和5-gram。因此，计算3-gram或更多的概率真的很耗时。

浏览 0提问于2011-03-08得票数 4

回答已采纳

1回答

在keras中结合使用Gensim Fasttext模型和LSTM nn

、、、、

我已经用Gensim在非常短的句子(最多10个单词)语料库上训练了快速文本模型。我知道我的测试集中包含不在我的训练语料库中的单词，即我的语料库中的一些单词，如“催产素”、“来曲霉素”、"Ematrophin“、”Betaxitocin“。给定测试集中的一个新词，fasttext非常清楚地知道通过使用字符级n-gram来生成与训练集中的其他相似词具有很高余弦相似度的向量如何将快速文本模型合并到LSTM keras网络中，而不会将快速文本模型丢失为词汇中的一个向量列表

浏览 25提问于2020-07-06得票数 4

回答已采纳

2回答

命名实体识别数据和功能

、

我正在构建一个具有条件随机字段的命名实体识别器，并寻找两个东西：B)英语NER功能列表我已经查看了CoNLL-2003语料库，发现这正是我想要的，

浏览 1提问于2013-02-24得票数 5

1回答

在使用Word2vec时，如何从看不见的单词语料库中获得结果？

、

“橙色”在这个语料库中是看不见的单词，但当我输入它作为输入时，我想要瓜、苹果、香蕉作为结果。这是可能的情况吗？

浏览 0提问于2020-03-06得票数 0

1回答

如何应用培训文档中的术语--术语矩阵( dtm ) --测试dtm(既包括unigram，也包括bigram)？

、、、、

我正在训练一种简单的文本分类方法，对1,000个训练样本进行分类，并对未见的测试数据(约500,000次观察)进行预测。 UnigramTokenizer <- function(x) unlist(lapply(NLP::ngrams(words(x), 1), paste, collapse = " "),

浏览 0提问于2018-09-06得票数 0

回答已采纳

2回答

使用R和Quanteda在大型语料库上计算n-gram

、、、

我正在尝试使用强大的Quanteda包从一个大的文本语料库(对象大小约为1 1Gb的R)构建n-gram。如果我将数据分成几个片段，代码可以工作，我得到了不同大小的n-gram的(部分) dfm，但是当我试图在整个语料库上运行代码时，不幸的是，我遇到了这个语料库大小的内存限制，并得到了以下错误(unigramunique.default(allFeatures) :更糟糕的是，如果我

浏览 0提问于2016-03-29得票数 0

2回答

N-gram文本分类类别大小差异补偿

、、、

最近，我一直在研究基于Cavnar和Trenkle的文章“基于N-Gram的文本分类”以及其他相关资源的文本分类和语言分类。另一方面，功能良好的文本分类让我望而却步。只要我可以为类别参考文档生成一些类似大小的频率配置文件，它就会工作得很好，但是当它们开始有一点太大的差异时，整个事情就会分崩离析，配置文件最短的类别最终会得到不成比例的文档数量。现在，我的问题是。这显然是因为算法假设

浏览 0提问于2011-05-17得票数 1

1回答

在Hadoop上运行UIMA作业

、

我有一个功能齐全的UIMA作业，可以做简单的注释。我可以通过本地的CAS GUI成功地启动它。有人能告诉我这里可能发生了什么吗?我们需要在UIMA代码中进行任何额外的更改吗？

浏览 0提问于2012-09-24得票数 2

1回答

缩小快速文本bin文件的大小

、

bin文件由模型和从大型维基语料库生成的预训练向量组成。有没有更小的en。版本，这将使其更容易为较低范围的机器？加载这个文件会占用太多的内存。或者，为了获得一个较小的bin文件用于快速文本，我是否应该使用较小的并行语料库来训练我自己的一组快速文本向量？

浏览 6提问于2018-07-19得票数 1

2回答

存储ngram模型python

、、、、

尽管如此，我还是避免了使用NLTK，但是面对的是拥有足够大语料库的MemoryError (词汇量约为50000，三元组的数量约为440000 -我使用了标准的python字典，并在尝试使用numpy数组将所有单词

浏览 0提问于2017-07-23得票数 3

2回答

N-gram:解释+2个应用

、、、

哪种类型的n-gram更适合大多数用途？词级还是字符级n-gram？如何在PHP中实现n-gram-tokenizer？句子：“我住在纽约。”此外，我想了解更多关于n-gram可以做什么的信息：如何使用n元语法识别文本的语言？即使没有双语语料库，也可以使用n元语法进行机器翻译吗？如何构建垃圾邮件过滤器(垃圾邮件、火腿)？将n-gram与贝叶斯过滤器相结合？如何进行主题定位？例如:是

浏览 35提问于2009-06-23得票数 18

回答已采纳

1回答

如何比较语料库的复杂性？

、

我想比较一下我的三个语料库有多复杂(多变或可预测)。它们来自不同的主题，所以有些词汇是不同的，有些是相同的。查看其中一个数据集，很明显，语法比其他两个更难，句子更长，等等。我使用SRILM工具包(我是语言建模的新手)构建了word N-Gram语言模型，我的想法是可以比较这些模型。关于语言模型，提到的一个衡量标准是困惑。我对以下问题感到困惑:我是否可以直接使用这三个LMs的困惑程度来衡量语料库的多样性？词汇量和语料库的大小不同，所以现在我认为这不是一个很好的比较。我也从词性标签构建了LMs，但词性标记结果

浏览 3提问于2015-01-16得票数 3

1回答