腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9216)
视频
沙龙
1
回答
有没有更有效的方法来找到最常见的
n-gram
?
、
、
我试图从一个
大型
语料库
中找到k个最常见的
n-gram
。我已经看到很多地方建议使用天真的方法--简单地扫描整个
语料库
,并保留一个包含所有
n-gram
计数的字典。有没有更好的方法来做这件事?
浏览 1
提问于2017-02-22
得票数 11
1
回答
有效编辑距离
、
、
、
、
我有一个很大的
语料库
,我试图在
语料库
中找到最相似的
n-gram
。在这种情况下,我使用。 问题是这个过程需要很长时间。一位朋友建议我将
n-gram
转换为MD5,然后计算距离。我怀疑它会起作用。在
大型
语料库
中,计算字符串(如
n-gram
)之间距离的最有效方法是什么?
浏览 17
提问于2020-06-09
得票数 2
1
回答
从
大型
语料库
生成
n-gram
、
、
、
、
我正在使用wikipidia
语料库
(17G)和python语言来获取
n-gram
模型。
浏览 12
提问于2021-04-02
得票数 0
1
回答
在NLTK中寻找
n-gram
背后的思想或算法是什么?
、
、
、
我正在使用Python NLTK包
从
我的
语料库
生成
2-gram和3-gram。但我找不到NLTK如何
从
语料库
中
生成
它们。,但我想知道是否有其他算法来寻找
n-gram
。NLTK是否使用本文中的算法来查找n元语法? 像往常一样,非常感谢你。
浏览 14
提问于2020-01-11
得票数 0
2
回答
如何使用wordnet来发现两个网页之间的语义关系?
、
、
我在谷歌上搜索了一下,发现了一个叫做WordNet (一个
大型
词法数据库)的东西。我想知道如何使用python和WordNet来实现这一点?
浏览 0
提问于2011-05-27
得票数 0
回答已采纳
1
回答
TF-以色列国防军:如何处理不属于
语料库
的术语
我正在开发一个基于ML.Net的特性,使用TD-以色列国防军
从
文档
语料库
中提取关键字。Given这个测试
语料库
(每行一个文档):the number of times
n-gram
occured in the
浏览 0
提问于2019-09-09
得票数 0
1
回答
在Python中计算n元语法的点式互信息(PMI)得分
、
我有一个庞大的
n-gram
语料库
和几个外部
n-gram
。我想根据这个
语料库
(计数)计算每个外部
n-gram
的PMI分数。问题是我的
n-gram
是2-gram、3-gram、4-gram和5-gram。因此,计算3-gram或更多的概率真的很耗时。
浏览 0
提问于2011-03-08
得票数 4
回答已采纳
1
回答
在keras中结合使用Gensim Fasttext模型和LSTM nn
、
、
、
、
我已经用Gensim在非常短的句子(最多10个单词)
语料库
上训练了快速文本模型。我知道我的测试集中包含不在我的训练
语料库
中的单词,即我的
语料库
中的一些单词,如“催产素”、“来曲霉素”、"Ematrophin“、”Betaxitocin“。给定测试集中的一个新词,fasttext非常清楚地知道通过使用字符级
n-gram
来
生成
与训练集中的其他相似词具有很高余弦相似度的向量 如何将快速文本模型合并到LSTM keras网络中,而不会将快速文本模型丢失为词汇中的一个向量列表
浏览 25
提问于2020-07-06
得票数 4
回答已采纳
2
回答
命名实体识别数据和功能
、
我正在构建一个具有条件随机字段的命名实体识别器,并寻找两个东西:B)英语NER功能列表 我已经查看了CoNLL-2003
语料库
,发现这正是我想要的,
浏览 1
提问于2013-02-24
得票数 5
1
回答
在使用Word2vec时,如何
从
看不见的单词
语料库
中获得结果?
、
“橙色”在这个
语料库
中是看不见的单词,但当我输入它作为输入时,我想要瓜、苹果、香蕉作为结果。 这是可能的情况吗?
浏览 0
提问于2020-03-06
得票数 0
1
回答
如何应用培训文档中的术语--术语矩阵( dtm ) --测试dtm(既包括unigram,也包括bigram)?
、
、
、
、
我正在训练一种简单的文本分类方法,对1,000个训练样本进行分类,并对未见的测试数据(约500,000次观察)进行预测。 UnigramTokenizer <- function(x) unlist(lapply(NLP::ngrams(words(x), 1), paste, collapse = " "),
浏览 0
提问于2018-09-06
得票数 0
回答已采纳
2
回答
使用R和Quanteda在
大型
语料库
上计算
n-gram
、
、
、
我正在尝试使用强大的Quanteda包从一个大的文本
语料库
(对象大小约为1 1Gb的R)构建
n-gram
。如果我将数据分成几个片段,代码可以工作,我得到了不同大小的
n-gram
的(部分) dfm,但是当我试图在整个
语料库
上运行代码时,不幸的是,我遇到了这个
语料库
大小的内存限制,并得到了以下错误(unigramunique.default(allFeatures) :更糟糕的是,如果我
浏览 0
提问于2016-03-29
得票数 0
2
回答
N-gram
文本分类类别大小差异补偿
、
、
、
最近,我一直在研究基于Cavnar和Trenkle的文章“基于
N-Gram
的文本分类”以及其他相关资源的文本分类和语言分类。另一方面,功能良好的文本分类让我望而却步。只要我可以为类别参考文档
生成
一些类似大小的频率配置文件,它就会工作得很好,但是当它们开始有一点太大的差异时,整个事情就会分崩离析,配置文件最短的类别最终会得到不成比例的文档数量。 现在,我的问题是。这显然是因为算法假设
浏览 0
提问于2011-05-17
得票数 1
1
回答
在Hadoop上运行UIMA作业
、
我有一个功能齐全的UIMA作业,可以做简单的注释。我可以通过本地的CAS GUI成功地启动它。有人能告诉我这里可能发生了什么吗?我们需要在UIMA代码中进行任何额外的更改吗?
浏览 0
提问于2012-09-24
得票数 2
1
回答
缩小快速文本bin文件的大小
、
bin文件由模型和
从
大型
维基
语料库
生成
的预训练向量组成。有没有更小的en。版本,这将使其更容易为较低范围的机器?加载这个文件会占用太多的内存。或者,为了获得一个较小的bin文件用于快速文本,我是否应该使用较小的并行
语料库
来训练我自己的一组快速文本向量?
浏览 6
提问于2018-07-19
得票数 1
2
回答
存储ngram模型python
、
、
、
、
尽管如此,我还是避免了使用NLTK,但是面对的是拥有足够大
语料库
的MemoryError (词汇量约为50000,三元组的数量约为440000 -我使用了标准的python字典,并在尝试使用numpy数组将所有单词
浏览 0
提问于2017-07-23
得票数 3
2
回答
N-gram
:解释+2个应用
、
、
、
哪种类型的
n-gram
更适合大多数用途?词级还是字符级
n-gram
?如何在PHP中实现n-gram-tokenizer? 句子:“我住在纽约。”此外,我想了解更多关于
n-gram
可以做什么的信息: 如何使用n元语法识别文本的语言?即使没有双语
语料库
,也可以使用n元语法进行机器翻译吗?如何构建垃圾邮件过滤器(垃圾邮件、火腿)?将
n-gram
与贝叶斯过滤器相结合?如何进行主题定位?例如:是
浏览 35
提问于2009-06-23
得票数 18
回答已采纳
1
回答
如何比较
语料库
的复杂性?
、
我想比较一下我的三个
语料库
有多复杂(多变或可预测)。它们来自不同的主题,所以有些词汇是不同的,有些是相同的。查看其中一个数据集,很明显,语法比其他两个更难,句子更长,等等。我使用SRILM工具包(我是语言建模的新手)构建了word
N-Gram
语言模型,我的想法是可以比较这些模型。关于语言模型,提到的一个衡量标准是困惑。我对以下问题感到困惑:我是否可以直接使用这三个LMs的困惑程度来衡量
语料库
的多样性?词汇量和
语料库
的大小不同,所以现在我认为这不是一个很好的比较。我也
从
词性标签构建了LMs,但词性标记结果
浏览 3
提问于2015-01-16
得票数 3
1
回答
扫描
大型
文本
语料库
,统计词汇表中的短语
、
、
我需要扫描大约150万个文本文档的
语料库
,并将长度在1到4之间的任何一组单词与大约180万个短语的词汇表进行匹配。
从
每个文本文件中提取单词
n-gram
不是问题,而且速度很快;瓶颈在于对词汇表的检查。
浏览 0
提问于2013-03-28
得票数 0
回答已采纳
1
回答
internet上的通用子字符串
、
、
、
有没有办法找出互联网上所有文档(更重要的是html)中出现的最常见的不是英文单词的子串(统计上有意义的样本也会很好),有没有可能得到一些近似,例如"corp“可能是一个候选单词,因为它不是一个完整的英文单词,但" the”不可能是候选单词,因为它们本身就是完整的英文单词。
浏览 1
提问于2014-04-23
得票数 1
点击加载更多
相关
资讯
欧盟要求大型科技公司标记 AI 生成内容
从 VSCode 看大型 IDE 技术架构
Chinese Word Vectors:目前最全的中文预训练词向量集合
欧盟要求大型科技公司标记AI生成内容
目前最全的中文预训练词向量集合,NLP“pick”一下?
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券