比较数据帧中的单词，并计算每个对的最大单词长度的矩阵_查找并比较字符串中单个单词的长度_比较数据库中的单词并输出结果 - 腾讯云开发者社区

、、、、

我有一个包含许多独特单词的数据帧。我想在R中创建代码，其中每个单词将与所有单词进行比较，并创建一个矩阵，其长度为每对单词中最大的单词的长度。为了更全面，让我们考虑下面的例子。test <- c("hello", "hi", &q

浏览 26提问于2019-07-03得票数 5

回答已采纳

2回答

有没有办法在r中的单词矩阵中按长度过滤单词？

我已经在R中创建了一个矩阵(称为bag_of_words)，我需要计算前100个最受欢迎的单词(最常出现的单词)，但要按长度(分钟)过滤标记。size= 4和最大大小= 20)，并指示单词的总出现次数。我已经创建了代码来查找前100个单词，没有这个过滤器，它工作，但找不到一种方法来过滤矩阵中的单词</e

浏览 0提问于2020-04-01得票数 0

1回答

Word2Vec / Doc2Vec -地图上的加班语转换

、

我有10年的文本数据，我希望每年对文本数据运行一个Word2Vec模型，并计算单词之间的距离，我想比较它们随时间的变化。我可以计算

浏览 0提问于2019-07-13得票数 1

1回答

在一元语言模型中计算的概率是多少？

、、、、

我创建了一个用于句子补全实现的unigram语言模型。我有所有单词和它们的出现次数。或者我将每

浏览 3提问于2016-05-01得票数 1

1回答

我有一个使用OCR从图像中提取的文本。案文中的一些词语没有得到正确的识别，具体如下： ‘'DRDER 0F OFF1CE RESTAURAUT，QNE THO.’从光学的角度看，有些字符是很容易混合的:1 -> I，O -> D -> Q，H -> W，U -> N等。问:除了像Levenshtein距离这样的标准算法之外，是否有一个Java或Python库实现了OCR特定的算法，可以帮助将单词与预定义的

浏览 1提问于2018-08-22得票数 1

1回答

计算单词列表之间的逆汉明距离

、

我想找出一个单词列表中每个单词中相同位置的相同字符的数量。因此，例如，最终结果将是列表中与其他单词比较的单词矩阵，它显示了两个单词之间的反向汉明距离，如下所示：给定hamm_dist(a,b) = hamm_dist(b,a)，我只需要计算对角线的右边有没有更有效的方

浏览 5提问于2015-12-04得票数 1

1回答

一个简单的基本Python3问题，我不明白

、、

问题：函数接受一个输入参数，我们假设它是一个字符串列表，每个字符串形成一个英语单词。输出应该是列表中的一个单词，它的字母数量最多。必须使用for循环来编写此函数。它接受列表中的第一个值，并保存输入单词的长度。然而，我不明白其余的代码。如何<

浏览 3提问于2020-03-07得票数 0

1回答

python中的文本内容分析器

、、

我在python中创建了一个文本内容分析器，它分析来自文件和输出的输入。总字数 import reimport os returnnb_sentence += 1 main() 我现在试着计算单

浏览 6提问于2015-11-28得票数 0

1回答

潜在语义分析在主题发现中的应用

、、

我正在学习潜在语义分析(LSA)，并且能够构造术语文档矩阵并找到它的SVD分解。我怎样才能从分解中得到主题？例如，在gensim中： topic #0(332.762): 0.425*"utc" + 0.299*"talk" + 0.293*"page" + 0.226*"article" + 0.224*"

浏览 1提问于2014-01-29得票数 2

回答已采纳

2回答

将句子串拆成子串=<最长单个单词的长度

、、、、

我是一个新手，有一堆数据字符串(句子)。我尝试将每个句子分成子字符串，其中每个字符串的长度不超过该句子中最长的单个单词的长度，并为该句子返回原始序列中的所有单词，并使用换行(Photoshop回车，"\r")分隔子字符串。每个字符串中的单词没有连字符(只有完整的</

浏览 1提问于2015-08-16得票数 2

1回答

创建行和列条目的匹配，以使值最大化

、、

假设我们有以下单词的列表："apple"，"banana"，"cookie"，"donut"，"ear"，"force“进一步假设我们有一个文本数据集，其中包括这些单词。在某个时刻，我计算了一个同频矩阵，也就是每个单词组合的矩阵所有文件中单词组合在一起的频

浏览 10提问于2020-07-17得票数 0

2回答

具有大列表的高性能坏字筛选器(PHP/MySQL/JS)

、、、、

我目前正在开发一个web表单，允许用户在某种媒体中发布要处理的消息。由于我们必须验证输入并根据给定的坏话列表解析输入，因此我选择了许多选项。但是，随着名单的到来，我想知道如何处理这些最有效的方法，并持有大约1.5万个单词。也许你能帮我！基本上，这可以是一个后端过滤器，但是在javascript中需要额外的前端审批(万一，可能是对后端的异步ajax请求？)。该表单将在高流量环境中使用，提交后的

浏览 5提问于2015-06-23得票数 2

回答已采纳

4回答

在列表中查找不常见的长度

我需要找出哪些行的长度不同，但我的代码是说，所有不像最常见的单词的行都是不常见的长度，即使它们确实是相同的长度。这是我的代码。

浏览 7提问于2016-04-27得票数 0

3回答

在矩阵中查找有效单词

给定一个单词字典、两个Is_word(string) Is_prefix(string)和一个NxN矩阵，每个位置由一个字符组成。如果从任何位置(i，j)都可以在四个方向中的任何一个方向移动，则找出矩阵中可以形成的所有有效单词。(不允许循环，即如果从(i，j)开始并移动到(i-1，j)，则不能从这个位置返回到(i，j)) 我尝试的是:我可以看到一个指数解决方案，我们可以遍历所有的可能性，并<

浏览 6提问于2012-07-13得票数 2

1回答

使用平衡BST查找时间复杂度的字典

、、、

我在中读了一篇关于如何使用平衡BST实现字典的文章，并发现了这一行：如果将密钥存储在二叉树中，则良好平衡的BST将需要与M* log N成正比的时间，其中M是最大字符串长度，N是树中的键数。我不明白这怎么会是O(M*logn)，考虑到平衡的BST总是保持O(logn)的最大高度，这不是(logn)吗？

浏览 2提问于2022-01-31得票数 0

回答已采纳

2回答

使用R中的for循环将项与同一变量中的所有其他项进行比较

、

我想创建一个数据矩阵，将儿童对某个单词标记的生成与他们对其他单词标记的生成进行比较。因此，例如，在下面的示例数据集中，我希望将行1中的"tedi“与Actual列中的每个表单进行比较。，下面的values中，我为每个单词中

浏览 44提问于2019-09-19得票数 0

2回答

索引不匹配的数量，使用Keras LSTM

、、

model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=5, batch_size=128)我想我计算vocabulary_dimension的<

浏览 0提问于2018-09-27得票数 0

1回答

CBOW与建立PMI矩阵并利用PCA进行降阶有何不同？

、、

基于主成分分析(PCA)的PMI矩阵和约简:根据两个单词出现在一起的次数(在某个预定义的窗口中)，以及单个词的频率，构建PMI矩阵。然后利用PCA对其进行约简，得到语料库中每个词的密集表示，从而能够捕捉到文本的一些语义。 CBOW:通过神经网络学习单词表示，其最终目标是最大限度地提高正确单词对的</em

浏览 0提问于2021-08-22得票数 0

4回答

从字符串中提取每个单词

、

我试图计算字符串中的单词数，查找字符串中每个单词的长度，然后仅使用String类确定字符串中最大的单词。我不能用数组。有人知道从字符串中提取每个单词的方法吗？

浏览 6提问于2013-10-02得票数 1

回答已采纳

2回答

如何计算大型稀疏概率矩阵的列信息熵

、、、

稀疏矩阵的形状约为2000000 x 170000 (即:语料库词汇中的170k个单词)。我没有处理稀疏矩阵的经验，但我已经成功地对它进行了简单的计算，比如计算整个语料库中每个单词的方差，因为它涉及到简单的均值和平方运算矩阵。我现在遇到的问题是，我不知道如何有效地计

浏览 66提问于2021-05-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云