高效地迭代字符串列表以获得成对的WMD距离矩阵

WMD（Word Mover's Distance）是一种用于衡量两个文本之间相似度的方法。要高效地迭代字符串列表以获得成对的WMD距离矩阵，可以使用Python中的gensim库来计算WMD距离，并利用NumPy来构建距离矩阵。以下是一个示例代码：

首先，确保安装了gensim和numpy库：

pip install gensim numpy

然后，使用以下代码计算字符串列表中成对的WMD距离矩阵：

import numpy as np
from gensim.models import Word2Vec
from gensim.models.keyedvectors import KeyedVectors
from nltk.tokenize import word_tokenize
from scipy.spatial.distance import cosine

# 假设你已经有了一个预训练的Word2Vec模型或者词向量文件
# model = Word2Vec.load("your_pretrained_model")
# 或者加载词向量文件
model = KeyedVectors.load_word2vec_format('path_to_word2vec_file', binary=True)

# 示例字符串列表
string_list = [
    "This is a sample sentence.",
    "Another example sentence.",
    "Yet another sentence for testing."
]

def preprocess(text):
    return [word for word in word_tokenize(text.lower()) if word in model.wv]

def wmd_distance(s1, s2):
    s1 = preprocess(s1)
    s2 = preprocess(s2)
    distance = model.wmdistance(s1, s2)
    return distance

n = len(string_list)
distance_matrix = np.zeros((n, n))

for i in range(n):
    for j in range(i + 1, n):
        distance_matrix[i, j] = wmd_distance(string_list[i], string_list[j])
        distance_matrix[j, i] = distance_matrix[i, j]  # WMD距离是对称的

print(distance_matrix)

这段代码首先加载了一个预训练的Word2Vec模型，然后定义了一个预处理函数preprocess来分词并将单词转换为小写，同时过滤掉不在模型词汇表中的词。wmd_distance函数计算两个预处理后的句子之间的WMD距离。最后，使用两个嵌套循环迭代字符串列表中的所有字符串对，并计算它们之间的WMD距离，将结果存储在一个NumPy数组中。

请注意，这个示例假设你已经有了一个预训练的Word2Vec模型或者词向量文件。如果没有，你需要先训练一个模型或者下载一个预训练的模型。此外，WMD计算可能非常耗时，特别是在处理大型数据集时，因此可能需要考虑并行化或其他优化策略。

页面内容是否对你有帮助？

有帮助

没帮助

高效地迭代字符串列表以获得成对的WMD距离矩阵

、、、、

我正在尝试从列表字符串(报纸文章)生成一个成对距离矩阵。在scipy.spatial.distance.pdist中没有实现WMD距离，所以我将这个实现挂接到SpaCy上：。但是，我不知道如何遍历我的列表来生成距离矩阵。

浏览 11提问于2019-07-09得票数 0

回答已采纳

1回答

迭代地从两个矩阵中选择行，并在R中执行函数

、、、

另一种选择是创建一个矩阵，其中每行表示一个分布，这样该函数将计算矩阵中所有分布之间的所有成对距离：我有两个相关矩阵两个矩阵的行数相同，我的目标是迭代地比较矩阵a的第一行与矩阵b的第一行，第二个a行与第二个b行，依此类推

浏览 9提问于2019-08-01得票数 0

2回答

如何在两个矩阵之间找到最近的两点？

、、、、

我需要找到X，Y和X_inv，Y_inv之间最近的两个点。从现在开始非常感谢。

浏览 3提问于2015-11-29得票数 2

回答已采纳

1回答

如何在没有内存错误的情况下迭代pandas数据帧

、、、

我有一个140K行的csv文件。使用pandas库。现在的问题是，我必须将每一行与其他行进行比较。现在的问题是它花费了太多的时间。X 1 5 现在，我需要找出每一行与其他行的距离，如果距离在某个阈值内，我将为这两行指定一个新的id，这两行位于某个距离内。因此，如果在我的例子中，ID1和ID2在一定距离内，我为这两个都分配了a。ID 2和ID X在一定距离</

浏览 1提问于2021-09-29得票数 0

1回答

使瓶颈距离矩阵的并行计算更加有效

、、、

我试图为我拥有的对象集合(持久化图)以成对的方式计算某种距离度量(在包TDA中称为瓶颈距离)。我需要在很多核上以并行的方式来做这件事，因为这是相当高的计算量。我编写了这个并行化循环函数来计算成对的距离，并将它们放在一个矩阵中(使用foreach包及其并行化功能)： CreateBottleneckDistanceMatrixParallel <- functionforeac

浏览 5提问于2022-11-05得票数 0

1回答

R中的成对环

、

我在R中有下面的玩具矩阵(为了演示目的)我正在尝试执行一个for循环，以获得所有的成对元素。我的结果应该是：换言之，成对的要素是：(m[1,1],m[[1,2])(m[2,1],m[

浏览 4提问于2022-08-04得票数 -1

1回答

从多个输入矩阵构造R中的距离矩阵

、

proxy R包具有扩展stats:dist的dist函数(是的，同名)：它具有参数method，用户可以从中传递函数、注册表项或引用邻近度量的助记符字符串。这里是我的问题：我还想为输入矩阵x计算一个距离矩阵(即行是观察的，我想得到x行之间的成对距离)。然而，我用于计算距离x的函数并不仅仅依赖于输入矩阵，而是实际上依赖于从 x.导出的</

浏览 5提问于2013-10-02得票数 2

回答已采纳

2回答

计算250 k表成对相似度的最有效方法

、

我有250,000个列表，平均每个包含100个字符串，存储在10个字典中。我需要计算所有列表的成对相似性(这里的相似性度量与此无关；但简单地说，它涉及到两个列表的交集，并以某种常量对结果进行规范化)。我为成对比较而提出的代码非常简单。我只是使用itertools.product来比较每个列表和其他列表。问题是以一种高效的方式在

浏览 3提问于2013-01-10得票数 10

回答已采纳

2回答

给定每天只有事件ID标签(字母字符串)的事件序列，什么算法可以用来检测异常值序列？

、、、、

在数据集中，每天都会有数千个这样的序列。如何计算具有这样标签序列的序列之间的相似性(或差异)度量？如果是这样的话，我将如何在Python中做到这一点？举个例子？我很感激你的意见。

浏览 0提问于2022-03-31得票数 1

回答已采纳

2回答

基于余弦相似度的多文档聚类的数学方法

、、、、

余弦相似度:通常用于两个文档之间的比较。它测量两个向量之间的角度。如果该值为零，则两个向量之间的角度为90度，并且它们不共享任何项。如果该值为1，则除了幅值之外，这两个向量是相同的。余弦用于数据稀疏、不对称且存在缺乏特征的相似性时。我知道如何获取两个文档的余弦，但是如何获取更多的文档？我想要数学方法。

浏览 1提问于2012-12-19得票数 3

2回答

如何加快Word Mover在数据帧中文本上的距离计算？

、、

我想计算单词mover在所有消息之间的距离。，并且在较大的数据集上是不可行的。我已经研究了多处理，但我需要在数据帧中获得结果。 return [base_model.wv.wmdistance(p1, p2) for p2 in data[col].str.split()for p1 in data[col].str.split()

浏览 8提问于2021-09-22得票数 2

3回答

如何对列表中的二维数组对求和

、

我需要一个很好的解决方案来求和成对的二维向量。 def calcDistance(a, b): return d 但我不知道如何将它应用于列表，以获得每一

浏览 4提问于2019-10-31得票数 1

1回答

根据R中的跳数提前终止的成对Dijkstra

我正在寻找计算和存储器最友好的方法来计算由R中的成对Dijkstra算法获得的距离矩阵D的特定条目。更准确地说，如果节点i和节点j之间的跳数(未加权)距离至多是特定整数k (Di，j本身可以计算为其跳数可能大于k的加权最短路径长度)，则我仅需要Di，j。D应编码为稀疏矩阵以提高内存效率。我想知道是否已经在这方面做了一些工作，或者是否有一种有效<e

浏览 13提问于2019-06-04得票数 0

回答已采纳

5回答

numpy中不同形状的高效乘法矩阵

、、、

我有两个矩阵A和B： >>>A[1,1,1]][2, 3] 我想高效地将它们相乘，以获得这样的结果： >>> A*B[3,3,3]] 我正在寻找一种比在循环中迭代更有效的解决方案

浏览 49提问于2018-08-10得票数 2

回答已采纳

1回答

我正在建立一个递归神经网络，其中我有一个时间序列的特征向量(N X D)，其中N列中的每一列都对应于一个“事件”。我得到了事件坐标在另一个N×3矩阵中的演变。我不是简单地向网络提供(N x D+ 3)矩阵，而是想要构建一个事件图，以便也利用图卷积。对于单事件分类的情况，我已经建立了一种方法来构造N个事件坐标的密集邻接矩阵。这涉及到计算N个坐标中每个坐标的成对距离并应用高斯核。更准确地说，我是根据这

浏览 32提问于2019-05-11得票数 0

1回答

熊猫:将距离矩阵转换成字典，其中的元素按邻近度排序。

、、

我有矩阵，每一点之间的距离3 1.6 4.9 0 .. 2.7n 7.8 .. .. .. 0 2: [n,..,1,3], ..我应该迭代</

浏览 0提问于2018-06-22得票数 4

回答已采纳

2回答

寻找快速计算多个字符串的成对距离的方法

、

我有一个包含大约100万个唯一的16个字符的字符串的列表(一个名为VEC的数组)，我想用Python计算每个字符串的最小成对汉明距离(一个名为RES的数组)。基本上，我一次一行地计算完整的成对距离矩阵，但只将每行的最小值存储在RES中。只需10,000秒，但如果我将其外推到完整的</e

浏览 3提问于2013-01-21得票数 0

2回答

或工具-创建距离矩阵

、

我正在使用谷歌或工具，以解决有能力的车辆路线问题与皮卡和交付。我正在从MSSQL数据库中导入距离矩阵，并且很难写出距离矩阵。CFRORFC2207-003940 CFRC21085782A8615004我们在数据库中也有时间和距离，因此将矩阵表述为：我只是挣扎着看看如何按照的要求将其输出到距离和时间矩阵。以下是我草拟的

浏览 4提问于2022-07-20得票数 1

回答已采纳

1回答

R:是否有一种简单而有效的方法来获取块对角矩阵的构造块矩阵列表？

、

我正在寻找一个(内置)函数，它以以下方式高效地返回块对角线矩阵的构建块列表(而不是在插槽上迭代以手动获取列表)：library("Matrix")[1,] 1 3 [,1] [,2][2,] 6 8 编辑：关于我的用

浏览 5提问于2014-11-06得票数 3

回答已采纳

2回答

矢量化为每一栏寻找最小指数的方法(不包括所有已找到的索引)

、、

3.833333 3.055556 inf 4.833333这是修改后的距离矩阵，表示对象'a‘、'b’、'c‘、'd’、'e‘之间的成对距离，其中每一行被一个系数(权重)除以，所有对角元素人工设置为np.inf。如何以一种高效(向量化)的方式获得如

浏览 0提问于2018-03-22得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

高效地迭代字符串列表以获得成对的WMD距离矩阵

相关·内容

高效地迭代字符串列表以获得成对的WMD距离矩阵

迭代地从两个矩阵中选择行，并在R中执行函数

如何在两个矩阵之间找到最近的两点？

如何在没有内存错误的情况下迭代pandas数据帧

使瓶颈距离矩阵的并行计算更加有效

R中的成对环

从多个输入矩阵构造R中的距离矩阵

计算250 k表成对相似度的最有效方法

给定每天只有事件ID标签(字母字符串)的事件序列，什么算法可以用来检测异常值序列？

基于余弦相似度的多文档聚类的数学方法

如何加快Word Mover在数据帧中文本上的距离计算？

如何对列表中的二维数组对求和

根据R中的跳数提前终止的成对Dijkstra

numpy中不同形状的高效乘法矩阵

计算矩阵序列中的成对距离

熊猫:将距离矩阵转换成字典，其中的元素按邻近度排序。

寻找快速计算多个字符串的成对距离的方法

或工具-创建距离矩阵

R:是否有一种简单而有效的方法来获取块对角矩阵的构造块矩阵列表？

矢量化为每一栏寻找最小指数的方法(不包括所有已找到的索引)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐