Scipy:稀疏相似度与阈值的epsilon邻域

machine-learning、scikit-learn、cluster-analysis、data-mining、dbscan

我正在尝试使用scikit-learn对文本文档进行聚类。总体而言，我找到了自己的方式，但我在具体问题上遇到了问题。我找到的大多数示例都说明了使用scikit-learn和k-means作为聚类算法进行聚类。原则上，在我的设置中采用k-means的这些例子是可行的。但是，k-means并不合适，因为我不知道聚类的数量。从我目前所读到的--如果需要，请在这里纠正我-- DBSCAN或MeanShift似乎更适合我的情况。scikit-learn网站提供了每个集群算法的示例。现在的问题是，对于DBSCAN和MeanShift，我都得到了我无法理解的错误，更不用说解决了。我的最小代码如下： doc

浏览 3提问于2014-08-09得票数 22

回答已采纳

1回答

如何研究eps在sklearn.cluster.DBSCAN中的作用？

machine-learning、clustering、dbscan

我在这个问题上发布了stackoverflow.com，但没有收到任何答复。如果我从其中一个得到答复，我会通知另一个。我有一个数据集，我的教授要求我研究eps在sklearn.cluster import DBSCAN中的作用？你能提出一些衡量它的效果的方法吗？我生成了eps = np.arange(start = .1, stop = 1, step = .1)，但我不知道应该比较什么。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import D

浏览 0提问于2020-11-02得票数 0

回答已采纳

1回答

用于稀疏矩阵计算的枕木还是熊猫？

python、numpy、matrix、pandas

我必须计算稀疏矩阵中向量之间的大量相似计算。当前用于此任务的最佳工具scipy-sparse或pandas是什么？

浏览 5提问于2013-10-04得票数 2

1回答

python、numpy、scipy、distance、similarity

我想知道scipy是否提供了实现epsilon邻域搜索的原始但内存友好的方法的选项：计算我的数据的成对相似度，但将所有小于阈值epsilon的相似度即时设置为零，然后将结果直接输出为稀疏矩阵。例如，scipy.spatial.distance.pdist()确实很快，但与我的时间限制相比，内存限制提前达到了，至少在我使用squareform()的时候是这样。我知道在这种情况下有O(n*log(n))个解，但就目前而言，如果结果是稀疏的，就足够了。显然，我必须使用相似度而不是距离，但这不应该是一个大问题。

浏览 36提问于2019-02-13得票数 1

1回答

Scipy稀疏矩阵在余弦相似性方面不能有效地存储

python、scipy、out-of-memory、sparse-matrix

我正在尝试使用scipy稀疏矩阵实现余弦相似度，因为我在使用正常矩阵(非稀疏)时遇到了内存错误。然而，我注意到当输入矩阵(观察值)较大时，稀疏和非稀疏矩阵的余弦相似度的内存大小(以字节为单位)几乎相同。我是不是做错了什么，或者，有没有办法解决这个问题？这里的代码中，输入有5%为1，95%为0。 import numpy as np from sklearn.metrics.pairwise import cosine_similarity from scipy import sparse A = np.random.rand(10000, 1000)<.05 A_sparse = spa

浏览 0提问于2018-12-10得票数 1

1回答

理解并解释建议

r、recommendation-engine

我正在尝试使用推荐实验室来构建一个UBCF并生成推荐。这个过程是可以的，预测似乎是有意义的。我需要的是向我的同行(商业和营销)解释为什么我要向那些用户推荐这些项目。我的代码是： library(recommenderlab) data(Jester5k) r <- sample(Jester5k, 1000) rec_ub <- Recommender(r[1:100],method="UBCF", param=list(normalize = "Z-score",method="Cosine", nn=3,minRatin

浏览 2提问于2015-02-18得票数 0

1回答

计算平均近邻度的Matlab函数

matlab、graph、mean、degrees、neighbours

我尝试在matlab中搜索一个函数，该函数给出了图的平均邻域度。在network包中的python中有一个相同的函数。所以我想知道matlab中是否有类似的函数。 ***********Edit**************** 我不能把它转换成邻接矩阵。这实际上会占用太多的空间。我有以下的边缘列表(实际上这只是一个测试矩阵..。例如，在节点2到节点1之间有一个边缘，等等。是的，这是一个无向图。 2 1 3 1 4 1 5 1 [经]1 2 3 2 4 2 1 3 2 3 5 3 [1]1 4 2 4 5 4 1 5 3 5 4 5 现在，我需要一个函数来计算这个图的平均邻域度(平均近邻度)

浏览 1提问于2014-09-07得票数 2

回答已采纳

1回答

如何计算图像的亲和度矩阵？

computer-vision、cluster-analysis、spectral

我一直在阅读关于如何计算图像的亲和力矩阵的公式，但我有点困惑。理想情况下，我希望使用颜色强度作为距离度量。我找到了这个引用：这似乎很好地解释了一般过程。我的问题是关于亲和力矩阵。在构造亲和力矩阵(我称之为A)时，他们提到对于Kxn图像，亲和力矩阵应该是KxK大小的。其他参考实现说MxN镜像的亲和力矩阵应该是(M*N) x (M*N)：哪一种是传统方法？在计算亲和力矩阵时，我想知道每个条目A(i，j)是否是邻域计算(就像3x3邻域的亲和力或整个图像中的像素)？或者我将图像线性化为一维数组。构造一个(m*n) x (m*n)矩阵(亲和力矩阵)，在迭代1维图像数组时，将亲和力函数应用

浏览 0提问于2011-04-20得票数 3

回答已采纳

2回答

当其中一个向量为全零时的余弦相似度

machine-learning、cluster-analysis、data-mining、cosine-similarity

如何表示余弦相似度( ) 当其中一个向量全为零时？ v1 = 1，1，1，1，1 v2 = 0，0，0，0，0 当我们根据经典公式计算时，我们得到除以零： Let d1 = 0 0 0 0 0 0 Let d2 = 1 1 1 1 1 1 Cosine Similarity (d1, d2) = dot(d1, d2) / ||d1|| ||d2||dot(d1, d2) = (0)*(1) + (0)*(1) + (0)*(1) + (0)*(1) + (0)*(1) + (0)*(1) = 0 ||d1|| = sqrt((0)^2 + (0)^2 + (0)^2 + (0)^2 +

浏览 0提问于2014-11-02得票数 9

回答已采纳

1回答

较小数据集相对于较大数据集的百分比

dataset、clustering

我有两个数据集，它们是多维实值向量的列表。一个数据集(称为A=\{x_1, x_2, x_3, ..., x_n\} )具有较大的大小，另一个数据集(称为B=\{x_1, x_2, x_3, ..., x_m\})。另外，另一个则要小得多，并且是更大的(B \subset A)的子集。一个较小的B，来自于一些抽样过程，我想要做的是计算，小的(从抽样中得到)的哪个部分在较大的范围内。另外，由于这些是实值向量，所以我不能逐个直接比较它们，所以可以使用聚类算法。而且，一个数据集的大小比另一个|A| >> |B|大。

浏览 0提问于2021-01-12得票数 2

1回答

机器学习:在没有先前趋势的情况下创建预测

python、tensorflow

是否有一种机器学习算法，可以在没有分组或先前分类的情况下对输入进行分类？使用5位数的数据集，用户输入一个随机的5位数( 12345 )，当12345与数据集中的东西相似时，机器能输出“更改”吗?或者当12345或任何类似的东西不存在时，输出“全新”吗？为了澄清这一点，当机器发现与12345类似的东西时，它会做一些类似的“修改”，比如只有12445的数字差，而当不存在类似的数字时，机器会输出“全新的”。

浏览 0提问于2020-11-25得票数 0

2回答

适用于极小聚类的聚类算法

cluster-analysis、data-mining、text-processing、rapidminer、dbscan

我正在尝试在一个大约有5000条记录的列表中查找重复项。每条记录都是一个人的姓名和地址，但都不一致地键入到一个字段中，所以我尝试了一种模糊匹配方法。我的方法(使用rapidminer)是对文本进行一些预处理(即标记化，删除常见和不相关的单词，如"Mr“等)，生成TF-IDF，并使用DBSCAN对匹配记录进行聚类。这是可行的，并提供了相当好的结果，但当我尝试运行完整的数据集时，需要花费很长的时间。它还会导致许多只有一个元素的集群，我不知道这对DBSCAN的计算时间有什么影响。有没有一种聚类算法可以更快地处理这类数据，或者是否有更好的方法来解决这个问题？

浏览 1提问于2012-11-26得票数 4

回答已采纳

1回答

稀疏矩阵导致分段故障退出代码139

scipy、segmentation-fault、sparse-matrix、gensim、exit-code

当使用稀疏矩阵时，它会突然杀死内核并退出代码139。使用Gensim时会发生这种情况，Gensim使用稀疏矩阵格式。当将矩阵与另一个矩阵相乘时，甚至在使用matrix.sum()时，都会发生故障。矩阵是使用scipy创建的： matrix = scipy.sparse.csc_matrix((data, indices, indptr), shape=(num_terms, num_docs), dtype=dtype)

浏览 5提问于2019-03-20得票数 0

1回答

基于matlab 26灰度的三维连通性分析

matlab、image-processing、3d

我们正在处理一个三维的灰度图像。我们收到了一个处理医学图像的练习，其中用户按下一个特定的位置，我们需要绘制26度的邻居，这些邻居的条件是它们接近所选像素颜色的10%。我们想知道matlab中是否有一个算法可以帮助解决这个问题。

浏览 7提问于2011-03-31得票数 2

1回答

如何减少语料库较大文档术语矩阵中的稀疏性(R)

我有一个包含15,000多个文本文档的语料库。removeSparseTerms函数不起作用： dtm <<DocumentTermMatrix (documents: 15095, terms: 12811)>> Non-/sparse entries: 140286/193241759 Sparsity : 100% Maximal term length: 37 Weighting : term frequency (tf) dtms <- removeSparseTerms(dtm, 0.1) dtms <

浏览 10提问于2016-07-30得票数 1

2回答

图像匹配会导致不应该出现的图像(Python教程)

python、image、opencv、template-matching

我正在使用 python示例： import cv2 import numpy as np from matplotlib import pyplot as plt img = cv2.imread('messi5.jpg',0) img2 = img.copy() template = cv2.imread('template.jpg',0) w, h = template.shape[::-1] # All the 6 methods for comparison in a list methods = ['cv2.TM_CCOEFF',

浏览 1提问于2019-01-18得票数 0

回答已采纳

1回答

在建立相似图时，是否存在平均相似度分数高的问题？

neo4j、similarity、graph-data-science

我正在Neo4j中构建一个相似图，而gds.nodeSimilarity.stats报告了一个在0.60到0.85范围内的平均相似度分数，用于我所使用的投影，不管我如何转换这个图。我试过：只投影边权重大于1的关系(删除核心节点以增加组件的数量)(我的图大约是一个主题，核心节点将topic)Changing表示为无向图)。我意识到我总是可以将similarityCutoff在gds.nodeSimilarity.write中设置为一个更高的值，但是我在反思自己，因为我用来训练的所有玩具问题，包括Neo4j的练习，都意味着Jaccard的分数低于0.5分。我是想得过头了还是有什么不对劲的迹象？

浏览 2提问于2021-11-30得票数 0

回答已采纳

1回答

如何在不返回太多行的情况下，使用PostgreSQL全文搜索返回部分短语匹配？

ruby-on-rails、postgresql、full-text-search、pg-search

我正在使用 gem在PostgreSQL中执行全文搜索，它工作得很好。但是，有些搜索在应该返回的时候没有返回任何视频结果。例如，搜索“物质状态”将返回10个结果，因为视频有一个名为“物质状态”的标签。但是“物质的三种状态”返回的结果为零。类似地，“放射性碳测年”返回1个视频，而“碳测年”不返回任何内容。下面是我如何设置我的模型： # app/models/video.rb class Video < ApplicationRecord include PgSearch::Model ... pg_search_scope(:user_search, { aga

浏览 2提问于2020-08-14得票数 1

1回答

我有一个图像区域，如何知道它的表面是否光滑？

image-processing

我有一个图像区域，如何知道它的表面是否光滑？

浏览 1提问于2010-06-12得票数 0

4回答

确定图像是否需要在OpenCV中自动对比

image-processing、opencv

OpenCV有一个方便的cvEqualizeHist()函数，它可以很好地处理褪色/低对比度图像。然而，当给出一个已经高对比度的图像时，结果是低对比度的.我知道原因-直方图分布均匀之类的。问题是-我如何知道低对比度和高对比度图像之间的区别？我正在对灰度图像进行操作，并适当地设置它们的对比度，这样阈值化就不会删除我应该提取的文本(这是一个不同的故事)。建议欢迎-特别是关于如何找出图像中的大多数像素是否为浅灰(这意味着均衡的hist将被执行)，请帮助！编辑：谢谢大家给出了很多信息丰富的答案。但是标准偏差计算对于我的需求是足够的，因此我把它作为我的查询的答案。

浏览 4提问于2011-01-10得票数 10

回答已采纳

2回答

两个矩阵之间的余弦相似度计算

python、matrix、cosine-similarity

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5

1回答

python机器学习中的关键词分配(不是关键词提取)：从哪里开始？

python、nlp

我希望使用python机器学习对一组文章进行关键字分配(而不是关键字提取)，即使用预定义列表中的关键字对文本进行分类。Google给了我大量的关键词提取结果。你能告诉我任何关于关键词分配步骤的博客或文章(更好的推荐给图书馆)吗？如屏幕截图所示(请建议如何共享CSV文件)，已经手动标记了10个现有的问题，还有一个新的第11个问题正在等待根据模式进行标记。

浏览 2提问于2022-08-04得票数 -1

回答已采纳

3回答

在Python中对稀疏矩阵执行分解

python、scipy、scikit-learn、sparse-matrix、pca

我正在尝试使用sklearn库在Python语言中将信号分解成大型稀疏矩阵中的组件(矩阵分解)。我利用scipy的scipy.sparse.csc_matrix来构建我的数据矩阵。然而，我不能进行任何分析，比如因子分析或独立成分分析。我唯一能做的就是使用truncatedSVD或scipy的scipy.sparse.linalg.svds来执行主成分分析。有没有人知道在python中对稀疏矩阵进行ICA或FA的解决方法？任何帮助都将不胜感激！谢谢。

浏览 1提问于2015-04-29得票数 2

2回答

ValueError:超出了允许的最大维度，AgglomerativeClustering fit_predict

python、scikit-learn、hierarchical-clustering

我正在尝试在一个包含100.000个对象的23维数据集上进行分层聚类。如何解决后续的错误？ >>>ac = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='complete') >>>k=hf.features_itter(hf.file) >>>k array([[49, 0, 3, ..., 0, 0, 3], [39, 1, 4, ..., 0, 0, 3], [

浏览 0提问于2019-02-04得票数 0

2回答

用户自适应过滤模型的建立

model、mahout、collaborative-filtering、mahout-recommender

我想做一种用户-用户协作过滤，其中用户-项目矩阵中的用户是数据库中整个用户的选定部分。使用新选择的用户首选项定期刷新这些选择的用户。不应将新用户添加到矩阵中。对于新用户，根据他的偏好，我们需要从用户-项目矩阵(只有一部分被选择的用户)中推荐项目。我不想将新的匿名用户添加到矩阵中。在Mahout中进行了探索，但需要一些帮助。Mahout中的推荐类有推荐(...)方法，该方法将user_id作为参数。这不是我想要的。该方法应该接受首选项，并根据模型推荐项目。如何在Mahout中实现？？我们可以使用PlusAnonymousUserDataModel吗?？如果不是mahout，还有什么工具可以做

浏览 0提问于2012-03-28得票数 1

回答已采纳

1回答

Mahout :规范化UserSimilarity距离

java、mahout

我有一个这样的模型(非Hadoop)： DataModel data = new FileDataModel(new File("file.csv")); UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel); userSimilarity.setPreferenceInferrer(new AveragingPreferenceInferrer(data)); UserNeighborhood userNeighborhood = new NearestNUserNeighbor

浏览 0提问于2012-07-30得票数 1

回答已采纳

1回答

如何匹配来自不同eCommerce来源的产品？提取产品属性

machine-learning、classification、e-commerce、text-extraction、mallet

这是我的第二个问题，所以，如果有任何错误，请道歉。我的主要目标是从不同的电子商务网站收集数据，然后比较它们之间的数据。要做到这一点，我需要匹配相同的产品从不同的网站。由于不同的站点编写标题的方式不同，我需要从标题中提取产品的属性才能正确匹配。我使用收集数据，但无法与来自不同站点的同一产品相匹配。我的尝试：首先，我收集品牌，模型等，然后以传统的方式与标题相匹配。但是它不能工作，因为它不能收集所有的模型名称进行比较。而且，不同类别的产品属性是不同的，而不是相似的。我正在努力寻找解决方案，这将适用于各种产品。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、照相机等) 我也尝试应用机器学习

浏览 0提问于2018-06-05得票数 1

回答已采纳

1回答

如何根据常用词对文本进行分类

python、pandas、nlp、nltk

这个问题是关于基于常用词的文本分类，我不知道我是否正确地处理了这个问题我有一个excel，在"Description“列中有文本，在" ID”列中有一个唯一的ID，我想迭代描述，并根据文本中常见单词的百分比或频率比较它们。我想对描述进行分类，并给它们另一个ID。请参见下面的示例…… #importing pandas as pd import pandas as pd # creating a dataframe df = pd.DataFrame({'ID': ['12 ', '54'

浏览 21提问于2019-08-22得票数 0

1回答

利用python中的networkx节点快速实现N点之间的三维距离

python、python-2.7、simulation、networkx

我一整天都在努力想办法解决这个问题，但我就是搞不清楚。目前，我正在使用现场到现场的渗流进行殖民模拟。我试着把它放大到10^6，然而，传统的numpy方法计算距离，我使用的是二次二次，所以对于如此大的运行，程序运行超过一天。我真的希望这个更快。我一直在寻找解决方案，但是我找不到任何帮助我解决这个问题的方法，因为我有一个自定义类，用于模拟。因此，我希望每个节点与所有其他节点之间的距离，如果节点在彼此的D_max内，则绘制一个边缘，允许两个节点之间的迁移。 `density = 0.14 #Stellar density per cubic parsec L = 100 Patches = i

浏览 4提问于2017-02-08得票数 0

回答已采纳

2回答

在做与Scikit匹配时的Python MemoryError -学习

python、python-2.7、numpy、scipy、scikit-learn

我正在一个24 on内存的Windows 8 64位系统上运行Python2.7(64位)。在对通常的Sklearn.linear_models.Ridge进行拟合时，代码运行良好。问题:然而，当使用Sklearn.linear_models.RidgeCV(alphas=alphas)进行拟合时，我在执行拟合过程的行rr.fit(X_train, y_train)上遇到了如下所示的MemoryError错误。如何防止此错误？代码片段 def fit(X_train, y_train): alphas = [1e-3, 1e-2, 1e-1, 1e0, 1e1] rr

浏览 2提问于2013-05-02得票数 16

3回答

非局部均值去噪算法在图像处理中的实现

c++、image-processing

我正在研究用C++实现非局部均值降噪算法。有关于这种算法()的论文，但他们对它也不是很清楚。我知道，它使用加权平均值，但我不知道这里研究窗口的用途，以及它与比较窗口的关系。作为一个新用户，StackOverflow不允许我上传图片。但是，您可以在上面提供的链接的nl means部分中找到公式。

浏览 0提问于2011-06-30得票数 6

回答已采纳

1回答

如何仅根据列表的标题向用户建议标记？

machine-learning、nlp

问题是：我需要建议的标签，用户只根据标题(5-15字)的名单，他们即将创建。我们有大约30个预先确定的标签- Gaming, Movies, TV shows, Documentaries, Books, Music, Art, History, People, Adventure, Sports, Cooking, Travel, Places, Food, Drinks, Fitness, DIY, Technology, Science, Cars, Bikes, Comedy, Shopping, Clothes, Fashion, Photography, Nature, etc

浏览 0提问于2017-11-28得票数 0

回答已采纳

1回答

快速比较查询与语料库中文档的余弦相似度

machine-learning、corpus、cosine-similarity、trigonometry

我很好奇公司通常是如何快速计算整个语料库之间的余弦相似度的。例如，如果有人搜索术语“有趣的猫”，并且有100,000个文档至少包含这些术语中的一个，则动态计算查询向量和这100,000个文档向量之间的余弦相似度可能需要很长时间。是否有缓存或加速此搜索的一般策略？

浏览 2提问于2015-07-17得票数 0

1回答

scipy.sparse.csr_matrix和scipy.sparse.lil_matrix有什么不同？

python、scipy

scipy.sparse.csr_matrix和scipy.sparse.lil_matrix有什么不同？这些矩阵表示稀疏矩阵，但我不知道有什么不同。此外，使用lil_matrix或csr_matrix的每一个优点是什么？

浏览 4提问于2021-09-17得票数 3

1回答

如何利用模糊匹配找到文本重用？

python、text、nlp、fuzzy-search、corpus

我试图有效地找到一个短短语和一个大语料库之间的相似性，例如，假设我的语料库是一书。这本书有数万字。除此之外，我还有几个简短的短语。例如： phrase1 = "Call me Ishmael" # This is the first sentence in the book exactly. phrase2 = "Call me Isabel" # This is like the previous with changes of few letters from the third word. phrase3 = "Call me Is mael&

浏览 0提问于2020-12-11得票数 1

3回答

在MATLAB中寻找二维脉冲峰值

matlab、image-processing、signal-processing、dft

在2d矩阵中寻找脉冲峰值(dirac增量)的最佳方法是什么？更具体地说，我想找出给定图像的谐波频率，因此我需要在图像的绝对值DFT中找到脉冲峰值。我曾想过使用findpeaks，但没有2d版本。我也看过之前关于使用imdilate和/或imextendedmax查找普通峰值的帖子，但这些帖子可以找到2d矩阵中的所有峰值，而我只对脉冲峰值感兴趣。我相信DSP的人对此有一个通用的方法… 请帮帮我谢谢

浏览 13提问于2010-11-22得票数 4

回答已采纳

1回答

使用jaccard相似度的Python Pandas距离矩阵

python、pandas、matrix、scipy

我实现了一个使用jaccard相似度构造距离矩阵的函数： import pandas as pd entries = [ {'id':'1', 'category1':'100', 'category2': '0', 'category3':'100'}, {'id':'2', 'category1':'100', 'category2': '0',

浏览 3提问于2016-02-26得票数 11

回答已采纳

1回答

Mahout推荐器返回空结果

java、mahout

我有一个包含用户估计值的表格。大约有1000个条目。从这些数据中，我想构建一个推荐，但是返回一个空的列表Mahout。问题出在哪里？ JDBCDataModel dataModel = new MySQLJDBCDataModel(source, "rate", "userId", "eventId", "rate", null); dataModel.refresh(null); try { UserSimilarity userSimilarity = new PearsonCorrelat

浏览 1提问于2012-07-13得票数 0

回答已采纳

1回答

在评估文档之间的jaccard相似度时，如何确定c的上界？

bigdata、similarity、locality-sensitive-hash、minhash

假设我在O(D*sqrt(D))时间内预处理了一百万个文档(使用minhash计算签名)，其中D是文档的数量。当我得到一个查询文档时，我必须在O(sqrt(D))时间内返回一百万个预处理文档中的第一个，使得jaccard相似度大于或等于0.8。如果没有与查询文档足够相似的文档达到该分数，我必须返回一个相似度至少为c* 0.8 (其中c<1)且概率至少为1- 1/e^2的文档。如何找到此minhash方案的最大C值？

浏览 5提问于2017-11-23得票数 0

2回答

特定主题语言模型的评价

machine-learning、nlp、language-model、gpt

我已经在我的自定义数据集上完成了一个预先训练过的语言模型(GPT-2)。我希望有一种方法来评估我的模型生成特定预定义主题的句子的能力，以单个关键字的形式给出。“计算机”)或一袋袋单词(如：“计算机”、“Linux”、“服务器”.) 例如，给定LM，模型的输出与单词计算机指定的主题有多大的关系？我已经尝试过的是:从LM生成足够多的句子，并将这些句子与目标主题(或主题中的每一个单词，我们有多个单词)之间的平均余弦相似度作为这里描述。我不确定这是否是一种有效的方法，而且句子之间的余弦相似性在很多情况下也会产生很差的结果。提前感谢您的帮助。

浏览 0提问于2020-10-02得票数 2

回答已采纳

1回答

在表中查找相似的联系人姓名

sql、sql-server、ssis

我正在执行数据清理，我的任务之一是删除相似的重复联系人。示例： BILL CROSBIE, BILL CROSBY, BILL CROSSBY; or KRISTEN HARRIS, KRISTIN HARIS. 因此，没有确切的规则，但通过手动扫描，我可以看出它们非常相似，肯定是重复的。谁能提供一个我如何使用SSIS来做这件事的例子？我知道我可以使用模糊查找，但它需要一个正确的引用表或引用数据，然后与需要数据清理的表进行比较。但是，有没有可能我可以使用SSIS中的脚本组件工具来使用一个算法，该算法可以获得匹配最多的字符。C#代码应该是什么样子的呢？我刚开始使用SSIS，没有太多的经

浏览 0提问于2014-05-08得票数 0

1回答

基于关键词的推荐引擎

nlp、recommendation-engine

我正在为一个简单的应用程序开发推荐引擎。向用户显示一张具有一组关键字的照片；他或她可以喜欢或不喜欢当前照片，在10张左右的照片之后，系统应该开始提供推荐。我目前的计划是维护所有关键词的词频集合，这些关键词对应于一个相似的动作。然后，将计算每个未见图像的，并将前10个结果显示给用户作为下一张要喜欢/不喜欢的照片。对于这类事情，有没有更成熟的技术？

浏览 0提问于2016-03-05得票数 1

1回答

将查询的部分与trigram索引匹配

postgresql、search、trigram、textmatching

我有一个events表，其中每个事件都有一个title和description。搜索应搜索这两列：标题：迪克(Ens)和简 description：每周见面讨论经典书籍！鉴于以上所述，我希望book club查询与之匹配。我的索引： CREATE INDEX evsearch_idx on events using gist((title || ' ' || description) gist_trgm_ops) 我的问题是： SELECT * FROM events WHERE title || ' ' || description ILIKE

浏览 1提问于2018-09-08得票数 0

回答已采纳

1回答

用mcxquery进行图形分析

graph、data-mining、cluster-analysis、markov-models、mcl

我正在使用mcl对图表进行聚类和分析。我不熟悉图论，我读过关于函数的文章。在文档中有这样的说法：“mcxquery的主要用途是在不同的相似袖口下分析一个图。这通常是在一个使用非常宽松的阈值构造的图上完成的。例如，我们可以使用mcxarray使用一个非常低的pearson相关截止值(例如0.2或0.3)从数组表达式数据中创建一个图形。” 他们谈论的相似之处是什么？如何利用pearson相关来分析图表？它在测量节点的“连接程度”吗？

浏览 4提问于2014-02-28得票数 0

回答已采纳

1回答

文本中单词的位置

python、nltk

Python的NLTK包有一个函数分散图，它显示文本中所选单词的位置。是否有任何可以在python中计算的关于这种色散的数值度量？我想衡量一下“金钱”这个词是否分散在课文中，或者更确切地说是集中在一章中？

浏览 2提问于2016-11-30得票数 2

回答已采纳

2回答

求解大规模稀疏矩阵方程

python、numerical-methods、scientific-computing

我正在用Python语言在scipy.sparse中进行稀疏矩阵乘法A^-1@B。A和B都以csc格式存储。A和B的大小大约是1E+6 x 2E+5和1E+6 x 1E+6，我的直觉告诉我不应该颠倒A，而应该交替使用scipy.sparse.spsolve。但是spsolve(A，B)给了我内存问题。我也尝试过像gmres和cg这样的迭代求解器。但是由于这种迭代求解器的结果通常是密集的，所以内存问题仍然会出现。有没有人知道是否有合适的方法来解决这个大规模的问题？非常感谢你们！

浏览 0提问于2020-07-07得票数 2

1回答

照片人脸核身参数Sim阈值如何选择？

人脸核身

浏览 227提问于2022-06-15

3回答

NLP算法计算最大5-6字句子间的相似度

machine-learning、python、nlp

我正在寻找一个相对简单的NLP algo，这将帮助我评估两个句子之间的相似性。这些句子通常在1-5个单词之间，大约. 。上下文：用户可以创建尽可能多的类别，他希望分组他的照片。我注意到这些类别中有很多是空的，当潜得更深一点时，我看到用户创建的许多类别几乎都有相同的名称，例如，法国对法国法郎夏季对夏季海滩和海滩(心脏表情) 一种假设是，他们创建一个带有拼写错误的类别，而不是删除，而是创建一个新的类别。目标：量化用户级别上高度相似的类别对的数量。所以我的问题基本上有两个方面：哪个简单的NLP算法可以很好地完成这项工作，而不需要像谷歌这样的公司使用某种凸性的神经网络。听说向量空间的余弦相

浏览 0提问于2022-04-01得票数 1

1回答

循环特征匹配

computer-vision、matching、feature-selection、3d-reconstruction

你好，我必须实现特征立体声匹配的鸡蛋估计。从纸“多光谱立体计量学”：“在右图中的特征，最大限度的相似性函数在左图像中给定的特征被选择作为潜在的匹配。然后应用阈值只保留强匹配。如前所述，该算法提供了四幅图像:前左(imLt−1)、前右(imRt−1)、当前左(imRt)和当前右(ImRt)。匹配以循环的方式进行，14只保留在所有四幅图像中找到对应的特征。图4示出了不同的步骤。我们首先从(imLt−1)和(imRt−1) (I)之间寻找立体声匹配开始。然后，在(imRt−1)和(imRt) (II)之间找到序列匹配。在(imLt)和(imRt) (III)之间执行另一个立体声匹配。最后，在(imL

浏览 4提问于2016-03-05得票数 0

回答已采纳

1回答

从单词列表中提取更多相似单词

python、nlp

所以我有一个描述特定群体的单词列表。例如，有一组是基于宠物的。示例宠物组的单词如下所示： [pets, pet, kitten, cat, cats, kitten, puppies, puppy, dog, dogs, dog walking, begging, catnip, lol, catshit, thug life, poop, lead, leads, bones, garden, mouse, bird, hamster, hamsters, rabbits, rabbit, german shepherd, moggie, mongrel, tomcat, lolcatz,

浏览 1提问于2015-06-17得票数 3