一种层次结构的相似度算法_字符串结构相似度算法_字符串的相似度算法 - 腾讯云开发者社区

parsing、text-mining、data-cleaning

我们有一个很大的表(>30M行)，其中包含公司名称和其他特征。数据： Company_id Type Name Adress (more...) 497651684 8 Big mall Toys'rUs BigMall adress 468468486 1 McDonnnals WhateverStreet 161684314 8 Toys R Us Another street 546846846 1 BgKing BigMall2 ad

浏览 3提问于2014-12-12得票数 0

1回答

基于层次分类法的多个类的相似性度量？

similarity

对于有多个类的对象(每个类都是层次结构的一部分)，有人能推荐一个很好的相似性度量吗？例如，假设类如下所示： 1 Produce 1.1 Eggs 1.1.1 Duck eggs 1.1.2 Chicken eggs 1.2 Milk 1.2.1 Cow milk 1.2.2 Goat milk 2 Baked goods 2.1 Cakes 2.1.1 Cheesecake 2.1.2 Chocolate 在任何级别上，对象都可以使用上述项进行标记，例如： Omelette: eggs, milk (1.1, 1.2) Duck e

浏览 0提问于2015-01-08得票数 9

回答已采纳

1回答

如何解决web robot应用中不同url转发到同一页面问题

algorithm、url、web-crawler

我有一个关于网络机器人应用的问题。 url a: url b: 有两个urls，并转发到同一个page.robot应用程序中下载页面两次。在我robot应用程序中，访问了两个要检查的转换为md5值的URL。但是md5字符串改变了，所以url的值也改变了。访问的缓存不能命中。有更好的解决方案吗？

浏览 1提问于2013-05-19得票数 1

1回答

K近邻VS相似性搜索

image、algorithm、image-processing、similarity、nearest-neighbor

这两种算法有什么不同吗？乍一看，它们对我来说似乎是一样的。假设我们正在搜索图像，然后给定一个查询图像，可以搜索k (=10 )使用k-NN算法的图像。在相似性搜索算法中，一个人也可以搜索10张图像(我猜是10张，类似于阈值)，结果应该与k-NN算法相同，对吧？相似性搜索的。

浏览 16提问于2017-03-14得票数 2

回答已采纳

1回答

Elasticsearch中索引的新方法

elasticsearch

我想在Elasticsearch中定义一种新的索引方法，因此我将编辑tf idf方法。哪里可以找到TF-IDF elasticsearch的实现？为了实现新方法，我需要操作elasticsearch源代码中的哪些包？

浏览 1提问于2017-04-19得票数 0

1回答

语义文本比较API是如何工作的

nlp

我目前正在做一个项目，在这个项目中，我们试图根据正确的答案来衡量用户提交的解释性答案。我遇到过像和这样的API，它们都能够检查两个文本在语义上有多近。对于以下问题，这些API给了我良好的回答：债务人和债权人之间有什么区别？ Answer1:债务人是指欠另一方当事人钱的人或企业。债权人是向另一方提供贷款或提供信贷的个人、银行或其他企业。 Answer2:债务人负有向另一人或实体付款的债务或法律义务，向其购买货物或获得服务。债权人可以是银行、供应商。蒲公英给了我81%的分数，平行点给了我4.8/5的答案。这是意料之中的。然而，在我准备一个演示并计划最终在生产中使用它们之前，我有兴趣

浏览 5提问于2017-07-18得票数 1

1回答

如何根据常用词对文本进行分类

python、pandas、nlp、nltk

这个问题是关于基于常用词的文本分类，我不知道我是否正确地处理了这个问题我有一个excel，在"Description“列中有文本，在" ID”列中有一个唯一的ID，我想迭代描述，并根据文本中常见单词的百分比或频率比较它们。我想对描述进行分类，并给它们另一个ID。请参见下面的示例…… #importing pandas as pd import pandas as pd # creating a dataframe df = pd.DataFrame({'ID': ['12 ', '54'

浏览 21提问于2019-08-22得票数 0

1回答

相似度矩阵聚类

python、cluster-analysis、data-analysis

我尝试对文本数据进行聚类，数据清晰，标记化等。我如何在Kmeans或其他聚类模型中输入相似度矩阵？ from gensim import corpora from gensim import models from gensim.models import Word2Vec, WordEmbeddingSimilarityIndex from gensim.similarities import SoftCosineSimilarity, SparseTermSimilarityMatrix documents = list(data['clear_response']) te

浏览 3提问于2020-09-01得票数 0

1回答

如何将图形数据结构保存到文件中？例如，软件的函数调用图

data-structures、graph、graph-databases、call-graph

我正在研究如何表示软件的函数调用图，并将数据结构保存到文件中。我知道在内存中，图可以是邻接表或正交表的形式。我的问题是如何将数据结构保存到文件中，这样以后它就可以重新加载到内存中进行进一步的操作。它可以用json表示，也可以用Neo4j等图形数据库表示吗？更重要的是，如果转储到Neo4j，是否可以计算函数调用相似度？

浏览 29提问于2019-04-13得票数 0

1回答

什么是光谱聚类？

clustering

什么是光谱聚类？我几乎没有统计学的背景。我试着在网上搜索笔记，但他们假设了很多知识。如果你能在网上找到一些关于光谱聚类的基础知识和数学基础的笔记，那就更好了。我发现像这个一这样的笔记需要很多不适合我的背景知识。

浏览 0提问于2018-06-21得票数 4

1回答

如何以相似度为衡量标准进行聚类？

cluster-analysis、cosine-similarity

我读过关于球形kmeans的文章，但我没有遇到一个implementation.To是清楚的，相似性很简单，两个文档单位向量的点积。我读到过标准k means使用距离作为度量。指定的距离是否与坐标几何sqrt((x2 -x1)^2 + (y2-y1)^2)中的矢量距离相同？

浏览 2提问于2012-07-19得票数 1

2回答

ValueError:超出了允许的最大维度，AgglomerativeClustering fit_predict

python、scikit-learn、hierarchical-clustering

我正在尝试在一个包含100.000个对象的23维数据集上进行分层聚类。如何解决后续的错误？ >>>ac = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='complete') >>>k=hf.features_itter(hf.file) >>>k array([[49, 0, 3, ..., 0, 0, 3], [39, 1, 4, ..., 0, 0, 3], [

浏览 0提问于2019-02-04得票数 0

1回答

在余弦相似度中对数字比字符串应用更多的权重

python、scikit-learn、cosine-similarity

我有一个程序，可以从互联网上提取地址，并将其与数据库进行核对。它很有用，但我现在正在尝试引入一个相似性函数，将互联网上的地址与我数据库中的地址进行比较。我使用下面的脚本来检查余弦相似度如何比较地址： import string from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.text import CountVectorizer addresses = [ '705 Sherlock House, 221B Baker Street, London NW

浏览 3提问于2020-05-24得票数 0

2回答

如何在spark mllib中进行基于项目的推荐？

apache-spark、mahout、recommendation-engine、apache-spark-mllib

在Mahout中，支持使用API方法进行基于项目的推荐： ItemBasedRecommender.mostSimilarItems(int productid, int maxResults, Rescorer rescorer) 但是在Spark Mllib中，看起来ALS内部的API可以获取推荐的产品，但userid必须通过以下方式提供： MatrixFactorizationModel.recommendProducts(int user, int num) 有没有一种方法可以根据类似的产品获得推荐产品，而不需要提供用户id信息，就像mahout执行基于项目的推荐一样。

浏览 1提问于2014-12-18得票数 8

1回答

用于在深层层次结构的每一层实现虚拟函数的NVI

c++、architectural-patterns

假设我们有以下类层次结构： class Object { public: virtual void update() { // Update position } }; class Rocket : public Object { public: virtual void update() { Object::update(); // Orientate towards target } }; class SparklingRocket : public Rocket { public: virtual

浏览 0提问于2014-05-14得票数 1

1回答

sql中select的时间复杂度

sql、select

我想知道在mysql中使用"select * from TABLE key=x“的时间复杂性；答案是O(log(n))吗？(n是记录号)

浏览 4提问于2014-01-15得票数 1

回答已采纳

1回答

查找所有ID和相关字符串/序列之间的相似性

python、pandas、dataframe、scikit-learn、data-science

我有一个数据帧，它由两列组成，如下所示。我想使用下面定义的函数来计算所有这些序列之间的Smith Water相似度。 def smith_waterman(seq2, seq1, d=-8): m = len(seq1) n = len(seq2) mat = np.zeros((m+1, n+1)) # Creating empty matrix # Add elements to all rows and columns for i in range(1, m + 1): for j in range(1, n +

浏览 0提问于2020-12-09得票数 0

1回答

亲和力传播(sklearn) -奇怪的行为

scikit-learn、cluster-analysis

尝试对简单的集群任务使用关联传播： from sklearn.cluster import AffinityPropagation c = [[0], [0], [0], [0], [0], [0], [0], [0]] af = AffinityPropagation (affinity = 'euclidean').fit (c) print (af.labels_) 我得到了这个奇怪的结果:0 1 0 1 2 1 1 0 我希望将所有样本放在同一个集群中，如本例所示： c = [[0], [0], [0]] af = AffinityPropagation (affini

浏览 0提问于2015-06-14得票数 8

3回答

度量文档集之间的相似度

solr、lucene、morelikethis

为了说明起见，我们假设这是一个论坛服务。我需要计算每个用户的帖子之间的“相似度”，这样结果将如下所示： among posts by user A, similarity 60% among posts by user B, similarity 20% ... 我正在处理多字节字符串，所以我想我被搜索引擎卡住了。我们已经使用了Solr，已经实现了moreLikeThis，但是我不太确定如何构造查询。感谢任何人的帮助！

浏览 0提问于2011-05-20得票数 7

1回答

如何在Lucene中实现tf-idf和余弦相似度？

java、lucene、tf-idf、cosine-similarity

如何在Lucene中实现tf-idf和余弦相似度？我使用的是Lucene 4.2。我创建的程序没有使用tf-idf和余弦相似度，它只使用TopScoreDocCollector。 import com.mysql.jdbc.Statement; import java.io.BufferedReader; import java.io.File; import java.io.InputStreamReader; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.util.

浏览 0提问于2013-04-25得票数 4

回答已采纳

11回答

有没有一个算法可以判断两个短语的语义相似度

algorithm、nlp、semantics

输入:短语1、短语2 输出:语义相似度值(介于0和1之间)，或这两个短语谈论同一事物的概率

浏览 1提问于2008-09-15得票数 64

回答已采纳

1回答

基于内容的推荐可能吗？

algorithm、mahout、recommendation-engine、cosine-similarity

我在探索基于内容的算法，所以我了解到基于内容的算法是用来计算项目和用户之间的相似度的，就像"pandora“一样。所以我的要求是我有100的比例，例如用户可以喜欢40%的蔬菜和60%的非蔬菜，有喜欢/不喜欢的比例，项目也会有蔬菜，非蔬菜属性。是否可以计算用户偏好比例和项目的相似度，或者是否有符合我需求的算法或帮助我的文档？提前感谢

浏览 2提问于2015-07-23得票数 0

2回答

哪种机器学习算法可以用于轨迹分类？

machine-learning、classification、time-series、clustering、algorithms

我正致力于根据空中物体的轨迹对其进行聚类。就像我想在不同飞行物体轨迹的数据集上训练一个模型，这样以后我就可以根据轨迹数据来预测物体的类型。现在的轨道数据包括4种东西(高度，经度，纬度，时间)。因此，基于这些数据集，我们可以对飞机、火箭、导弹等物体进行分类。但我不知道可以使用哪种算法？我首先想到的是支持向量机。后来我想“长时间记忆”可以用。但我不太确定。我对机器学习很陌生。所以任何帮助都是非常感谢的。

浏览 0提问于2020-03-11得票数 0

1回答

Java 14+ Arrays.sort( int[] )最坏的时间复杂度是什么？

java、algorithm、time-complexity、quicksort、java-14

虽然我知道这似乎是显而易见的，但我会解释我的困惑。我一直认为快速排序的最坏情况时间复杂度是O(n^2)。[Arrays.sort(int[])]()从Java 7到Java 13的文档说:该算法在上提供O(n log(n))性能--许多数据集导致其他快速数据集退化为二次性能，并且通常比传统的(单轴)快速排序实现更快。这里的关键字是“多”，所以我假设这里的O(n log(n))指的是平均情况，而且仍然存在导致O(n^2)最坏情况的数据集。但是在Java14和更高版本中，[Arrays.sort(int[])]()的文档说:该算法在所有数据集上提供O(n (N))性能。那么，对于现在改进的快

浏览 6提问于2022-03-16得票数 2

回答已采纳

4回答

在语义相似性方面，是否有比较字符串的好的NLP？

machine-learning、python、nlp、similarity、software-recommendation

我想要创建一个聊天机器人，它告诉用户在街道上的交通情况，但暂时不是实时的。我用MySQL创建了一个小型数据库，其中存储了一些有关流量的数据，并根据用户与聊天机器人的交互情况，在适当的时候使用PHP脚本获取这些数据。我想知道当用户询问同一个问题的变化时，如何处理这个问题，因此可以用相同的答案来回答。例如：为什么大街上有车辆？高街交通的原因是什么？我为什么在高街遇到交通堵塞？我在大街上堵车了。为什么会这样呢？显然，我可以从删除停止词(例如did)、命名实体(例如，公路->大街)、定义同义词和应用文本相似性度量(例如Levenshtein距离等)开始。然而，如果我这样做的话，我想

浏览 0提问于2018-04-19得票数 4

1回答

推荐邮件地址匹配方案？

sql-server、python-3.x、street-address

我的SQL服务器包含两个表，其中包含一组类似的邮件(物理)地址字段。注:这些表是在数据到达我的数据库之前填充的(不能更改)。表中的字段集是相似的，但并不相同--大多数字段都存在于两个表中，有些只存在于一个表中，另一些存在于另一个表中。目标是以“高度自信”确定两个邮件地址是否匹配。示例字段：街道号码预定向街道名称街道后缀邮政方向(一张桌子而不是另一张) 单位名称(一个表)v地址2(其他表)--增加了复杂性邮政编码(长度随表5 v 5+数字而变化) 法律描述理想情况下，我想要一种简单的方法来调用一个“函数”，它返回一个布尔值或一个匹配的置信度

浏览 0提问于2019-11-22得票数 0

1回答

一种基于相似性距离(c++)的大型成对图像分组的结构和算法

image、grouping、distance、similarity、pairwise

我希望在一个非常大的数据集中找到类似的图像(至少50K+图像，可能更多)。我已经成功地实现了几个“距离”函数(哈希与L2或Hamming距离相比较，例如，具有相似性%的图像特征等)--结果总是一个“双”数字。我现在想要的是“分组”(集群？)通过相似的图像。我已经取得了一些相当好的结果，但小组并不完美:一些可以与其他图片组合在一起的图像被放在一边，所以我的方法并不那么好。这三天来我一直在寻找解决方案，但是事情在我的脑海中并不那么清晰，也许我忽略了一个可能的方法？我已经有了带距离的图像对:图像A(索引，int)，图像B(索引，int)，距离(double)，以及一个重复列表(图像X类似于图像

浏览 9提问于2022-11-05得票数 0

1回答

基于相似度的项目聚类

python、cluster-analysis、similarity、cosine-similarity、dbscan

我对整个集群和其他东西都很陌生，所以我有点迷失在编程的最后一步。在已经做了一些工作之后，已经获得了项目和Items_Comp之间的正确相似性。我有一个如下的示例数据集(该值属于Items列)： Items Items_Comp Similarity Item Value A B 0.6 50 A C 0.0 50 A D 0.0 50 A E 0.2 50 B A 0.6 100 B C 0.2 100 B D 0.4 100 B E 0.4 100 C A 0.0 200 C B 0.2 200 C D 0.6 200 C

浏览 30提问于2021-10-08得票数 0

4回答

如何实现一个简单的“您输入ACB，您是指ABC?”

nlp、spell-checking

我知道这不是一个直截了当的问题，所以如果你需要我提供更多关于它的范围的信息，请告诉我。有一堆问题解决了几乎相同的问题(在这里是相互关联的)，但从来没有完全相同的问题具有相同的范围和目标--至少据我所知。上下文：我有一个MP3文件与ID3标签艺术家的名字和歌曲的标题。我有两张桌子，艺术家和歌曲 ID3标签可能稍有偏离(例如) 我使用的是ASP.NET + C#和MSSQL数据库我需要同步MP3s和数据库。意思：用户启动一个脚本。脚本浏览了所有的MP3s 剧本上写着“米凯尔杰克逊尼”迈克尔杰克逊“是/不是” 用户选择和我们重新开始该系统

浏览 4提问于2009-07-07得票数 5

回答已采纳

2回答

sklearn kNN (NearestNeighbors)是否进行批处理？

python、scikit-learn、batch-processing、knn

我正在使用sklearn中的knn算法在数据集上进行训练。我想知道，如果我的数据集包含数百万行，我们可以在这里进行批处理吗？ from sklearn.neighbors import NearestNeighbors nbrs = NearestNeighbors(n_neighbors=6, algorithm='ball_tree').fit(new_features) distances, indices = nbrs.kneighbors(new_features)

浏览 37提问于2020-08-10得票数 1

2回答

多维聚类数据集

python、clustering、unsupervised-learning、k-means

我有一个与以下类似的数据集：它是食谱数据以及食谱的组成(单位：%)。 📷 我一共有91个菜谱和40个配料。我希望能够根据成分组成的相似性将这些食谱聚在一起。我怎样才能做到这一点？可以使用哪种聚类方法，以及如何使用？

浏览 0提问于2020-02-04得票数 -2

回答已采纳

3回答

从字符串列表中，如何获得python中最奇怪的单词/字符串？

python

我有一个字符串列表： ['twas', 'brillig', 'and', 'the', 'slithy', 'toves', 'did', 'gyre', 'and', 'gimble', 'in', 'the', 'wabe', 'all', 'mimsy', 'were', 'the', 'borogoves&#

浏览 0提问于2012-04-12得票数 1

2回答

用向量空间模型代替Lucene中的BM25

java、solr、lucene

如何更改Lucene中的评分并使用向量空间模型而不是BM25？

浏览 3提问于2018-12-01得票数 0

2回答

用java编辑距离

java、search

我有一个名字列表(姓氏)和一个简单的搜索机制。我想在搜索结果中显示带有小改动(排字)的单词。示例搜索文本：braniecka 示例结果：Branicka、Kraniecka、Braniecki 任何帮助都很感激。

浏览 4提问于2013-08-13得票数 0

回答已采纳

2回答

查找行之间的矩阵的公共元素

algorithm、matrix

如果有一个4*2矩阵:A= 1,2;3,4;5,6;7,1，我需要找到在这些行之间至少有一个公共元素的行。例如，在上面的示例中，第1行和第4行有1个共同之处。该矩阵行可以具有很大的长度。最好的算法/逻辑是什么？我尝试了以下算法： for(i=0;i<N;i++){ for(j=i+1;j<N;j++){ if(ipArr[i][0] == ipArr[j][0] || ipArr[i][0] == ipArr[j][1] || ipArr[i][1] == ipArr[j][0] || ipArr[i][1] == ipArr[j][

浏览 1提问于2017-02-17得票数 3

1回答

推断LDA模型

lda、topic-modeling

我对LDA和主题建模很陌生，我想了解一下推理机制。我想应用LDA进行活动识别。假设我已经定义了由事件概率分布组成的10个主题。例如 TOPIC_1 = event1 (0.5), event2 (0.4), event3 (0.0), event4 (0.0) and event5 (0.1). 我想了解一个人一天中哪些话题是活跃的。一个人的一天是由每分钟抽样的一系列事件组成的。为了了解哪个主题是活跃的，我所做的是：按每日顺序选择1小时窗口计算在该小时内发生的事件的分布。计算与LDA发现的每个主题的相似性。对吗？你对使用相似函数有什么建议吗？

浏览 5提问于2014-07-22得票数 0

3回答

确定两句相似程度的算法

python、algorithm、parsing、tree、nlp

我的一个朋友有一个想法，要制作一个速度阅读程序，逐个显示单词(就像目前存在的速度阅读程序)。然而，这个程序会过滤掉那些对意思来说并不完全必要的单词(如果你想略读一些东西)。我已经开始执行这个程序了，但我不太确定应该用什么算法来消除“不重要”的单词。我的想法是解析这个句子(我目前正在使用斯坦福分析器)，并根据这个词对每个单词的意义有多重要来分配权重，然后开始删除权重最低的单词。我将继续这样做，检查原始树和新树有多“不同”。我将继续删除权重最低的单词，直到两棵树太不同为止(我将通过每个用户一次的“校准”过程来确定某个常量)。最后，我将对缩短句中的每一个单词进行分析，并尝试用一个更简单或更短的同

浏览 4提问于2016-11-24得票数 3

回答已采纳

1回答

词与字典的比较与赋值

python、nlp

我用刮刮爬行了几个欺凌论坛，并将结果作为字典使用。我现在要做的是提取一个句子的关键字，例如He harassed me in the chat，这将给出关键字Harassed和chat，并将这些关键字与我的单词字典进行比较，并为它的相关性分配一个值(在这种情况下，这显然会提供接近1.0的高值，因为它与欺凌非常相关)。我已经把关键词提取下来了，所以现在我只需要知道如何进行比较。我看过使用pandas、scikit和nltk的情况，但它们似乎对多个字段的字典最有效，而我只有一袋单词。有什么NLP库可以帮我吗？如果不这样做，最好的办法是什么？

浏览 0提问于2018-07-15得票数 1

回答已采纳

1回答

NLP -如何在问题列表上获得常见问题的列表

python、machine-learning、deep-learning、nlp、data-science

所有问题都在标题中，所以基本上我有一个列有几个问题作为字符串的列表，想法是在第一个问题列表中获得另一个常见问题列表。我不知道这是否有意义，但我会尝试解释一下我尝试过的方法。该方法包括计算列表中的每个元素与其他元素的余弦相似性，但不包括正在处理的元素，以防止使用相同的元素执行计算。也就是说，将创建一个字典，其中包含作为正在处理的每个元素的索引的键，而值将是每个元素的索引列表，这些索引的余弦相似性超过了键索引的阈值。一旦创建了字典，键的值列表长度最高的索引将被认为是常见的问题，在此之后，您可以选择前10位或任何您想要的数字。首先，一个缺点是，知道我有+60000个问题(14天)，执行起来

浏览 2提问于2022-06-17得票数 0

4回答

我们如何对各种算法进行分类？

algorithm

我们如何对各种算法进行分类？我听说过各种各样的名字: Divide & Conquer算法、确定性算法、概率算法、就地算法等等。它们是否形成了某种分类层次结构？请为我提供任何网络链接。

浏览 0提问于2010-12-12得票数 3

回答已采纳

2回答

用于模糊比较文本字符串的Java库

java、fuzzy-logic、fuzzy-comparison

我正在寻找一个工具，可以比较两个文本字符串，并返回一个结果，实际上是他们的相似性指标(例如95%)。它需要在支持Java库的平台上实现。我最好的猜测是，我需要一些模糊逻辑比较工具来进行模糊匹配，然后返回相似度级别。我在这里看到了一些与模糊搜索相关的帖子，但我需要完全相反的-这意味着我不想设置一些参数并返回类似的条目。相反，我手头有条目，但需要从它们派生出这些相似性参数… 你能在这方面给我一些建议吗？非常感谢

浏览 0提问于2015-07-29得票数 2

1回答

在Python编程中使用numpy和nltk或CLUTO对单词进行聚类

python、cluster-analysis、nltk、cluto

我正在尝试对一些单词进行聚类。我的部分数据如下所示(这只是个例子)。 cat dog horse ostrich cat 8 2.3 3.4 4.7 dog 7 8 3 2.4 horse 3.4 2.5 8 1.5 ostrich 3.4 3.2 4.4 8 数字越大，表示两个单词之间的相似度越高。基于这种格式的数据，我想做一个聚类(例如，(猫，狗)，(马)，(驼鸟)共3个聚类)。一开始，我试着用CLUTO...制作一些簇和一个(非常漂亮的)图，如下所示。但是我不能..。我已经看过手册了，但它并不那么容易理解。因此，我尝试使用nltk中的一些

浏览 3提问于2013-12-26得票数 1

1回答

MinHashing对SimHashing

cluster-analysis、similarity、union-find、minhash、simhash

假设我有五组，我想聚在一起。我理解这里描述的SimHashing技术：可以产生三个集群({A}、{B,C,D}和{E})，例如，如果结果是： A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 同样，MMDS书的第3章中描述的MinHashing技术：如果其结果是： A -> h01 - h02 - h03 B -> h04 - h05 - h06 | C -> h04 - h07 - h08 | D -> h09 - h10 - h08 E

浏览 19提问于2015-06-12得票数 3

1回答

实现嵌套的数据过滤循环，可能是一种更优雅的方式？

javascript、node.js、mongodb、mongoose

这是数据。我想要做的是将所有这些数据注入一个变量中，该变量包含所有类别以及属于这些类别的所有书籍： var categories = [ // ... { "_id" : "5436b12b456f61180f815c06", "name" : "Horror" }, { "_id" : "5436b43f18bbc8a8073e786e", "name" : "Action

浏览 2提问于2014-10-16得票数 1

1回答

在两个数据集之间找到最佳匹配/得分

machine-learning

浏览 0提问于2021-03-17得票数 0

1回答

如何在Spark MLlib中进行基于用户的推荐？

apache-spark、apache-spark-mllib、recommendation-engine、mahout-recommender

我正在尝试在MLlib中构建一个基于用户的协作过滤，以便从last-fm数据集中找到相似的用户(基于你听过的艺术家)。 Apache Mahout可以通过GenericBooleanPrefUserBasedRecommender实现我想要的功能，但是速度不够快，所以我想尝试一下Spark & MLlib，但是找不到它的任何实现。有没有人有一个可用的java/scala/python实现，或者知道如何实现它？我知道MLlib通过肌萎缩侧索硬化症有基于项目的推荐，但那是不同的。

浏览 1提问于2016-04-26得票数 0

3回答

用于测试关系公共性的cypher查询

neo4j、cypher、graph-algorithm

我有一个neo4j数据集，包含用户和组。 MATCH (user:User)-[r:Memberof]->(group:Group) RETURN * 现在，我想rate每个组的共性，所有其他组，以确定一个百分比的相似性在所有组(A组拥有95%的成员与B组，82%的成员与C组，等等)。不知道从何说起，请任何帮助！:)

浏览 0提问于2019-04-18得票数 0

回答已采纳

3回答

有效的图聚类算法

algorithms、graph、cluster

我正在寻找一个有效的算法，以找到一个大图上的簇(它有大约5000个顶点和10000条边)。到目前为止，我使用的是在JUNG java库中实现的Girvan算法，但是当我尝试删除很多边缘时，它是相当慢的。你能建议我一个更好的替代大图吗？

浏览 0提问于2012-01-19得票数 20

1回答

使用笛卡尔的jaccard相似性

java、apache-spark、dataset、cartesian、lsh

我有一段代码： StructType schema = new StructType( new StructField[] { DataTypes.createStructField("file_path", DataTypes.StringType, false), DataTypes.createStructField("file_content", DataTypes.createArrayType(DataTyp

浏览 16提问于2020-07-06得票数 0

2回答

在与图像匹配的视频中查找帧

python、opencv

我试着用opencv找到与图像匹配的帧。我还想找出找到图像的时间框架。这个视频是一个蒙面视频。到目前为止，守则： def occurence_counter(self): img = cv2.imread('ref_img.jpg', cv2.IMREAD_COLOR) # shrink img = cv2.resize(img, (10, 10)) # convert to b&w img = color.rgb2gray(img) similarities = []

浏览 0提问于2019-01-17得票数 1