预先相似度_图片相似度_图像相似度 - 腾讯云开发者社区

python、pandas、nlp、nltk

这个问题是关于基于常用词的文本分类，我不知道我是否正确地处理了这个问题我有一个excel，在"Description“列中有文本，在" ID”列中有一个唯一的ID，我想迭代描述，并根据文本中常见单词的百分比或频率比较它们。我想对描述进行分类，并给它们另一个ID。请参见下面的示例…… #importing pandas as pd import pandas as pd # creating a dataframe df = pd.DataFrame({'ID': ['12 ', '54'

浏览 21提问于2019-08-22得票数 0

1回答

构建产品推荐系统、协同过滤和图形库

neo4j、graph-databases、recommendation-engine

当我读到使用协作过滤构建推荐系统时，他们通常不会谈论像neo4j这样的图形数据库。图形数据库是否足以实现最好的推荐系统？他们似乎可以比这里提到的方法更容易地实现实时建议：https://eugeneyan.com/writing/real-time-recommendations/ 我应该意识到的任何缺点，或者像neo4j这样的东西完全适合这个任务，而不需要其他任何东西？

浏览 16提问于2021-07-09得票数 0

回答已采纳

1回答

如何仅根据列表的标题向用户建议标记？

machine-learning、nlp

问题是：我需要建议的标签，用户只根据标题(5-15字)的名单，他们即将创建。我们有大约30个预先确定的标签- Gaming, Movies, TV shows, Documentaries, Books, Music, Art, History, People, Adventure, Sports, Cooking, Travel, Places, Food, Drinks, Fitness, DIY, Technology, Science, Cars, Bikes, Comedy, Shopping, Clothes, Fashion, Photography, Nature, etc

浏览 0提问于2017-11-28得票数 0

回答已采纳

1回答

基于内容的规模推荐

apache-spark、scikit-learn、mahout、recommendation-engine、mahout-recommender

这个问题可能在博客和问答网站中重复，但我还没有找到任何具体的答案。我试图建立一个客户推荐系统，只使用他们的购买历史。假设我的应用程序有n个产品。根据产品的属性(如国家、类型、价格)计算所有n种产品的项目相似性。当用户需要推荐-循环之前购买的产品p为用户u，并获取类似的产品(相似是在前面的步骤) 如果我是对的，我们称之为基于内容的推荐，而不是协作过滤，因为它不涉及项目的共现或用户对项目的首选项。我的问题是多重的：是否有任何现有的可伸缩的ML平台来解决基于竞争的推荐(我可以采用不同的技术/语言) 有什么办法可以调整Mahout来得到这个结果吗？分类是处

浏览 7提问于2015-04-23得票数 4

回答已采纳

1回答

来自网络研讨会的培训word2vec字幕

nlp、word2vec、doc2vec

我正在构建一个模型，根据上下文从时间帧开始播放视频。比如播放电影的高潮，从59分钟开始播放。我正在使用视频的字幕，并匹配特定序列中的文本，并确定时间帧。我正在尝试寻找具有真实表达式的精确单词，$$not so effective$$。我偶然发现了word2vec，它可以找到余弦相似的相似单词。

浏览 2提问于2019-05-10得票数 0

1回答

如何将一组单词分类为给定的标签之一

classification、nlp

我有三个标签:娱乐，平静和精力充沛。我得到了这样的词集: Set1 ={云天人，植物闪光摄影，快乐短裤，草休闲娱乐} Set2 ={植物绿色，自然景观，自然环境，树枝，树木，人在自然界，树形树木，落叶}我想把这些词分类成一个标签。你们觉得怎么样？Set1应该贴上精力充沛的标签，Set2应该贴上平静的标签。

浏览 0提问于2021-05-22得票数 2

回答已采纳

2回答

如何在有新向量的预计算矩阵中求余弦相似度？

python、pandas、machine-learning、scikit-learn、computer-vision

我有一个包含5000项(行)和2048个特性(列)的dataframe。我的数据形状是(5000,2048)，当我用滑雪板中的成对距离计算余弦矩阵时，得到了(5000,5000)矩阵。在这里我可以互相比较。但是现在，如果我有一个新的(1,2048)的向量形状，如何利用我已经计算过的(5000,5000)余弦矩阵，找到这个项目与我所拥有的早期数据的余弦相似性？编辑 PS:，我可以将这个新向量附加到我的数据中，然后再计算余弦相似度。但对于大量的数据，它变得缓慢。或者还有其他快速和准确的距离度量吗？

浏览 7提问于2019-11-26得票数 0

1回答

词与字典的比较与赋值

python、nlp

我用刮刮爬行了几个欺凌论坛，并将结果作为字典使用。我现在要做的是提取一个句子的关键字，例如He harassed me in the chat，这将给出关键字Harassed和chat，并将这些关键字与我的单词字典进行比较，并为它的相关性分配一个值(在这种情况下，这显然会提供接近1.0的高值，因为它与欺凌非常相关)。我已经把关键词提取下来了，所以现在我只需要知道如何进行比较。我看过使用pandas、scikit和nltk的情况，但它们似乎对多个字段的字典最有效，而我只有一袋单词。有什么NLP库可以帮我吗？如果不这样做，最好的办法是什么？

浏览 0提问于2018-07-15得票数 1

回答已采纳

1回答

通过NLP从文本中获得符号(编号项)的答案

nlp、information-retrieval

这与信息提取有关。在实际数据中，文档是以符号/编号项形式编写的。例如, How to create a website: - Get A DNS - Get a Hosting - Deploy wordpress or some site ... 以上是结构化数据的示例。再举一个例子，内容是半结构化的， While sandeep was going to home there was a road on the way he saw a - Car - 2 wheeler - cart and he carefully crossed the road

浏览 0提问于2019-09-04得票数 1

1回答

余弦相似度很慢

python-3.x、similarity、cosine-similarity、sentence-similarity

我有一组句子，它们是使用句子编码器编码成向量的，我想找出与输入查询最相似的句子。搜索功能如下所示： def semantic_search(cleaned_query, data, vectors): query_vec = get_features(cleaned_query)[0].ravel() res = [] for i, d in enumerate(data): qvec = vectors[i].ravel() sim = cosine_similarity(query_vec, qvec) if si

浏览 54提问于2019-09-29得票数 2

1回答

如何根据文档集合计算文档相似度？

information-retrieval

有什么方法可以组合成对的文档相似性得分，以获得某个文档相对于文档集合的总体相似性得分？如何根据文档集合计算文档相似度？- ResearchGate。可从：访问2016年8月22日。

浏览 16提问于2016-08-22得票数 0

1回答

NLP提取关联词

python-3.x、machine-learning、nlp

我是NLP算法的新手。我正在使用法语的python 3。我想从属于一起的文本中提取一组单词。例如“左脚”“瓶装水”。如何找到从文本/句子中提取一组单词的规则。 (附言:我是法国人，如果我不能很好地表达自己，很抱歉) 谢谢

浏览 1提问于2018-02-22得票数 0

1回答

具有快速文本的单词相似度查询

python、nltk、distance、fasttext

我有两个单词列表，比如说，列表1:未来证明列表2:房屋过去的foo酒吧我想计算列表1中的每个单词与列表2中的每个单词之间的语义距离。快速文本有一个很好的功能来显示最近的邻居，但如果有一种方法可以读出两个已定义单词之间的语义距离就更好了。有人能帮帮忙吗？谢谢

浏览 12提问于2020-06-28得票数 1

1回答

如何利用机器学习规范IT技术技能？

machine-learning、python、deep-learning、data-cleaning、data-science-model

我收集了大量的技能，从不同的在线来源收集/刮取。我们的团队付出了巨大的努力。现在，我们面临的最大挑战是努力使技能恢复到其根本形式，以减少重复。以下是几个例子， agile (or) agile methodologies (or) agile software java 2.x (or) java 3.x (or) java 这种复制非常常见，是我的数据集。所以我在寻找一种让他们正常化的方法。我不太清楚如何解决这个问题。有人能建议我一些很好的方法来解决这个问题吗？谢谢

浏览 0提问于2020-11-13得票数 1

1回答

如何组织数据以便在mahout中使用项目偏好推荐

mahout

首先是对mahout，apache，maven等的新手-所以如果这是显而易见的，请道歉。我有一个典型的市场篮子数据集，即 user1，item1 user1，item2 user2，item1 user2，item3 user3，item2 我的问题--对user3有什么建议？(是的，我知道答案是item1!)。我如何构造它以便在Mahout中使用？我看过这个页面-- --它非常有用--但就在我想要有趣的部分的时候--也就是如何构建相关性数据--它说： // Construct the list of pre-computed correlations Collection<Gen

浏览 1提问于2011-09-21得票数 2

回答已采纳

1回答

关于word2vec most_similar()函数

text-mining、gensim、word2vec

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

1回答

快速文本预训练句子相似度

python、nlp、information-retrieval、fasttext、sentence-similarity

我想使用快速文本预训练模型来计算一组句子之间的相似度。有谁可以帮我？什么是最好的方法？我通过训练一个tfidf模型来计算句子之间的相似性。像这样写代码。是否有可能改变它和使用快速文本预先训练的模型？例如，使用向量来训练tfidf模型？ def generate_tfidf_model(sentences): print("generating TfIdf model") texts = [[sentence for sentence in doc.split()] for doc in sentences] dictionary = gensim.co

浏览 3提问于2019-12-04得票数 2

回答已采纳

1回答

当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

matlab、cluster-analysis、distance、cosine-similarity

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

2回答

图像相似性-深度学习与手工特征

image-processing、computer-vision、neural-network、feature-extraction、deep-learning

我正在做计算机视觉领域的研究，并且正在研究一个与查找与查询图像视觉相似的图像相关的问题。例如，查找具有相似图案(条纹/格子)的相似颜色的t恤，或者相似颜色和形状的鞋子，等等。我探索了手工制作的图像特征，如颜色直方图、纹理特征、形状特征(方向梯度直方图)、SIFT等。我还阅读了关于深度神经网络(卷积神经网络)的文献，它们已经在大量数据上进行了训练，目前是图像分类的最新技术。我想知道是否同样的特征(从CNN中提取)也可以用于我的项目-寻找图像之间的细粒度相似性。据我所知，CNNs已经学习了很好的代表性特征，可以帮助对图像进行分类-例如，无论是红色衬衫、蓝色衬衫还是橙色衬衫，它都能够识别图像是衬

浏览 2提问于2015-05-23得票数 4

1回答

从数据库中删除相似数据

php、mysql、mysqli

我想从我的数据库中删除类似的数据。现在我可以从我的数据库中删除重复的数据并保留一个。 $sql = "UPDATE `clf_ads` SET `enabled`= '0' WHERE adid NOT IN (SELECT * FROM (SELECT MAX(adid) FROM clf_ads GROUP BY adtitle) x)"; if ($conn->query($sql) === TRUE) { echo "Record deleted successfully"; } else { echo "Error de

浏览 13提问于2018-12-11得票数 0

3回答

NLP算法计算最大5-6字句子间的相似度

machine-learning、python、nlp

我正在寻找一个相对简单的NLP algo，这将帮助我评估两个句子之间的相似性。这些句子通常在1-5个单词之间，大约. 。上下文：用户可以创建尽可能多的类别，他希望分组他的照片。我注意到这些类别中有很多是空的，当潜得更深一点时，我看到用户创建的许多类别几乎都有相同的名称，例如，法国对法国法郎夏季对夏季海滩和海滩(心脏表情) 一种假设是，他们创建一个带有拼写错误的类别，而不是删除，而是创建一个新的类别。目标：量化用户级别上高度相似的类别对的数量。所以我的问题基本上有两个方面：哪个简单的NLP算法可以很好地完成这项工作，而不需要像谷歌这样的公司使用某种凸性的神经网络。听说向量空间的余弦相

浏览 0提问于2022-04-01得票数 1

1回答

如何建立基于简历和职务描述的推荐模型？

machine-learning、deep-learning、nlp、recommender-system、semantic-similarity

如何在给出的职位描述的基础上建立一个更好的简历推荐模型？我很熟悉弓形或tfidf (n克)的方法，然后采取余弦相似，但我正在寻找一种深入的学习方法。我没有任何标有标签的数据要评估。任何建议都会很感激的。

浏览 0提问于2020-06-24得票数 4

回答已采纳

1回答

Mahout基于内容的推荐

mahout、recommendation-engine

我正在尝试创建一个节目推荐使用有关节目的信息，所以我相信这是基于内容的。我想要一个人选择他们看过的节目，并根据他们的内容推荐类似的节目。目前，我的数据文件如下所示 Code Genre 1260064148537,NOGENRE 1260064149243,Drama 1260064149741,Spoof 1260064764631,Classical 12600647412748,HipHopRnB&Dancehall 126006483593,NOGENRE 1260065049943,NOGENRE 12600705429,Sketch 1260070324

浏览 1提问于2012-10-12得票数 3

1回答

函数检查字符串与字符串列表的相似性。

word、similarity

我在一个存储桶中有一个类似字符串的集合，并且有多个这样的存储桶。我应该在字符串上使用哪种函数来将随机字符串与存储桶进行比较，以找出它属于哪个存储桶？为了澄清桶中的每个实体，它是一个可以有多个单词的句子。举个例子：考虑存储桶中的字符串列表：圆领黑色t恤印花T恤棕色马球t恤如果我们有“蓝色高领t恤”作为输入，我们希望检查是否可以将其添加到相同的存储桶中。这可能是一个更简单的例子，但请考虑对一桶字符串执行此操作，比如说100个字符串。任何对一篇文章或论文的引用都会很有帮助。

浏览 0提问于2015-12-18得票数 0

1回答

利用余弦相似度对文档进行分类

nlp、classification、data-science、text-mining、cosine-similarity

我有一套针对五个不同类别的文件，其中大部分都没有贴上标签，correctly.Objective是用来预测文件上传时的正确类别的，我用余弦相似度和tf -idf来预测文档的类，其中余弦相似度是最大的，到目前为止，我得到了很好的结果，但我真的不确定这条路会有多好。此外，当文件类别被正确标注时，为什么不使用余弦相似性来构建文档分类器而不是机器学习模型呢?会非常感谢您对我的方法的反馈以及您对这个问题的回答。

浏览 1提问于2019-06-11得票数 1

1回答

归一化基于tf-idf计算的余弦相似度值

python、normalization、tf-idf、cosine-similarity

我计算基于余弦相似度的tf-idf矩阵： tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vectorizer_desc.fit_transform(descriptions) #fit the vectorizer to text sim_desc = cosine_similarity(tfid

浏览 4提问于2016-06-14得票数 0

1回答

Elasticsearch中索引的新方法

elasticsearch

我想在Elasticsearch中定义一种新的索引方法，因此我将编辑tf idf方法。哪里可以找到TF-IDF elasticsearch的实现？为了实现新方法，我需要操作elasticsearch源代码中的哪些包？

浏览 1提问于2017-04-19得票数 0

2回答

如何利用深度学习在无监督数据集上实现语义文本相似度？

deep-learning、nlp、unsupervised-learning、similarity

如何在未标注的数据集中实现STS(语义文本相似性)？dataset列包含Unique_id、text1 (包含段落)和text2 (包含段落)。例:列表示法: Unique_id \x{e 010} Text1 \ Text2 Unique_id %0 Text1公开展示雷诺兹暂停他的教练执照。奥迈的肖像画约书亚·雷诺兹爵士()将在担心由于一场出口纠纷而隐藏起来之后，得到公众的关注。 Text2随后要求西班牙反暴力委员会这么做。罚款远远低于预期的数额大约22000英镑，甚至暂停他的教练执照。 Unique_id 1 Text1 Groening.Gervais已经开始写剧本了，但它的主题是一

浏览 0提问于2020-01-03得票数 1

3回答

让数据库查询变得“智能”？

algorithm、search、database

我有以下要求。我有一个表，其中有一列包含城市名称。我将按城市实现一个搜索选项。但是用户可能没有正确地输入城市名称。例如:城市"Matara“有时被拼写为"Mathara”。城市"Nuwara Eliya“有时被写成"Nuwaraeliya”。我可以保持数据库列的一致性，但我希望返回命中结果，即使最终用户使用另一个单词。我需要使用什么方法来有效地实现这一点？

浏览 0提问于2012-03-22得票数 3

回答已采纳

1回答

理解并解释建议

r、recommendation-engine

我正在尝试使用推荐实验室来构建一个UBCF并生成推荐。这个过程是可以的，预测似乎是有意义的。我需要的是向我的同行(商业和营销)解释为什么我要向那些用户推荐这些项目。我的代码是： library(recommenderlab) data(Jester5k) r <- sample(Jester5k, 1000) rec_ub <- Recommender(r[1:100],method="UBCF", param=list(normalize = "Z-score",method="Cosine", nn=3,minRatin

浏览 2提问于2015-02-18得票数 0

1回答

Spacy标记中的相似性度量

nlp、spacy

我正在尝试测量标记之间的相似性。我使用的是默认的en模型。当使用单数名词时，相似性度量按预期工作，但当使用复数形式的相同名词时，相似性度量返回零。 nlp = spacy.load('en') doc = nlp('apple orange') doc[0].similarity(doc[1]) 返回0.56189166448170025 doc = nlp('apples oranges') doc[0].similarity(doc[1]) 返回0.0 是否需要实现任何预处理步骤才能使度量正常工作？谢谢。

浏览 0提问于2017-09-22得票数 1

1回答

如何匹配来自不同eCommerce来源的产品？提取产品属性

machine-learning、classification、e-commerce、text-extraction、mallet

这是我的第二个问题，所以，如果有任何错误，请道歉。我的主要目标是从不同的电子商务网站收集数据，然后比较它们之间的数据。要做到这一点，我需要匹配相同的产品从不同的网站。由于不同的站点编写标题的方式不同，我需要从标题中提取产品的属性才能正确匹配。我使用收集数据，但无法与来自不同站点的同一产品相匹配。我的尝试：首先，我收集品牌，模型等，然后以传统的方式与标题相匹配。但是它不能工作，因为它不能收集所有的模型名称进行比较。而且，不同类别的产品属性是不同的，而不是相似的。我正在努力寻找解决方案，这将适用于各种产品。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、照相机等) 我也尝试应用机器学习

浏览 0提问于2018-06-05得票数 1

回答已采纳

3回答

如何定义sklearn.cluster.DBSCAN的eps参数的取值范围？

python、parameters、scikit-learn、range、dbscan

我想使用DBSCAN和度量来对具有接近1的余弦相似性的点进行聚类(即其向量(来自“原点”)是平行的或几乎平行的)。这一问题： eps是DBSCAN将两个样本视为同一邻域的最大距离--即当两个点之间的距离小于或等于 eps时，这些点被视为相邻点；但 sklearn.metrics.pairwise.cosine_similarity在-1和1之间抛出值，如果它们之间的距离是0.75到1，即大于或等于 0.75，我希望DBSCAN考虑它们之间的两个点是相邻的。我认为有两种可能的解决办法：将范围的值传递给DBSCAN的eps参数，例如eps=0.75,1 将eps=-0.75传递给D

浏览 2提问于2019-02-15得票数 1

回答已采纳

1回答

光谱聚类距离/相似度

cluster-analysis

所有关于谱聚类的文献都使用相似度矩阵作为谱聚类算法的输入。是否也可以使用成对距离矩阵？我还没有看到任何版本的频谱聚类代码会使用parwise距离。我在matlab中实现了谱聚类，它有一个函数pdist，这个函数的输出是成对距离矩阵。

浏览 0提问于2015-05-01得票数 1

1回答

尝试计算搜索词之间的相似度

algorithm、text、machine-learning

我想为在google上搜索的搜索查询计算某种相似度分数。这意味着，在其他事情中，单词的顺序并不一定重要。例如： “阿迪达斯蓝色鞋子”和“蓝色鞋子阿迪达斯” 应该被认为是完全相同的序列，而我认为在许多传统的距离算法中并非如此。我猜上面的例子可以用余弦相似度解决，但如果我有： “蓝色阿迪达斯鞋” 我想算法产生一个非常相似的距离，原来的“”阿迪达斯鞋蓝色“ 这样的算法存在吗？

浏览 0提问于2017-07-03得票数 0

1回答

如何使用python使用StanfordNER对命名实体进行聚类

python、nlp、nltk、stanford-nlp、named-entity-recognition

Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候，我正面临一个问题。这句话如下： Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies 下面是我的代码 st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',

浏览 3提问于2018-06-07得票数 1

回答已采纳

1回答

Facebook FB.ui，Feed message obj不工作

javascript、facebook、facebook-javascript-sdk、fb.ui

嗯，关于FB.ui，关于消息属性、属性/对象或其他什么的，我有这个问题。(我不知道这叫什么，我的错。) 我在某个网站上看到了这个代码：这是我关注的具体部分。不是为me工作的，至少. 这是我的密码 function postToFeed() { //Facebook Share Function // calling the API ... var obj = { method: 'feed', display: "iframe", message: "Hey Hey Lol", link:

浏览 3提问于2013-03-15得票数 3

回答已采纳

1回答

如何利用Gensim生成的预训练word2vec模型与卷积神经网络

nlp、convolutional-neural-network、word2vec、text-classification

我使用Gensim框架(https://radimrehurek.com/gensim/auto_实例/index.html#文档)生成了一个经过预先培训的C0模型。该数据集包含507种情感(句子)，它们被标记为积极或消极。在执行完所有文本处理之后，我使用Gensim生成了经过预先训练的word2Vec模型。该模型有234个唯一的词，每个向量都有300个维数。不过，我有个问题。如何使用生成的word2vec嵌入向量作为CNN的输入？

浏览 0提问于2021-11-15得票数 2

回答已采纳

2回答

产品标题的模糊字符串匹配算法

string-matching、fuzzy

我需要自动匹配产品名称(食物)。这个问题类似于主要的问题是，即使是相关关键字中的单个字母变化也会产生巨大的差异，但是很难检测到哪些是相关的关键字。例如，考虑三个产品名称Lenovo T400、Lenovo R400和New Lenovo T-400, Core 2 Duo。按任何标准，前两个字符串都是非常相似的字符串(在这种情况下，soundex可能有助于区分T和R，但名称最好是400T和400R)，第一个和第三个字符串彼此相距很远，但是相同的产品。显然，匹配算法不可能100%的精确，我的目标是自动匹配大约80%的名字具有很高的置信度。但是有一个复杂的问题:我的字符串有错误，因为我想搜

浏览 4提问于2016-08-18得票数 0

1回答

( model.docvecs.similarity_unseen_docs(document_1，document_2获得负分数)

python、nlp、nltk、gensim

我试图找出两个文档，即'document_1‘和'document_2’之间的相似性。我正在使用Doc2Vec Gensim的来寻找相似性评分。 score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2) print(score) 分数为负值的地方。这里，document_1和document_2是NLTK的word_tokenize()的结果。当我们试图找出两个"tokenized“文档之间的相似性时，负分数意味着什么？ P.S:对模型进行了10个文档(每个2

浏览 2提问于2019-11-15得票数 0

1回答

向现有余弦相似度矩阵添加新元素

python、cosine-similarity、trigonometry

我用sklearn.metrics.pairwise中的cosine_similarity计算了一个余弦相似度矩阵。 Matrix: 2414514 413915 419480 473104 534621 609406 654913 654914 \ 2414514 1.000000 0.0 0.0 0.0 0.0 0.0 0.755929 0.755929 413915 0.000000 1.0 0.0 0.0 0.0 1.0 0.000000 0.00000

浏览 9提问于2019-04-02得票数 0

1回答

比较Orange中的文件(文本源)

text-mining、orange

比较橙色文本文件的最佳方法是什么？如何找到两个文本之间的区别或相似之处，以及主节点之间的关系？

浏览 0提问于2019-05-24得票数 2

1回答

在elasticsearch中查询没有得分的匹配

lucene、elasticsearch

我想简单地匹配字段的值，我不关心分数(它总是返回一个匹配)。我不想让elasticsearch给我打分，这可能会导致我的表现变差……或者我错了，我不应该在意？如下所示的简单查询： GET /testing/test/_search { "query": { "bool": { "must": [ { "match": { "name": { "query": "My name h

浏览 1提问于2014-05-04得票数 1

1回答

在没有方向的情况下，如何利用文档特征向量上的余弦相似度公式？

classification、vector-space-models

在数学中，向量具有大小和方向。在数据科学中，为了识别文档的相似性，我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间的余弦角公式。然而，余弦公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示为向量的文档，方向在哪里？

浏览 0提问于2020-05-17得票数 1

1回答

如何提取相似的短语？

java、lucene

我正在使用Wordnet数据库。它只给我一个或两个单词的含义或同义词。如果我想要相似的短语，该怎么做呢？请任何人在这方面帮助我。另外，我在代码中使用了Lucene。有没有办法用lucene做到这一点呢？ WordNetDatabase database = WordNetDatabase.getFileInstance(); for (int i1 = 0; i1 < list1.size(); i1++) { Synset[] synsets = database.getSynsets(list1.get(i1));

浏览 1提问于2015-05-08得票数 1

1回答

图像相似度与k-均值聚类

image、cluster-analysis、k-means

我正在玩一点图像相似度的游戏。事实上，我是在玩图像检索系统。理想情况下，我想创建某种类型的图像索引，我可以查询它来获得相似的图像。我现在的想法是将某种均值存储到索引中，每个描述符都可以有不同的特征，例如k- ImageDescriptor -ImageDescriptor-centroid，直方图，...我有一些简单的基于鬼魂的计算-每个特征都有距离函数，该函数的结果乘以它的鬼魂，然后对所有特征求和。最后的和是离我的图像的距离。不确定这是不是一个好的思路？所以我开始玩直方图。我存储了直方图的索引，然后查询直方图和索引存储的直方图之间的距离。它提供了一些相似之处，但在大多数情况下远不是理想的

浏览 0提问于2010-07-05得票数 3

1回答

mahout推荐自定义项目相似度

apache、mahout、recommendation-engine

我想根据用户的技能向他们推荐工作，使用mahout.So是否有任何方法可以定义工作相似性逻辑。我找到了ItemSimilarity接口，但在自定义实现后无法使用它。

浏览 0提问于2014-07-30得票数 2

1回答

如何找到上下文相关的单词并将其分类为自定义标记/标签？

machine-learning、neural-network、classification、nlp、text-mining

问题：假设我有一个包含一些单词及其标签/标签的小数据集。主要任务是根据其他单词与数据集中已经存在的单词的上下文关系，向其他单词(不在数据集中)提供标记。例如，我的自定义数据集包括 Soap --> label__(cleaning_agent) pencil--> label__(stationary_item) mobile--> label__(electronics) washingmachine--> label(electronics)

浏览 0提问于2017-11-06得票数 1

回答已采纳

1回答

对问答系统NLP的几点建议

nlp、artificial-intelligence、chatbot、question-answering

我正在尝试建立一个问题回答系统，其中我有一组预定义的问题和他们的答案。对于来自用户的任何给定问题，我必须查找类似的问题是否已经存在于预定义的问题中，并发送答案。如果它不存在，它必须回复一个通用响应。任何关于如何使用NLP实现这一点的想法都会非常有帮助。提前感谢！！

浏览 2提问于2020-03-15得票数 0

1回答

使用ML.NET/TensorFlow实现人员再殖民

tensorflow、machine-learning、ml.net

我是ML的菜鸟。我有一个Person表， ----------------------------------- User ----------------------------------- UserId | UserName | UserPicturePath 1 | MyName | MyName.jpeg 现在我的数据库里有几千万人。我想训练我的模型，通过给出以字节为单位的图像(png/jpeg/tiff)来预测UserId。因此，输入将是图像，而我正在寻找的输出是UserId。现在，我正在寻找ML.NET的解决方案，但我愿意切换到Ten

浏览 20提问于2019-09-21得票数 1