我尝试对文本数据进行聚类,数据清晰,标记化等。我如何在Kmeans或其他聚类模型中输入相似度矩阵?
from gensim import corpora
from gensim import models
from gensim.models import Word2Vec, WordEmbeddingSimilarityIndex
from gensim.similarities import SoftCosineSimilarity, SparseTermSimilarityMatrix
documents = list(data['clear_response'])
te
我有一个非常有趣的问题,在过去的几天里,我一直在努力解决,但没有运气。我有120k个项目的描述,我必须与38k个项目进行比较,并确定它们之间的相似程度。最终,我想看看在基于相似性的120k内是否存在38k中的任何一个。我在excel中找到了很好的相似性脚本,我把我的数据组织成乘法表,这样我就可以比较从120k到38k的每个描述。请看下面的图片。所以函数是有效的,但是计算量是不可能在excel中运行的。如果我把它一分为二( 120k X 16k),我们谈论的是超过20亿的计算。该功能是比较从A2到B1的描述,然后比较A2到C1的描述,依此类推,直到16k。然后它从A3中进行描述,并做同样的事情,
我正在寻找一种方法来输出两个字符串之间的匹配百分比(例如:名称),同时也考虑到它们可能是相同的,但是单词的顺序不同。我尝试使用SequenceMatcher(),但结果只是部分令人满意:
a = "john doe"
b = "jon doe"
c = "doe john"
d = "jon d"
e = 'john do'
s = SequenceMatcher(None, a, b)
s.ratio()
0.9333333333333333
s = SequenceMatcher(None, a, c)
s
我正在做一个打字程序,用户输入屏幕上出现的一行单词,我需要检查准确性。这看起来很简单,但是,我需要考虑到偏移量。如果给定的行是"This is a test",而用户输入的是"Thiss is a test“,那么他们应该只有一个错误。然而,用标记"ss“偏移量之后的所有内容来检查准确性的简化方法是不正确的,而它应该是正确的。有什么简单的方法可以做到这一点吗?
我需要比较字符串,以确定它们是否代表相同的东西。这与人工输入的案例标题有关,其中缩写和其他小细节可能不同。例如,考虑以下两个标题:
std::string first = "Henry C. Harper v. The Law Offices of Huey & Luey, LLP";
与此相对的是:
std::string second = "Harper v. The Law Offices of Huey & Luey, LLP";
人类可以很快判断出它们最有可能是同一个。我目前采用的方法是通过对所有字母进行小写并删除所有标点符号和空格来规
我用刮刮爬行了几个欺凌论坛,并将结果作为字典使用。
我现在要做的是提取一个句子的关键字,例如He harassed me in the chat,这将给出关键字Harassed和chat,并将这些关键字与我的单词字典进行比较,并为它的相关性分配一个值(在这种情况下,这显然会提供接近1.0的高值,因为它与欺凌非常相关)。
我已经把关键词提取下来了,所以现在我只需要知道如何进行比较。
我看过使用pandas、scikit和nltk的情况,但它们似乎对多个字段的字典最有效,而我只有一袋单词。
有什么NLP库可以帮我吗?如果不这样做,最好的办法是什么?
我们有一个很大的表(>30M行),其中包含公司名称和其他特征。
数据:
Company_id Type Name Adress (more...)
497651684 8 Big mall Toys'rUs BigMall adress
468468486 1 McDonnnals WhateverStreet
161684314 8 Toys R Us Another street
546846846 1 BgKing BigMall2 ad
我正在寻找一个潜在的匹配算法应用于2个数据集( DS1,DS2),这将为所有DS1 x DS2提供一个分数。
要举例说明这个问题:想象一群求职者在找工作。什么样的工作符合求职者的个人资料,哪些求职者能与工作匹配。
任何指针或文档,你可以指示我来帮助我这个?
投入:
求职者(DS1)
ID | name | skills | bio | ...
u1 | alex | C# | candidate bio blah ...
u2 | john | JVM,AWS| ...
u3 | emma | AWS,CSS| ...
作业(DS2)
ID | name | sp
我有两个很大的列表要比较。我使用retainAll()方法对它们进行了比较,得到了公共元素的列表。但我也想得到类似的比赛。
ArrayList<String> list1 = new ArrayList<String>(Arrays.asList("John","Mary"," Mr. John Marsh","Mrs. Mary Dsouza","abc","xyz"));
ArrayList<String> list2 = new ArrayList<S
我在SQL server中的表中有一些条目,如下所示。
2934046 Kellogg’s Share Your Breakfast 74672 2407522 Kellogg?s Share Your Breakfast ACTIVE 2015-09-01 9999-12-31
2934046 Kellogg?s Share Your Breakfast 74672 2407522 Kellogg?s Share Your Breakfast ACTIVE 2015-09-01 9999-12-31
另一个例子可能是
2939508 UOL Ação Social