哪些Microsoft认知服务(或Azure机器学习服务?)是最好的,也是最少的工作,用来解决查找给定文章的相似文章的问题。文章是一串文本。假设我没有关于文章的用户交互数据。
Microsoft Cognitive Services中有什么东西可以开箱即用地解决这个问题吗?似乎我不能使用推荐API,因为我没有交互/用户数据。
安东尼
我有一个非常有趣的问题,在过去的几天里,我一直在努力解决,但没有运气。我有120k个项目的描述,我必须与38k个项目进行比较,并确定它们之间的相似程度。最终,我想看看在基于相似性的120k内是否存在38k中的任何一个。我在excel中找到了很好的相似性脚本,我把我的数据组织成乘法表,这样我就可以比较从120k到38k的每个描述。请看下面的图片。所以函数是有效的,但是计算量是不可能在excel中运行的。如果我把它一分为二( 120k X 16k),我们谈论的是超过20亿的计算。该功能是比较从A2到B1的描述,然后比较A2到C1的描述,依此类推,直到16k。然后它从A3中进行描述,并做同样的事情,
我把员工的名字保存在文本文件中。我处理了这个文件,并比较了一个已经存在的名称。当我使用most_similar方法检查时,我发现即使在语料库中存在完全相同的名称,它也会返回完全无关的名称。
import gensim
training_file='todel.txt'
mylist=list()
with open(training_file, encoding="iso-8859-1") as f:
for i, line in enumerate(f):
mylist.append(gensim.models.doc2vec.Tag
我想把PostgreSQL、Levenshtein和trigram相似函数结合起来。三角图相似函数的主要优点是可以利用GIN或GIST指标,从而快速返回模糊匹配结果。但是,如果在另一个函数中调用它,则不使用索引。为了说明这个问题,这里有一个plpgsql函数"trigram_similarity“,它调用原始trigram的”相似性“函数。
CREATE OR REPLACE FUNCTION public.trigram_similarity(
left_string text,
right_string text)
RETURNS real AS
$BODY$
我记得看到有人在Oracle中使用一个函数,他们可以在其中指定文本匹配的百分比。例如:
0123456789将与此匹配:1123456789为90%左右(我不是数学家,但希望您能理解……)
我想不出合适的关键字来找到我正在寻找的函数。有人能帮我解决这个问题吗?谢谢。
它可能看起来像这样:
select *
from something s
where matches(s.textcolumn, 'Matching Text') > .9
我们有一个很大的表(>30M行),其中包含公司名称和其他特征。
数据:
Company_id Type Name Adress (more...)
497651684 8 Big mall Toys'rUs BigMall adress
468468486 1 McDonnnals WhateverStreet
161684314 8 Toys R Us Another street
546846846 1 BgKing BigMall2 ad
我目前正在使用的方法get_close_matches方法来迭代15,000个字符串的列表,以获得与另一个大约15,000个字符串的列表最接近的匹配:
a=['blah','pie','apple'...]
b=['jimbo','zomg','pie'...]
for value in a:
difflib.get_close_matches(value,b,n=1,cutoff=.85)
每个值需要.58秒,这意味着完成循环需要8,714秒或145分钟。有没有其他的库/方法可以更快,或
我想从我的数据库中删除类似的数据。现在我可以从我的数据库中删除重复的数据并保留一个。
$sql = "UPDATE `clf_ads` SET `enabled`= '0' WHERE adid NOT IN (SELECT * FROM (SELECT MAX(adid) FROM clf_ads GROUP BY adtitle) x)";
if ($conn->query($sql) === TRUE) {
echo "Record deleted successfully";
} else {
echo "Error de
我有两个表,其中包含客户信息,如姓名和地址。
ID Name Full Address
1 Anurag 123 CA USA 5001
2 Mike ABC CA USA 5002
3 Jason ZYZ TX USA 5003
4 Roshan HBC MS USA 5004
5 Tony UYS VT USA 5005
New_ID Name Full Address
111 Anurag CH 123 3 Floor CA USA 5001
112 Mike Martin A
Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候,我正面临一个问题。这句话如下:
Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies
下面是我的代码
st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',