我们有一个很大的表(>30M行),其中包含公司名称和其他特征。
数据:
Company_id Type Name Adress (more...)
497651684 8 Big mall Toys'rUs BigMall adress
468468486 1 McDonnnals WhateverStreet
161684314 8 Toys R Us Another street
546846846 1 BgKing BigMall2 ad
我尝试对文本数据进行聚类,数据清晰,标记化等。我如何在Kmeans或其他聚类模型中输入相似度矩阵?
from gensim import corpora
from gensim import models
from gensim.models import Word2Vec, WordEmbeddingSimilarityIndex
from gensim.similarities import SoftCosineSimilarity, SparseTermSimilarityMatrix
documents = list(data['clear_response'])
te
我有一个数据帧,它由两列组成,如下所示。我想使用下面定义的函数来计算所有这些序列之间的Smith Water相似度。
def smith_waterman(seq2, seq1, d=-8):
m = len(seq1)
n = len(seq2)
mat = np.zeros((m+1, n+1)) # Creating empty matrix
# Add elements to all rows and columns
for i in range(1, m + 1):
for j in range(1, n +
为了说明起见,我们假设这是一个论坛服务。我需要计算每个用户的帖子之间的“相似度”,这样结果将如下所示:
among posts by user A, similarity 60%
among posts by user B, similarity 20%
...
我正在处理多字节字符串,所以我想我被搜索引擎卡住了。我们已经使用了Solr,已经实现了moreLikeThis,但是我不太确定如何构造查询。感谢任何人的帮助!
我对整个集群和其他东西都很陌生,所以我有点迷失在编程的最后一步。在已经做了一些工作之后,已经获得了项目和Items_Comp之间的正确相似性。我有一个如下的示例数据集(该值属于Items列): Items Items_Comp Similarity Item Value
A B 0.6 50
A C 0.0 50
A D 0.0 50
A E 0.2 50
B A 0.6 100
B C 0.2 100
B D 0.4 100
B E 0.4 100
C A 0.0 200
C B 0.2 200
C D 0.6 200
C
我用刮刮爬行了几个欺凌论坛,并将结果作为字典使用。
我现在要做的是提取一个句子的关键字,例如He harassed me in the chat,这将给出关键字Harassed和chat,并将这些关键字与我的单词字典进行比较,并为它的相关性分配一个值(在这种情况下,这显然会提供接近1.0的高值,因为它与欺凌非常相关)。
我已经把关键词提取下来了,所以现在我只需要知道如何进行比较。
我看过使用pandas、scikit和nltk的情况,但它们似乎对多个字段的字典最有效,而我只有一袋单词。
有什么NLP库可以帮我吗?如果不这样做,最好的办法是什么?
假设我有五组,我想聚在一起。我理解这里描述的SimHashing技术:
可以产生三个集群({A}、{B,C,D}和{E}),例如,如果结果是:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
同样,MMDS书的第3章中描述的MinHashing技术:
如果其结果是:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E
我正在寻找一个潜在的匹配算法应用于2个数据集( DS1,DS2),这将为所有DS1 x DS2提供一个分数。
要举例说明这个问题:想象一群求职者在找工作。什么样的工作符合求职者的个人资料,哪些求职者能与工作匹配。
任何指针或文档,你可以指示我来帮助我这个?
投入:
求职者(DS1)
ID | name | skills | bio | ...
u1 | alex | C# | candidate bio blah ...
u2 | john | JVM,AWS| ...
u3 | emma | AWS,CSS| ...
作业(DS2)
ID | name | sp