我用刮刮爬行了几个欺凌论坛,并将结果作为字典使用。
我现在要做的是提取一个句子的关键字,例如He harassed me in the chat,这将给出关键字Harassed和chat,并将这些关键字与我的单词字典进行比较,并为它的相关性分配一个值(在这种情况下,这显然会提供接近1.0的高值,因为它与欺凌非常相关)。
我已经把关键词提取下来了,所以现在我只需要知道如何进行比较。
我看过使用pandas、scikit和nltk的情况,但它们似乎对多个字段的字典最有效,而我只有一袋单词。
有什么NLP库可以帮我吗?如果不这样做,最好的办法是什么?
我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离,如果更容易)。这些行都是nan值,因此如果列是nan,则忽略它们。
例如,查询:
A B C D E F
3 2 NaN 5 NaN 4
df =
A B C D E F
2 1 3 NaN 4 5
1 NaN 2 4 NaN 3
. . . . . .
. . . . . .
因此,我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此,对于df中的第0行,B和F在查询和df中都是非空的。
然后,
假设文本为I love apples, kiwis, oranges and bananas,searchString = kiwis and bananas,为。如何有效地在text中找到与searchString相似度最高的子字符串。
基本上,我试图找到部分文本(文本有很高的错误,拼写错误,额外的符号和空格),这与我的关键字列表相匹配。
我有客户和顾问之间的聊天互动话语,我想知道顾问的互动是否包含以下列表中的特定句子或类似的句子:
我在顾问交互中寻找的例句
["I would be more than happy to help you with this",
"I would be happy to look over the account to see how I can help get this sorted out for you",
"I’d be more than happy to look into this for you!",
"Oh, I see
我正在探索句子转换器,并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子,如1)这是第三个例子,2)这是第三个例子。我怎么能预测到这些句子有多相似呢?
from sentence_transformers import SentenceTransformer, InputExample, losses
from torch.utils.data import DataLoader
#Define the model. Either from scratch of by loading a pre-trained model
model = Sen
在Python2.7中,我希望检查一个字符串和列表中的字符串之间的相似性,直到找到匹配为止。
from difflib import SequenceMatcher
def similar(a, b):
return SequenceMatcher(None, a, b).ratio()
correctList = ["thanks", "believe", "definitely"]
myString = "thansk"
for correctWord in correctList:
ratio = s
我正在处理一项任务,需要检查两个dataframe列之间的余弦相似性。我使用两个for循环分别迭代data1和data2的两列。 for i in range(0,len(input_df)):
for j in range(0,len(data1)):
##check similarity ratio
similarity_score= cosine_sim(input_df['Summary'].iloc[i],data1['Summary'].iloc[j])
print(similarity_s
我正在尝试写一个脚本,在那里我将计算几个文档的相似性。我想用LSA来做。我已经找到了下面的代码,并对其做了一些修改。我有一个输入3个文档,然后输出一个3x3矩阵,其中包含它们之间的相似性。我想做同样的相似度计算,但只对sklearn库。这有可能吗?
from numpy import zeros
from scipy.linalg import svd
from math import log
from numpy import asarray, sum
from nltk.corpus import stopwords
from sklearn.metrics.pairwise import
因此,我想要将字典中的每个键相互比较,如果一个键恰好与另一个键太相似(基于模糊相似度),我想将这两个条目合并为一个键(这样一个键将被删除,而值将被相加)。有没有更有效的方法来做到这一点?
D是包含{"labels":句子列表}的字典
# First I create a new dictionary that has a dictionary as value which includes the key and value
# of the old dictionary. It feels a bit redundant but afaik you can
我有一个我标记的文档,然后我取另一个文档,通过计算它们的余弦相似度来比较这两个文档。
然而,在我计算它们的相似性之前,我想先增加其中一个单词的权重。我正考虑把这个单词的数量增加一倍,但我不知道该怎么做。
假设我有以下..。
text = [
"This is a test",
"This is something else",
"This is also a test"
]
test = ["This is something"]
接下来,我定义停止词,并为这两组文档调用CountVectorizer。
我有两个表,其中包含客户信息,如姓名和地址。
ID Name Full Address
1 Anurag 123 CA USA 5001
2 Mike ABC CA USA 5002
3 Jason ZYZ TX USA 5003
4 Roshan HBC MS USA 5004
5 Tony UYS VT USA 5005
New_ID Name Full Address
111 Anurag CH 123 3 Floor CA USA 5001
112 Mike Martin A