我想从文本和打印中提取一些关键词,但是怎么做呢?
这是我想从中提取的样本文本。
text = "Merhaba bugun bir miktar bas agrisi var, genellikle sonbahar gunlerinde baslayan bu bas agrisi insanin canini sikmakta. Bu durumdan kurtulmak icin neler yapmali."
这是从文本中提取的关键字示例。
keywords = ('bas agrisi', 'kurtulmak')
我想要检测这些关键词
我正在做关键词提取系统,在前置之后,系统通过检查与相同模式匹配的文本来提取候选关键词
现在我想知道如何找到提取的候选关键字含义之间的相似性?例如,让我们看看下面的矩阵:
k1 k2 k3
k1 1 ?1 ?2
k2 ?1 1 ?3
k3 ?2 ?3 1
how can I find the values of (?) ???
where
(?1) refer to the sense similarity degree between (k1) and (k2)
(?2) refer to the sens
给定关键字Product data sheet,如何在匹配后提取第3行,只提取。
例如,给定下面的数据,输出应该是XB4BW84M5
Product data sheet
Characteristics
XB4BW84M5
我已经尝试过(Product data sheet)\r\n(.*?)(^.*\r\n){3},但是,也就是要找一些行前2行然后是关键词的东西,但是,它提取了所有3行,我只需要第3行。
Intellij可以用.var+tab提取变量。例如: new ().var+ enter,然后得到: ArrayList list =newArrayList<>();
但是在pycharm中,我不能这样做,谁能告诉我如何用.var+tab提取变量。穿着侏儒服。
ps:我在谷歌搜索,问题的关键词是‘后缀完成’,因此,我已经在中找到了pligin,并获得了插件‘自定义后缀模板’,但我不能使用它。
如果句子中包含指定的关键字,我想从段落中提取句子。例如,如果我有一串句子(由它们的句号定义),我想提取包含关键字"school“的句子。
data: "sam goes to school. sam comes home and study. sam is a good boy."
keyword: "school"
Desired Result: "sam goes to school"
我知道你可以用"str_locate_all“和"str_extract_all”来提取单词和他们的位置
例如
str_extrac
我爬过城市维基网页,需要提取这个城市所属的国家。我试图找到包含单词"country“的<th>,而不是回到<tr>,而不是在<td>中找到它,但问题有几个。
(我的第一个工作案例的代码)
a = doc.xpath("//table[contains(@class, 'infobox')]")
b = a[0].xpath("//table//th[contains(text(),'Country') or contains(text(),'country')]")
co
我有一些段落,对于每个段落,我有不同的关键词。例如:
I am a student. I like machine learning...
这里我的关键词是学生和机器学习。我想给它们不同的颜色,比如红色代表学生,黄色代表机器学习。因此,结果应该是这样的:
我可以使用R来做这件事吗?如何做?
另外,我知道Python可以以某种方式做到这一点。例如:
from spacy import displacy
doc = nlp('I just bought 2 shares at 9 a.m. because the stock went up 30% in just 2 days
我正在寻找一个软件,给一些文字,将提取“有意义”的关键字。例如,在句子中:
StackExchange is an online community.
我希望将"StackExchange“和"online community”作为语义上有意义的关键词,而不是"is“或"an”。
一些研究导致了,它很好地完成了这项工作。有没有其他的解决方案,特别是开源的?
我想知道中是否有一个函数,可以用它提取列中每个单元格的给定字符串(类似于substring(),但以字符串作为条件)。
例如,我想从下面的专栏(命名的歌词)中提取关键词SUN和乐趣。
歌词
AeSUN9SL
Pla4FUNP
L2wqSUNop
ASUNfdNNK
7dssFUN9SL
所以我只剩下:歌词
SUN
FUN
SUN
SUN
FUN
在专栏里。由于字符串关键字前后的长度以及“未使用”字符的数量不同,所以我不能使用left()和right()。
还有别的办法解决这个问题吗?