我目前正在尝试从一个不包含单词列表中任何单词的列表中提取句子。
列表中有字母和数字,大写和小写。
我成功地提取了句子列表中包含的单词,但由于某种原因,我无法从不包含单词列表中任何单词的句子列表中提取句子。
下面是输入的一些Pseaudo代码,与预期的输出相反,以使其可视化:
//input
var list1 = ["sentence with word1", "sentence with word2", "sentence without 3"];
var list2 = ["word1", "word2", &
我正在尝试使用Python从文本中提取句子。文本中的每个单词都写在一行中,并带有与该单词相关的附加信息:
Mary Noun Name
loves Verb No-Name
John Noun Name
. Punct No-Name
句子边界用一条空线标记。我想要提取包含具有某些特定特征的单词的整个句子(例如,带有名称的句子)。
到目前为止,我只提取了感兴趣的单词,而不是整个句子。我使用.readlines()逐行阅读文本。然后,我循环遍历这些行,并使用re和.split('\t')来拆分这些行,这样每一行都由一个包含3个元素的列表表示。然后,我将列表中的元素与所需的值进行匹
我有一个数据框架,在一列中,我有一个全文,其中有多个非常长的句子。我使用NLTK对文本进行标记化,但现在我需要确保只从给定的完整单词的长列表中提取包含任意单词的句子。我写了下面的代码,但它的问题是,它不是作为一个整体检查文本中的单词,而是例如在搜索列表中找出一个给定的单词,比如'tic',它选择一个包含单词‘统计’的句子。
symptoms = [long list of words ~ about 100]
new_df = df[df['Sentence'].str.contains('|'.join(symptoms))]
就在这段代码之上
我试图返回列表中包含“任意”单词的所有句子,但结果只返回列表中第二个单词的句子。在下面的例子中,我想提取包含通货膨胀和商品的句子,而不仅仅是商品。任何帮助都将不胜感激。
text = 'inflation is very high. commodity prices are rising a lot. this is an extra sentence'
words = ['inflation', 'commodity']
for word in words:
[words.casefold() for words in words] #
如何使用Stanford Parser提取包含特定单词的名词短语。我可以使用这篇文章中写的代码来提取名词短语:
但是,我需要获取包含特定单词的名词短语,但是这并不像进行字符串搜索那么简单,因为该单词可以在句子中出现两次。因此,我需要提取包含句子特定顺序的特定单词的名词短语。假设我有这样一句话:
String some_sentence = "The dog ran after the intruding bigger dog";
狗出现了两次,第一次作为句子中的第二个单词,第二次作为句子中的最后一个单词。如何提取包含第一次出现的狗的名词短语?
我使用Python Scrapy删除了数百万篇报纸文章。现在,我想提取一个包含一个单词的句子。下面是我的实现。
import nltk
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
for a in articles:
article_sentence = tokenizer.tokenize(a)
for s in article_sentence:
for w in words:
if ' '+w+' ' in
我有一个数据集,其中一个列包含了句子,在一些句子中,单词被拼凑在一起。如果每行都有,我想提取这个单词。成分列表=‘水’,‘牛奶’,‘酵母’,‘香蕉’,‘糖’,‘香蕉’。我使用这段代码提取单词
ingredients_list=['water','milk', 'yeast', 'banana', 'sugar', 'ananas']
path = '|'.join(r"\b{}\b".format(x) for x in ingredients_list)
ing_l
假设我有一个很长的文本。 doc = "I was chasing a dog. I ran after it for a long time.
...
...
...
However, after running for about an hour, I caught the dog" 经过一些处理和计算,我知道单词‘i’有起始索引,即doc[i:i+4]="time"。我的问题是,有没有一种有效的方法可以从包含单词doc的doc变量中提取句子?在这种情况下,我应该得到的句子是 I ran after it for a long time. 那么,
我有一个完整的单词列表,其中有正确的拼写,名为ref.txt。我有一个句子的清单,我设法从他们的单词提取使用regex。我将用一个例子来阐述它。
假设ref.txt包含- Mumbai , Andheri ,Jacob Circle, Bandra。我有一个句子清单,比如-
['Blue Meadows near andhri ', 'Oberoi Heights opp windy road off Bnadra' ,
'Red Heavens club ,behind Mumbia club near Jacob Circle']
关于
<s> an evolutionary immune network for data clustering </s>
<s> an evolutionary immune network for data clustering </s>
<s> inet an extensible framework for simulating immune network </s>
<s> immunity based systems a survey </s>
<s> a recommender
我想从给定一个list_of_keywords的句子中提取关键字。
我设法提取出准确的单词
[word for word in Sentence if word in set(list_of_keywords)]
是否可以提取与给定的list_of_keywords具有良好相似性的单词,即两个单词之间的余弦相似度大于0.8
例如,给定列表中的关键字是“过敏”,现在这个句子被写成
“她吃的那顿饭对坚果有严重的过敏反应。”
“过敏”与“过敏”之间的余弦距离可计算如下
cosdis(word2vec('allergy'), word2vec('allergic'))
如果句子中包含指定的关键字,我想从段落中提取句子。例如,如果我有一串句子(由它们的句号定义),我想提取包含关键字"school“的句子。
data: "sam goes to school. sam comes home and study. sam is a good boy."
keyword: "school"
Desired Result: "sam goes to school"
我知道你可以用"str_locate_all“和"str_extract_all”来提取单词和他们的位置
例如
str_extrac
我有一个句子列表,我想要识别其中至少没有一个单词与另一个列表中包含的单词相匹配的所有句子。我尝试使用列表理解来实现这一点,如下所示 [sentence for sentence in sentences if word_list is not in sentence] 这是不起作用的,因为我正在询问单词列表中的单词是否不在句子中。 我需要的关键功能是能够识别所有在单词列表中没有与单词匹配的单词的句子。我正在寻找ASR错误,我有一个单词列表,其中至少有一个必须在每个句子中或该句子有ASR错误。 我可以弄清楚如何使用grep -v并通过管道将它们连接在一起,但我想用Python语言来实现。
我有一个dataframe,它在一列中包含句子、我从该列中提取的特定单词,第三列包含第二列中单词的同义词列表:
data= {"sentences":["I am a student", "she is my friend", "that is the new window"],
"words": ["student","friend", "window"],
"synonyms":[["pupil"],[&
我的目标是从包含关键字列表中任何单词的文本文件中提取句子。我的脚本清理文本文件,并使用NLTK标记句子和删除停止词。这部分脚本运行良好,并产生了看起来正确的产出,“确认更新后的2020年区间指引长期收益股息增长前景”,“最后期待未来几个月增加与现有潜在投资者的接触”,“打开”我为提取包含关键字的句子而写的脚本不像我想的那样工作。它提取关键字,而不是它们发生的句子。输出结果如下:“”、“影响”、“区域”
fileinC=nltk.sent_tokenize(fileinB)
fileinD=[]
for sent in fileinC:
fileinD.a
这段代码非常适合这个英文句子。
但是当我尝试用印地语写一个句子时,它给我的错误是单词不在列表中。
这是我的印地语句子:
प्रखर बुद्धि तेजस्वी बालक राजेन्द्र बाल्यावस्था में ही फारसी में शिक्षा ग्रहण करने लगा और उसके पश्चात प्राथमिक शिक्षा के लिए छपरा के जिला स्कूल |
我想提取与单词बालक相邻的单词。
Python代码:
import re
sentence = 'The world is a small place, we should t
我已经有了一本字典,其中包含从整个文本(文件)中提取的单词及其计数(高发生率)。
下一步是检查文本中每个句子中每个单词的出现情况。
保留一个单词出现率很高的句子。
例如:
List<string> list = new List<string>();
list.Add("This this is a string.");
list.Add("String words accurences needs to be checked.");
list.Add("how many times do this
我正在使用一个大语料库(~30 of ),我需要提取包含单词列表(~5000)的句子,包括标点符号。我正在使用regex方法,但对于有关该方法的效率的任何建议,我都持开放态度。下面的代码提取包括“无政府主义”在内的句子,但没有从获得的标点符号。
f_in = open(f_path, 'r')
for line in f_in:
sentences = re.findall(r'([^.!?]*anarchism[^.!?]*)', line)
输入:
anarchism, is good. anarchism? anarchism!
实际回报:
[
好的,我来简化我的问题:
我有一个(文档)列表,其中包含一些(句子)列表,作为str。像a = [['Sent1 from first doc!','Sent2 from first doc.'],['Sent1 from 2nd doc.','Sent2 from 2nd doc.']]一样
现在我试着把每个句子分成一个单词列表。因此,我可能会有一个(文档)列表,其中包含一个(句子)列表,其中每个都包含一个列表(字符串形式是句子中的单词)。
不幸的是,我的代码生成了一个包含每个单词的(句子)列表。因此,我忘记了每个句子来自哪个文
我试着从熊猫列中提取一个选择的单词列表,这是一个段落,如果它们存在的话,创建一个只包含这些单词的列(这是指标列表)。当我应用自定义函数时,我会不断地得到随机批次的字母。下面是我尝试的一个不能工作的函数:
indicators = "|".join(("banana tree", "climate change", "warming", "dinosaurs"))
def indication_find(x):
for words in x:
if words in indicators:
这里有一张sentences = ['Ask the swordsmith', 'He knows everything']的哨兵名单。目的是从单词列表lexicon = ['word', 'every', 'thing']中删除一个单词的句子。这可以通过以下列表理解来实现:
newlist = [sentence for sentence in sentences if not any(word in sentence.split(' ') for word in lexicon)]
请注意,if
这段代码可以提取包含特定单词的句子。问题是,如果我想根据不同的单词提取几个句子,我必须复制几次。有没有几个单词就能做到这一点的方法?有可能给它提供一个数组吗?
String o = "Trying to extract this string. And also the one next to it.";
String[] sent = o.split("\\.");
List<String> output = new ArrayList<String>();
for (String sentence : sent) {
在Swift 4中,我有一个CoreData“句子”模型,它有一个字符串属性"englishsentence“。我也有一个数组的“单词”,并希望获取所有句子,其中的“english句子”属性包含一个或多个单词在数组中。
var words = ["today", "yesterday", "tomorrow"]
这个数组只是一个例子。它应该在运行时更改,并且可以有任意长度。
在获取请求中,我尝试这样做:
let fetchRequest =
NSFetchRequest<NSManagedObject>(entityN
如何检查句子中是否包含单词?我明确地使用了名字、句子和单词,而不是字符串和子字符串。例如:对于句子
$s = "Ala makota, a kot ma przesrane";
调用函数
checkIfContains("kota",$s)
返回false。
而是为了
checkIfContains("makota",$s)
返回true。
我有一个包含句子的文件。我想将这些句子提取到一个列表中,并删除长度为<=3的单词
这就是我现在所拥有的:
with open("./data/pos/train-pos.txt", "r", encoding="utf8") as f:
train_pos = [line.strip().lower() for line in f]
newDoc = [word for word in train_pos if len(word) >= 3]
print(newDoc)
-pos=‘我喜欢苹果’,‘苹果是我最
我有一个有一排排句子的Dataframe。现在,我想从Dataframe中删除所有包含字典/列表中>= x (e.g. 2 or 3)字数的句子,这些词可以看上去如下:dict = {"ice", "water", "rain"}
例如,如果x=2,我想删除句子ice and water are similar to each other,因为它有字典中的两个单词,但是没有ice melts away when it's warm,因为它在字典中只有不到两个单词。
我知道我能从字典中删除包含任何单词的句子:
df[~df.Sente
我使用了以下代码从文件中提取句子(这个句子应该包含部分或全部搜索关键字)
search_keywords=['mother','sing','song']
with open('text.txt', 'r') as in_file:
text = in_file.read()
sentences = text.split(".")
for sentence in sentences:
if (all(map(lambda word: word in sentence, se
我目前正在写一个脚本(在R中),从不同公司高管传记中的句子中提取职位。我有一份职位列表和一份传记中的句子列表,我想知道如何提取每句话中的职位列表。我试着把句子分成几个单词(和职位的标题一样),然后用%in%来匹配它们,它是有效的,但它不能提取出完整的短语(Board of Board就是"Board“和”Director“我不能包括" of”,因为一堆不需要的‘s’将被拉出来。)
job_title <- list("board of directors", "VP of sales")
sentences <- list("