我试图用Python解析重复的文本块,它们都以‘因此,文本文件将如下所示。基本上,我希望能够找到每个块(单词、数字和特殊字符),并对它们进行进一步分析。下面的代码和我得到的一样接近,但是它返回整个文档,而不是每个块。任何帮助都将不胜感激。
block_search = re.compile('----BEGIN---.*---END',re.DOTALL)
with open(file,'r',encoding='utf-8') as f:
text = f.read()
result = re.findall(block_sea
我编写了以下python代码来删除重复的代码:
lines_seen = set()
outfile = open("out.txt", "w")
for line in open("file.txt", "r"):
if line not in lines_seen:
outfile.write(line)
lines_seen.add(line)
outfile.close()
上面的代码正确地工作,并删除完全相同的重复,但我希望能够从一行中删除具有3个或更多精确单词匹配的重复项。例如
我需要在每一行中选择第一个单词,并从文本文件中列出一个列表:
所有其他文本都是不必要的。
我试过了
string=[]
for line in f:
String.append(line.split(None, 1)[0]) # add only first word
从另一个解决方案,但它始终返回一个“索引超出界限”错误。
我可以使用string=text.partition(' ')[0]从第一行中获得第一个单词,但是我不知道如何在其他行中重复这个单词。
我对python和网站还不熟悉,我希望我的格式是可以忍受的!(打开时,我将文本编码为接受符号,比如wikitxt=
我有一个python代码,它花费了太多的时间(实际上它从未完成)
imp_pos_words = ' '.join([i for i in pos_word_ls if i not in unimp_words])
'unimp_words‘是一个包含99,000个字母单词的列表'pos_word_ls’是一个由15,40000个字母组成的列表
实际上,我想从“unimp_words”中省略“pos_word_ls”中的所有单词
PS:'pos_word_ls‘有重复的单词,所以我不能键入,把它转换成一个集合,然后执行减号。
(请帮助:)
如何使用命令行工具从一行文本中筛选出一些单词?
示例:
line 1: All's Well That Ends Well
filter: That Well
output: Well That Well
注意:过滤后,重复出现的情况仍会出现两次。
除了一行GNU实用程序之外,我还可以使用Python脚本。
我有一个包含语音单词的音频文件。我确信它包含单词,我需要检测单词的开头和结尾。 有没有关于如何使用python做到这一点的想法? 这就是我所做的。我试着用演讲_Python中的识别库。 import speech_recognition as sr
r = sr.Recognizer()
with sr.WavFile("a.wav") as source:
audio = r.record(source)
try:
list = r.recognize_google(audio,k
我希望能够输入一个单词,并让python计算前一段中该单词的数量。 这是一个程序,可以帮助你知道一分钟内你能读到多少单词。打印一个段落,并设置一个计时器,持续一分钟。当一分钟结束时,用户输入他们在段落中达到的单词,程序必须告诉你到那个段落为止你读了多少个单词。 print ('write start to begin the program')
x = ('')
if x == (''):
x = input()
if x == 'start':
import threading
def yyy()
我有一个单词列表,我尝试在python中将复数单词转换为单数,然后删除重复的单词。我是这样做的: import spacy
nlp = spacy.load('fr_core_news_md')
words = ['animaux', 'poule', 'adresse', 'animal', 'janvier', 'poules']
clean_words = []
for word in words:
doc = nlp(word)
for token i
嗨,我在python中有一个压缩任务来开发代码,如果输入是
'hello its me, hello can you hear me, hello are you listening'
那么输出应该是
1,2,3,1,4,5,6,3,1,7,5,8
基本上,每个单词都被分配了一个数值,如果单词重复,那么单词也会重复。这是用python写的代码,请帮我谢谢
我正在尝试创建一个循环,该循环将搜索一个字符串,以查找多次出现的特定单词,然后打印随后出现的12个字符。
我已经使用下面的代码找到了每个重复单词的索引位置。
a = [m.start() for m in re.finditer("username", str(Searchable_String))]
print("index Locations:", a)
它给出了如下列表中的输出。
index Locations: [61, 216, 371, 526, 681, 836]
现在,我试图从列表中的每个索引位置打印字符串,但无法确定这一点。
我刚开始使用pyt
我有一项任务,我必须在一个句子中按单词的长度打印单词。例如:
Sentence: I like programming in python because it is very fun and simple.
>>> I
>>> in it is
>>> fun and
>>> like very
>>> python simple
>>> because
如果没有重复:
Sentence: Nothing repeated here
>>> here
>>
我正在尝试从一组字符串中创建一个单词列表,然后删除该集合中至少30个字符串中未重复的所有单词。全集大约有30万个单词。由于某些原因,检查一个单词是否在整个30次中重复的代码的运行时间至少超过5分钟,我想知道如何才能使这段代码更有效率,使其具有合理的运行时间。谢谢!
word_list = []
for item in ex_set:
word_list += (list(dict.fromkeys(item.split()))) #remove unique words
vocab_list = []
for word in word_list: #where it runs for
我有单词*句子矩阵,其中句子有整数,表示文本文档中的句号,从这个矩阵中,我构造了1D数组,1*N表示单词,其中句子是按数排列的。一旦完成上述步骤,我就采用了交集来检查哪些单词一起出现,哪些句子中的代码如下:
OccursTogether = cell(length(Out1));
for ii=1:length(Out1)
for jj=ii+1:length(Out1)
OccursTogether{ii,jj} = intersect(Out1{ii},Out1{jj});
end
end
celldisp(OccursTogether)
示例输出结果如下:第一个单词出现在句子{51016
要添加python语法规则,我将执行如下操作:
"Highlight the word self -- self.new, self
syn match pythonSelf /\<self\>/
:hi pythonSelf guifg=#5f9ba9
但是,我想突出显示所有大写的单词,如果它们是,则只有在python字符串中。例如,在下面的图像中:
第15行不应高亮显示ALTER单词,但应突出显示第20-21行之间的单词。是否可以添加这样的内容:
syn match sqlKeyword /[A-Z]\+/
但是,如果包含在p
请原谅标题,我真的不知道如何恰当地表达这个问题,但希望我下面的描述表明了我正在尝试做的事情。我想要从一大组句子(10,000个)中匹配句子,这些句子具有来自预定列表的连续单词。我曾经使用过正则表达式,但我对它的了解还不够,不知道这在正则表达式中是否实用。
我有两个唯一的通配符列表,每个列表总共包含20个条目。句子中的连续通配符模式可以长达8个单词。
Fruit = List of 20 Fruits
Objects = List of 20 Objects
通过以下方式查找匹配的句子:
* Fruit Object Fruit Object Fruit Object Fruit Object
sentence = input("Please enter a sentence:")
words = sentence.split()
position= [0]
myList = []
[myList.append(x) for x in words if x not in myList]
a =(" ".join(myList))
print (a)
这段代码允许用户输入一个句子,并删除重复的单词。当程序输出句子时,它输出的句子如下:
例如,如果我的句子是‘我喜欢python’,我的程序就会在屏幕上打印I like python
我需要帮助