我正在使用Google Speech-to-Text API,在我转录一个音频文件后,我得到的文本是两个人之间的对话,它不包含标点符号(谷歌的自动标点符号或扬声器二元化功能不支持这种非英语语言)。name is whatever and this is my problem Can you give me your address please Yes of course 它看起来像一个很大的句子,但我想在出现大写单词时拆分不同的句子,从而具有: Hi you are speaking with cust
使用Python和NLTK,我编写了一个正则表达式来查找正文中以大写字母开头但不在句子开头的单词。[w for w in text if re.findall(r'(?\s)\b[A-Z][a-z]\b',w)] >>> def concat(lists): while len(biglist
>>> tbsents = conca
无论如何,我知道,如果我有一个文本(例如,"test.txt")文件,其中有一堆无价值的分号分隔“密切相关”的句子,我可以查找并替换为:
sed 's/;/.然而,现在我遇到的问题是,所有的新时期后面都是没有第一个字母大写的单词(因为一个词在分号之后不大写)。是否有一种方法(希望通过sed)将文本文件中的所有分号自动替换为句点,并自动大写新插入句点之后单词</
我有几行文本,每隔几行就会有一条类似于“从16秒开始播放视频并跟随转录0:16”的声明(当分钟显示时,可能会有更多的单词)。我能够分离出我想要替换整个句子的文本。因此,最终目标是保留文件中的所有文本,但将句子替换为我的较短文本-在我的示例中,它将是“transpt0:16” with open("transcript.txt", "r") as fhandle:
看,我有一个包含html文本的字符串,我们将其命名为S。S = "<b>this is a sentence. and this is one more sentence</b>"S = <b>This is a sentenceAnd this is one more sentence</b>S = <b>this is a sentence.A