我写了这个正则表达式(在Python3中):(?<![\u0410-\u042F])([.!?])(?=(\s)?(\s)?[0-9])它用西里尔语拆分句子。它们是由\n分隔的。因此,它应该拆分以下内容:
Мамлекеттик айыптоочу Биринчи май райондук сотуна берген бул сунушун диний кастыкты ырбатпоо但是由于某些原因,句点(最后一
问题4.编写一个创建新单词列表的循环,使用字符串方法从问题3中创建的列表中去掉所有前导和尾随标点符号。提示:上面导入的字符串库包含一个名为标点符号的常量。三行代码。好的,我已经完成了如下代码:text = ("There once was a man in Idaho, he invented the potato.")
listW
我试着移除标点符号,但是它似乎没有效果。我是不是漏掉了什么?这是我使用的代码行:s.replaceAll(“(a +)?key + " has been found " + counter + " times.");通过使用s = s.replaceAll("\W",“”),我设法找到了一个解决方案(尽管可能不是理想的);谢谢大家关于如何解决这个问题的指导。
我正在对单词列表执行以下操作。我从Project Gutenberg文本文件中读取行,将每行用空格拆分,执行一般的标点符号替换,然后将每个单词和标点符号打印到各自的行中,以便以后进一步处理。我不确定如何将每个单引号替换为标记或排除所有撇号。我当前的方法是使用已编译的正则表达式:
apo = re.compile("[A-Za-z]'[A-Za-