我正在使用python regex来读取文档。
我在很多文档中都有下面这一行:
Dated: February 4, 2011 THE REAL COMPANY, INC我可以使用python文本搜索来轻松地找到带有“日期”的行,但我想从文本中提取真正的公司,公司,而不是获得“2011年2月4日”文本。
我尝试过以下几种方法:
[A-Z\s]{3,}.*INC我对这个正则表达式的理解是,它应该让我在LLP之前得到所有的大写字母和空格,但它却拉出了整个行。
这表明我从根本上忽略了正则表达式如何处理大写字母。有没有什么简单明了的解释我漏掉了?
发布于 2018-10-22 03:43:24
你可以使用
^Dated:.*?\s([A-Z ,]{3,})并利用第一个捕获组,请参见。
https://stackoverflow.com/questions/52918006
复制相似问题