我一直在试图从发票中提取一串(动态的)单词。因为这是产品的描述,所以每一张发票都会发生变化。我试着使用产品编号和查找,但这并不总是有效的,因为在同一张发票中还有其他6-8数字号,有没有办法设置6-8数字号和前面的日期作为参考呢?
Description Productnumber Delivery Amount VAT Price excl. Price incl. Value excl. Value incl.
BenQ XL2430T (24", 1920 x 1080 Pixels) 2774800 21.11.2014 1 8.00% 323.15 349.00 323.15 349.00
LG Nexus 5X (32GB, Quarz, 5.20", Single SIM, 12.30Mpx, 4G) 5636609 03.03.2016 1 8.00% 276.85 299.00 276.85 299.00
所以在这个案子里我想提取的是
这是可能的还是我在尝试不可能的事?
至于目前为止的代码,我使用以下方法提取产品编号:
\b\d{6,7}(?=\s+(?:0[1-9]|[12]\d|3[01])\.(?:0[1-9]|1[0-2])\.[12]\d{3})
但我就是不能把它包括在产品编号上.
(这也只给出了第一个结果,我也需要提取第二个产品代码)
希望这是可以理解的,希望有人能帮上忙。
发布于 2020-08-13 09:53:16
^(?!Description Productnumber)[\w\s(?,".]+\)?\s(?=[\d]{6,8})
演示和解释使用的regex语法:
https://stackoverflow.com/questions/63382017
复制相似问题