我有一个pdf,看起来是这样的:
我想把编号的项目提取到字典里:
output = {'01': 'Agriculture and related service activities',
'011': 'Growing crops, market gardening and horticulture'...}
目前,我正在使用tika从pdf中提取文本。但是我现在需要一个regex表达式来从内容中提取编号的项。我该怎么做?
from tika import parser
raw = parser.fro