我正在构建一个地址匹配算法。主要的问题是,以往的模型,如Paserator的条件随机场(CRF)模型和Libpostal的平均Perceptron模型,都不能正确匹配地址实体。
我使用的免费样本来自AddressBases溢价https://www.ordnancesurvey.co.uk/business-government/products/addressbase-premium。
当我像这样解析算法的地址时,我希望:
bert.parser('FLAT ABC 7-9 TEDWORTH SQUARE LONDON SW3 4DU')
它将以高精度返回解析的令牌。
('BuildingName', '7-9'),
('StreetName', 'TEDWORTH SQUARE'),
('TownName', 'LONDON'),
('Postcode', 'SW3 4DU')])
我已查阅了AddressNet,Usaddress,Deepmatcher和中文地址,以及(伯特) https://huggingface.co/cola/chinese-address-ner的中文地址
我正在寻找与伯特(RNN,lSTM)的英语为这个问题的东西。
发布于 2022-04-26 01:20:59
NER是匹配地址的选项之一,但是您必须准备数据集来训练伯特模型,比如BuildingName、StreetName、TownName和PostCode。伯特基础模型没有足够的知识来识别它。你必须用数据来喂养它。
此外,地址是一个有趣的话题,当人们搜索地址时,他们可以使用他们的知识或免费文本进行搜索,甚至是打字。具有余弦相似性的语义搜索可能会有所帮助。
https://stackoverflow.com/questions/69394501
复制相似问题