我一直在从一个网站上抓取评论数据,在这个过程中,我能够获得一个字符串矢量,其中包含用户名、评论数量、评论日期和国家信息。Susane (222) - Oulu, FINLAND - JUNE 1, 2016", 到目前为止,我可以提取名称问题是国家名称格式不一致,每个字符串中的各种数据点也不是一致地用逗号或破折号分隔
我不太确定问题标题中的术语,但我有一个包含非结构化机构地址的数据框架,我想用一个具有多种可能匹配的查找表提取它们的国家。这些地址看起来可能如下:xxx USxxx United States yyxxx United Kingdom yy
请注意,国家不一定出现在字符串的末尾管道将匹配和提取任何可能是国家名称的名称(从大约20个国家的名单中提取</em