专栏首页源懒由码python 行政区域地址标准化:业务经理填报的地址乱起八糟,高德接口有点厉害! -- 后续,使用分词思路完成解析

python 行政区域地址标准化:业务经理填报的地址乱起八糟,高德接口有点厉害! -- 后续,使用分词思路完成解析

对前文 https://www.cnblogs.com/cycxtz/p/13378922.html 思路1进行补充。

可以考虑jieba分词库,不过需要先进行训练。

依赖库:jieba

提前准备:国家统计局所有地区信息,以及地区简写。

下来,对使用jieba分词库的add_word。参考使用网站:https://www.cnblogs.com/qilin20/p/12253067.html

import jieba

content = "韩国东大门单鞋女方头绒面一脚蹬韩版休闲2020春季新款平底毛毛鞋"
result = jieba.cut(content)
print("自定义前:",",".join(result))

jieba.add_word("东大门")
jieba.add_word("女方头")
jieba.add_word("一脚蹬")
jieba.add_word("毛毛鞋")
result = jieba.cut(content)
print("自定义后:",",".join(result))

训练词库以后,对固定字段能准确识别

自定义前: 韩国,东大门,单鞋,女方,头,绒面,一脚蹬,韩版,休闲,2020,春季,新款,平底,毛毛鞋
自定义后: 韩国,东大门,单鞋,女方头,绒面,一脚蹬,韩版,休闲,2020,春季,新款,平底,毛毛鞋

训练完成以后,对每个地址进行分词。

1、匹配顺序为:省->市->县(区)->镇(街道)->城乡

2、分词以后是一个list类型,为避免重复匹配,对已经识别到的分词进行抛弃。采用搜索引擎模式分词,可防止街道信息识别不完整

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import jieba
strt = "我爱北京天安门!"
# 全模式
sl = jieba.cut(strt, cut_all=True)
print("全模式:", ",".join(sl))

# 精确模式,默认为精确模式,所以可以不指定cut_all=False
sl = jieba.cut(strt, cut_all=False)
print("精确模式:", ",".join(sl))

# 搜索引擎模式
sl = jieba.cut_for_search(strt)
print("搜索引擎模式:", ",".join(sl))
全模式: 我,爱,北京,天安,天安门,,
精确模式: 我,爱,北京,天安门,!
搜索引擎模式: 我,爱,北京,天安,天安门,!

3、设定默认省、市、区,如果未找到匹配入口,从默认查找入口进入。对省、市均未能有匹配才选择默认查找入口,因为不些省份直接使用市级的情况也挺多。

需要分析一下,市级有没有重名。

其他事项:

1、局限性:对于结构不明了的地址,存在识别误差。

2、考虑可以增加,省市区均未有匹配才选择默认入口,不过需要对区的简称进行去重判断,如果重复太多,则不宜使用。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python 舆情分析 nlp主题分析 (3) --gensim库的简单使用

    python 舆情分析 nlp主题分析 (1) 待续: https://www.cnblogs.com/cycxtz/p/13663895.html

    forxtz
  • pandas系列 - (三)关于时点时期数据的处理

    实际工作场景中,会遇到需要处理时序表。对于少量的时点时序数据,明细数据+数据透视表,也是很快能处理完成。大量的话,可能会出现有一点慢,同时一些计算字段的每次都要...

    forxtz
  • arp 地址解析协议

    这个时候,就涉及到一个 arp缓存表(<ip,mac>),每个主机都有这么个缓存表,也是为了能够节省网络上arp报文的数量。(分动态项和静态项,动态项的话,就会...

    forxtz
  • 解决Jupyter无法导入已安装的 module问题

    已经用pip install jieba安装好jieba分词工具,但是在Jupyter 里import jieba运行一直提示ImportError: No m...

    砸漏
  • 结巴中文分词原理分析1

    更改分词器(默认为 jieba.dt)的 tmp_dir 和 cache_file 属性,可分别指定缓存文件所在的文件夹及其文件名,用于受限的文件系统。

    伏草惟存
  • 中文分词库 jieba

    使用 python 的 jieba库可以将中文句子分割成一个一个词语, 在机器学习中,可用于生成中文的词向量。我们可以使用 pip 免费安装 jieba 库。

    用户6021899
  • 自动化管理之禅-新人培养

    静儿
  • 结巴分词seo应用,Python jieba库基本用法及案例参考

    Jieba分词是目前使用比较多的中文分词工具,我们在做文本处理以及关键词处理的时候经常需要使用分词技术提取我们需要的核心词信息。

    二爷
  • 微服务架构实战:Swagger规范RESTful API

    导读:本文是EAII微服务系列文章之一。随着微服务架构的流行,REST风格也是大势所趋。那么,什么是REST?如何规范我们的RESTFUL API 文档?本文中...

    yuanyi928
  • 自动化编排工具:Terraform 安装与使用采坑

    Terraform 是一种安全有效地构建、更改和版本控制基础设施的工具(基础架构自动化的编排工具)。Terraform 几乎可以支持所有市面上能见到的云服务。具...

    DevOps时代

扫码关注云+社区

领取腾讯云代金券