专栏首页进击的Coder如何方便快捷地从杂乱地址中提取省市区?

如何方便快捷地从杂乱地址中提取省市区?

假设我们通过爬虫获取了上万条不规范的地址信息:

杭州市滨江区网商路599号
东城区和平里街道
上海市徐汇区 xx 小区
...

现在老板想让你把这些地址统一格式化为标准的省市区地址格式,并写入到 Excel 中。你应该如何操作?

有一个库,叫做 cpca,可以非常方便地解决这个问题。我们来写一段非常简单的代码,看看这个库有多简单:

import cpca

address_list = '''杭州市滨江区网商路599号
东城区和平里街道
上海市徐汇区 xx 小区'''.split('\n')

df = cpca.transform(address_list)
print(df)

这个库能自动根据你写的部分地址,推测出这个地址所在的省市区。即使你把省市区省略了一部分,或者是使用简称,它也能识别出来,如下图所示:

cpca.transform返回的是一个 Pandas 的 DataFrame 对象,我们可以调用它的.to_csv()直接生成 csv 文件。如果我们再安装一个第三方库openpyxl,还可以直接生成 Excel 文件,如下图所示:

大家可以访问 GitHub - DQinYuan/chinese_province_city_area_mapper: 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块[1]查看更多用法,包括如何处理不同城市的同名区,并且还可以绘制热力图。

参考资料

[1]

GitHub - DQinYuan/chinese_province_city_area_mapper: 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块: https://github.com/DQinYuan/chinese_province_city_area_mapper

本文分享自微信公众号 - 进击的Coder(FightingCoder)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • GANs的首次落地应用:为患者制作最合适的假牙

    近几年,计算机视觉发展得非常迅速,许多重要技术,例如目标物体识别、检测、语义分割等,都已经相当成熟。在这篇论文中,我们提出了另一种令人激动的成果——用生成对抗网...

    崔庆才
  • 腾讯云上Winpcap网络编程三之ARP协议获得MAC地址表

    Winpcap提供了一个强大的编程接口,它很容易地在各个操作系统之间进行移植,也很方便程序员进行开发。这里我们直接进入正题吧,关于Winpcap的基础知识讲解这...

    崔庆才
  • 精品连载丨安卓 App 逆向课程之二逆向神器 frida 的介绍

    前阵子受《Xposed模块编写的那些事》[1]这篇文章的帮助很大,感觉有必要写一篇文章。现在最火爆的又是frida,该框架从Java层hook到Native层h...

    崔庆才
  • 使用windbg抓取崩溃文件和分析的过程

            在软件编程中,崩溃的场景比较常见的。且说微软技术再牛X,也是会出现崩溃的场景。网上有一段Win98当着比尔盖茨...

    方亮
  • POJ PKU 3659 Cell Phone Network 解题报告

    题目链接:http://acm.pku.edu.cn/JudgeOnline/problem?id=3659

    owent
  • 资深算法专家解读CTR预估业务中的深度学习模型

    内容来源:2018 年 01 月 05 日,资深算法专家张俊林在“2018 移动技术创新大会”进行《深度学习在CTR预估业务中的应用》演讲分享。IT 大咖说(微...

    IT大咖说
  • 从集装箱历史看DevOps的发展进程

    什么样的技术会带来生产力的极大提升?技术含量是否与生产力提升成正比关系? ? 带着问题,我们先看一个例子:在工业革命时期,瓦特用于“改良”蒸汽机的技术,就是极大...

    ThoughtWorks
  • 我想要系统一点的教程?现在这些太零散了。

    a:有xxx的教程吗? b:给你,xxx教程.rar,下吧,先把文档撸一遍。 a:你这种的百度太多了,我想要系统一点的教程。 ... 上面这类谈话,相信许多人都...

    web前端教室
  • TSQL--临时表和表变量

    1. 临时表适用数据量较大的情况,因为临时表可以建立索引 2. 表变量适用于数据较小的情况,表变量只能在定义时创建约束(PRIMARY KEY/UNIQUE)从...

    用户1217611
  • 在云计算的发展中,我们应该注意些什么?

    云计算的历史其实可以追溯到20世纪60年代,那时作为互联网雏形的“星际计算网络”(intergalactic computer network)的概念刚刚出现,...

    人称T客

扫码关注云+社区

领取腾讯云代金券