使用Python爬取天猫店铺联系方式|思路与方法

1、获取商家信息

很多初创公司为了获得客户资源,通常会有大量的可拜访客户信息的需求。如果是在以前,那么可以通过查看黄页上的企业信息数据,获得企业的联系方式,从而联系上企业负责人得以亲自拜访,获得业务上的扩展。

而在互联网领域、电子商务领域,第一大的客户来源毫无疑问是属于淘系的。

如果我们想要获取到这些天猫商家的联系方式怎么办?大家应该各有各的方法,在此州的小秘书用Python实现了一种比较方便的方法。下面细细说来:

在天猫平台,平台为了验证商家的可靠性,除了需要缴纳巨额的某某费用之外,还需要店铺提供对应的工商执照信息以保证店铺信息的真实性,避免什么什么阿猫阿狗小作坊也进驻了天猫平台。

这个工商执照信息从哪里看到呢?就在天猫店铺的页面,店铺名称信息附近就可以查看得到,如下图所示:

点击工商执照后面的国徽,我们就可以看到天猫店铺对应的在工商部门登记注册的企业信息:

当然,前提是要输入了准确的验证码信息:

在得到了天猫店铺对应的企业名称之后,我们就可以通过目前市面上的企业信息查询工具进行查询了,比如使用某某查等网站:

这样,就完成了天猫商家企业信息数据的简单查询。

2、流程自动化

人工查询起来很是麻烦,所以自己用Python将这一系列步骤简单整合了一下,得到一个简简单单毛毛糙糙的数据采集小工具。

运行程序,首先输入天猫店铺的关键词和地域以获取天猫商家列表:

然后通过天猫商家列表,获取商家的企业信息:

最后得到的结果写入CSV文件中:

3、一些已经发现的难点

3.1、验证码识别

查看店铺的工商信息之前,需要输入字母有变形的验证码,使用普通的orc识别肯定是搞不定的:

当然有解决方法,自己训练神经网络或者调用外部打码平台都可以,看个人情况考虑。

3.2、文字识别

店铺的工商执照信息是以图片的形式显示出来的(还有水印),如何正确的从其中提取出企业名称来,也是需要考虑的。

怎么处理更加有效?

欢迎留言讨论分享

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2018-05-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网杂技

为什么电脑没有AB盘? 看完有一种淡淡的忧伤..

这可能是一件大多数90后都不知道的事儿,我们现在的电脑的第一个分区都是C盘,那么问题来了:AB盘去哪儿了? 最近国外网站TodayIFoundOut(今天我又g...

3668
来自专栏企鹅号快讯

网络安全:你可能被“潜规则”了

信息安全公益宣传,信息安全知识启蒙。 教程列表见微信公众号底部菜单 如今,在网络平台上,先“注册”再使用服务已经成为大家习以为常的事情。但是,如果有一天用户想彻...

1999
来自专栏ThoughtWorks

为低资源地区建造数字化医药库存系统

撒哈拉以南的非洲国家在抗击疾病和延长寿命方面的指标远远低于世界平均标准。医护人力资源的短缺和医疗信息系统的落后是导致人民无法获得医疗保障的两个重要原因。 对于发...

2913
来自专栏安恒信息

你知道吗:facebook员工无需密码,就能访问你的账号!

毫无疑问,在不久的将来,Facebook和其他大型科技公司:包括谷歌,苹果和雅虎正试图通过采用终端到终端通信加密解决方案,来确保他们的数据不会被执法、间谍机构窃...

2608
来自专栏信安之路

我们来聊一聊渗透测试

最近想了很多关于我们公众号的发展,如何做出我们自己的特点,虽然大家都很喜欢干货文章,我们也在分享干货文章,但是干货文章只要有技术都是可以写出来了,而且很多干货,...

1310
来自专栏云鼎实验室的专栏

安全报告 | 从恶意流量看2018十大互联网安全趋势

 导语: 「天下熙熙,皆为利来;天下攘攘,皆为利往。」太史公一语道尽众生之奔忙。在虚拟的世界,同样有着海量的「众生」,它们默默无闻,它们不知疲倦,它们无穷无尽...

5733
来自专栏官方活动

腾讯双11活动全解析

众所周知,腾讯云一直被大家称为良心云,而隔壁的套路云也已在举行双11的活动,但套路太多,反观腾讯云要良心很多,也更直接,跟着我一起来看看吧。

2775
来自专栏VRPinea

Oculus公开Touch控制器的CAD文件,以便开发者制造集成Touch的新外设

2965
来自专栏Crossin的编程教室

电脑小白如何不被“勒索”

最近上了各大头条的勒索病毒我想大家都有所耳闻。不幸中招的朋友,请允许我拍拍你的肩膀。设身处地地想一下,眼看就要毕业了,结果论文没了……换了谁都不能忍啊。可是你也...

2809
来自专栏歪先生_自留地

回归写作

1566

扫码关注云+社区