使用Python爬取天猫店铺联系方式|思路与方法

1、获取商家信息

很多初创公司为了获得客户资源,通常会有大量的可拜访客户信息的需求。如果是在以前,那么可以通过查看黄页上的企业信息数据,获得企业的联系方式,从而联系上企业负责人得以亲自拜访,获得业务上的扩展。

而在互联网领域、电子商务领域,第一大的客户来源毫无疑问是属于淘系的。

如果我们想要获取到这些天猫商家的联系方式怎么办?大家应该各有各的方法,在此州的小秘书用Python实现了一种比较方便的方法。下面细细说来:

在天猫平台,平台为了验证商家的可靠性,除了需要缴纳巨额的某某费用之外,还需要店铺提供对应的工商执照信息以保证店铺信息的真实性,避免什么什么阿猫阿狗小作坊也进驻了天猫平台。

这个工商执照信息从哪里看到呢?就在天猫店铺的页面,店铺名称信息附近就可以查看得到,如下图所示:

点击工商执照后面的国徽,我们就可以看到天猫店铺对应的在工商部门登记注册的企业信息:

当然,前提是要输入了准确的验证码信息:

在得到了天猫店铺对应的企业名称之后,我们就可以通过目前市面上的企业信息查询工具进行查询了,比如使用某某查等网站:

这样,就完成了天猫商家企业信息数据的简单查询。

2、流程自动化

人工查询起来很是麻烦,所以自己用Python将这一系列步骤简单整合了一下,得到一个简简单单毛毛糙糙的数据采集小工具。

运行程序,首先输入天猫店铺的关键词和地域以获取天猫商家列表:

然后通过天猫商家列表,获取商家的企业信息:

最后得到的结果写入CSV文件中:

3、一些已经发现的难点

3.1、验证码识别

查看店铺的工商信息之前,需要输入字母有变形的验证码,使用普通的orc识别肯定是搞不定的:

当然有解决方法,自己训练神经网络或者调用外部打码平台都可以,看个人情况考虑。

3.2、文字识别

店铺的工商执照信息是以图片的形式显示出来的(还有水印),如何正确的从其中提取出企业名称来,也是需要考虑的。

怎么处理更加有效?

欢迎留言讨论分享

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2018-05-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏码匠的流水账

聊聊EurekaRibbonClientConfiguration

spring-cloud-netflix-eureka-client-2.0.0.RELEASE-sources.jar!/org/springframewor...

1171
来自专栏积累沉淀

Hive2.0.0操作HBase 1.2.1报错解决

首先看错  org.apache.hive.service.cli.HiveSQLException: Failed to open new session: ...

2369
来自专栏CreateAMind

文字描述生成视频的开源项目

Tensorflow implementation for the paper Attentive Semantic Video Generation usin...

1132
来自专栏码匠的流水账

聊聊spring cloud的AbstractLoadBalancingClient

本文主要研究一下spring cloud的AbstractLoadBalancingClient

842
来自专栏成长道路

JDBC动态SQL语句连接orcale数据库的工具类

import java.sql.Connection; import java.sql.DriverManager; import java.sql.P...

2510
来自专栏听雨堂

想修改CSS

      下载了一个“通用”的CSS文件,本来想偷懒的,结果发现有问题,就是它用的颜色是变量定义的,无法识别。我又找不到在哪里可以定义。 BODY{     ...

20410
来自专栏跟着阿笨一起玩NET

C#巧用Excel模版变成把Table打印出来

转载:http://blog.csdn.net/gwblue/article/details/38865525

1202
来自专栏菩提树下的杨过

winform中linkLabel的用法(示例)

private void Form1_Load(object sender, EventArgs e)         {             this...

1935
来自专栏飞扬的花生

日志帮助类

 1.代码 using System; using System.Collections.Generic; using System.Linq; using S...

1919
来自专栏c#开发者

C# : row-clickable GridView and get and set gridview rows using JavaScript

Complete C# code: ---------------- using System; using System.ComponentModel; ...

2996

扫码关注云+社区