使用Python采集天猫商家店铺联系方式


1、查询商家信息

很多初创公司为了获得客户资源,通常会有大量的可拜访客户信息的需求。如果是在以前,那么可以通过查看黄页上的企业信息数据,获得企业的联系方式,从而联系上企业负责人得以亲自拜访,获得业务上的扩展。

而在互联网领域、电子商务领域,第一大的客户来源毫无疑问是属于淘系的。

如果我们想要获取到这些天猫商家的联系方式怎么办?大家应该各有各的方法,在此州的小秘书用Python实现了一种比较方便的方法。下面细细说来:

在天猫平台,平台为了验证商家的可靠性,除了需要缴纳巨额的某某费用之外,还需要店铺提供对应的工商执照信息以保证店铺信息的真实性,避免什么什么阿猫阿狗小作坊也进驻了天猫平台。

这个工商执照信息从哪里看到呢?就在天猫店铺的页面,店铺名称信息附近就可以查看得到,如下图所示:

点击工商执照后面的国徽,我们就可以看到天猫店铺对应的在工商部门登记注册的企业信息:

当然,前提是要输入了准确的验证码信息:

在得到了天猫店铺对应的企业名称之后,我们就可以通过目前市面上的企业信息查询工具进行查询了,比如使用某某查等网站:

这样,就完成了天猫商家企业信息数据的简单查询。

2、流程自动化

人工查询起来很是麻烦,所以自己用Python将这一系列步骤简单整合了一下,得到一个简简单单毛毛糙糙的数据采集小工具。

运行程序,首先输入天猫店铺的关键词和地域以获取天猫商家列表:

然后通过天猫商家列表,获取商家的企业信息:

最后得到的结果写入CSV文件中:

3、一些已经发现的难点

3.1、验证码识别

查看店铺的工商信息之前,需要输入字母有变形的验证码,使用普通的orc识别肯定是搞不定的:

当然有解决方法,自己训练神经网络或者调用外部打码平台都可以,看个人情况考虑。

3.2、文字识别

店铺的工商执照信息是以图片的形式显示出来的(还有水印),如何正确的从其中提取出企业名称来,也是需要考虑的。

怎么处理更加有效?

欢迎留言讨论分享

发表评论

电子邮件地址不会被公开。