爬取了20万淘宝店铺信息,我能干些什么?

下午,写了个简单的多进程爬虫,按照热门类目,爬取了淘宝C点的20多万条店铺信息。 获取了店铺名、卖家昵称、店铺ID、店铺区域、店铺商品数量、店铺销量、店铺好评率…

一个简单的多进程爬虫(爬取某加盟创业网)

分享一个简单的多进程小爬虫,爬取某加盟创业网上所有加盟项目; 使用requests请求页面,re和beautifulSoup解析网页,multiprocessi…

运用汽车数据进行Python可视化分析

数据来源 vehicles.csv是一份来自于www.fuelconomy.gov 的数据,它包含了美国各个汽车制造商各个型号汽车不同时间点的油耗表现参数和各个…

使用Matplotlib轻松绘制股票K线图

K线图是看懂股票走势的最基本知识,K线分为阴线和阳线,阴线和阳线都包含了最低价、开盘价、最高价和收盘价,一般的K线如下图所示: 度娘说:K线图源于日本德川幕府时…

想买低价股?看看利用Python对A股低价股的这些数据分析!

大盘不稳,高价股让人心惊,想换点低价股试试水? 新手模拟交易玩腻了,想试试实盘炒股又怕风险太大,考虑从低价股入手? 别看着股价低就下手,看看下面对一些低价股的简…

在Python中使用tesseract识别验证码

前言 在对网站数据进行爬取的过程中,由于访问过于频繁或是其他的原因,经常会出现输入验证码进行验证的情况,面对这种验证码验证的问题,一般有三种解决方法: 第一种,…

在Python中使用Phantomjs模拟登录QQ空间

一、问题来源 在使用Python进行数据爬取的过程中,我们一般使用Selenuim自动化测试工具对需要进行登录验证和动态JS数据的站点进行爬取。而与Selenu…