加盟创富好项目?简单可视化分析告诉你78网上到底都有啥!

数据来源于本月早些时候从78网上爬取到的768份数据,数据量不大,但是可以深入挖掘的地方还是有不少的,由于时间关系,在此只作简单的数据处理和可视化分析; 一、数据集概览: aear cate subcate name maxmoney mi…

在Pandas中直接加载MongoDb的数据

在使用Pandas进行数据处理的时候,我们通常从CSV或EXCEL中导入数据,但有的时候数据都存在数据库内,我们并没有现成的数据文件,这时候可以通过Pymongo这个库,从mongoDB中读取数据,然后载入到Pandas中,只需要简单的三步…

Python爬虫:100万以大学专业为关键词的职位信息爬取

一、系统环境: Windows 7+Python3.4+MongoDB 二、爬取过程: (1)获取大学本科所有专业名称 (2)以专业名称作为搜索关键词获取职位信息的数量 (3)获取职位信息 (4)使用多进程执行程序 最后,抓取了100多万条…

爬取了20万淘宝店铺信息,我能干些什么?

下午,写了个简单的多进程爬虫,按照热门类目,爬取了淘宝C点的20多万条店铺信息。 获取了店铺名、卖家昵称、店铺ID、店铺区域、店铺商品数量、店铺销量、店铺好评率、店铺等级等等信息。 主要思路为: 一、从淘宝店铺搜索页面获取热门的类目信息; …

一个简单的多进程爬虫(爬取某加盟创业网)

分享一个简单的多进程小爬虫,爬取某加盟创业网上所有加盟项目; 使用requests请求页面,re和beautifulSoup解析网页,multiprocessing进行多进程,pymongo数据入库; (打开网站时发现密密麻麻、琳琅满目的加…

运用汽车数据进行Python可视化分析

数据来源 vehicles.csv是一份来自于www.fuelconomy.gov 的数据,它包含了美国各个汽车制造商各个型号汽车不同时间点的油耗表现参数和各个汽车型号丰富的其他特性和属性,为我们整理和分组分析数据以发现有趣的趋势和关系提供…

使用Matplotlib轻松绘制股票K线图

K线图是看懂股票走势的最基本知识,K线分为阴线和阳线,阴线和阳线都包含了最低价、开盘价、最高价和收盘价,一般的K线如下图所示: 度娘说:K线图源于日本德川幕府时代(1603~1867年),被当时日本米市的商人用来记录米市的行情与价格波动,后…

想买低价股?看看利用Python对A股低价股的这些数据分析!

大盘不稳,高价股让人心惊,想换点低价股试试水? 新手模拟交易玩腻了,想试试实盘炒股又怕风险太大,考虑从低价股入手? 别看着股价低就下手,看看下面对一些低价股的简单筛选和分析,或许对你有所帮助。 系统环境:Python+Tushare+Mat…

在Python中使用tesseract识别验证码

前言 在对网站数据进行爬取的过程中,由于访问过于频繁或是其他的原因,经常会出现输入验证码进行验证的情况,面对这种验证码验证的问题,一般有三种解决方法: 第一种,最简单也是最费时的,手动输入验证码; 第二种,使用一些公司的API接口对验证码进…

在Python中使用Phantomjs模拟登录QQ空间

一、问题来源 在使用Python进行数据爬取的过程中,我们一般使用Selenuim自动化测试工具对需要进行登录验证和动态JS数据的站点进行爬取。而与Selenuim相对应的浏览器组件,为了方便起见,一般使用FireFox或Chrome。 网…