作者: 州的先生

【数据集】100万以大学专业为关键词的职位数据

数据源自之前的爬虫所爬取的数据,数据一共100多万条,有5个字段:时间、地点、职位名称、月薪、专业名称,可以用来做大学专业的一些统计分析; 部分截图如下:   百度网盘下载链接:http://pan.baidu.com/s/1jIJkFLs 关注微信公众号:州的先生,回复关键字:大学专业1...

加盟创富好项目?简单可视化分析告诉你78网上到底都有啥!

数据来源于本月早些时候从78网上爬取到的768份数据,数据量不大,但是可以深入挖掘的地方还是有不少的,由于时间关系,在此只作简单的数据处理和可视化分析; 一、数据集概览: aear cate subcate name maxmoney minmoney activetime 0 广东省 服装鞋包 女...

在Pandas中直接加载MongoDb的数据

在使用Pandas进行数据处理的时候,我们通常从CSV或EXCEL中导入数据,但有的时候数据都存在数据库内,我们并没有现成的数据文件,这时候可以通过Pymongo这个库,从mongoDB中读取数据,然后载入到Pandas中,只需要简单的三步。 第一步,导入相关的模块: import pymongo ...

一个简单的多进程爬虫(爬取某加盟创业网)

分享一个简单的多进程小爬虫,爬取某加盟创业网上所有加盟项目; 使用requests请求页面,re和beautifulSoup解析网页,multiprocessing进行多进程,pymongo数据入库; (打开网站时发现密密麻麻、琳琅满目的加盟项目,但是爬完之后,发现数据也就只有那么一点点,甚至不到一...

运用汽车数据进行Python可视化分析

数据来源 vehicles.csv是一份来自于www.fuelconomy.gov 的数据,它包含了美国各个汽车制造商各个型号汽车不同时间点的油耗表现参数和各个汽车型号丰富的其他特性和属性,为我们整理和分组分析数据以发现有趣的趋势和关系提供了机会 分析过程 描述汽车油耗数据: # 导入相关的库 im...

使用Matplotlib轻松绘制股票K线图

K线图是看懂股票走势的最基本知识,K线分为阴线和阳线,阴线和阳线都包含了最低价、开盘价、最高价和收盘价,一般的K线如下图所示: 度娘说:K线图源于日本德川幕府时代(1603~1867年),被当时日本米市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入到股市及期货市场。通过K线图,...

想买低价股?看看利用Python对A股低价股的这些数据分析!

大盘不稳,高价股让人心惊,想换点低价股试试水? 新手模拟交易玩腻了,想试试实盘炒股又怕风险太大,考虑从低价股入手? 别看着股价低就下手,看看下面对一些低价股的简单筛选和分析,或许对你有所帮助。 系统环境:Python+Tushare+Matplotlib 一、获取行情数据 import tushar...

在Python中使用tesseract识别验证码

前言 在对网站数据进行爬取的过程中,由于访问过于频繁或是其他的原因,经常会出现输入验证码进行验证的情况,面对这种验证码验证的问题,一般有三种解决方法: 第一种,最简单也是最费时的,手动输入验证码; 第二种,使用一些公司的API接口对验证码进行判别和输入; 第三种,使用tessract对验证码进行识别...

分类目录: 数据采集编程

标签: Python验证

在Python中使用Phantomjs模拟登录QQ空间

一、问题来源 在使用Python进行数据爬取的过程中,我们一般使用Selenuim自动化测试工具对需要进行登录验证和动态JS数据的站点进行爬取。而与Selenuim相对应的浏览器组件,为了方便起见,一般使用FireFox或Chrome。 网上有一些关于模拟登录QQ空间的方法,都是使用Selenuim...