标签: 爬虫

我就想些个爬虫,怎么要学那么多东西?

一开始,老板给了一个任务,需要从网页上复制几百页的数据到本地。一遍一遍的复制粘贴,贴得我身心憔悴。听说有一种爬虫技术,可以自动采集数据,省去了人肉取数的痛苦。 我一听,「诶,这不错,学了就不用再废这双老手了」。 于是网上一搜索,都说 Python 适合写爬虫,而且简单易学,最适合非计算机专业的普通人...

分类目录: 数据采集

标签: 爬虫

「爬虫实战」采集高校历史录取分数线

高考过后,这几天各省份都陆续放榜。 又到了一年一度的高考志愿填报时间,不管考得好,还是考得不好,基本上,都会有学校就读。 大多数时候,我们只能通过过去的高效录取分数线,来做一个参考,筛选出自己的分数能够报考的学校和专业。 家里人最近让州的先生给查查资料,看家里的小朋友大概能报什么学校。 网上一搜,打...

分类目录: 数据采集

标签: Python爬虫

如何用Python实现一个全链路的舆情监控系统

舆情监控系统在过去几年曾是一个比较热门的话题,一般多被应用在政务领域、企业领域等,用于让企业、部门等单位及时获取和了解到网络上舆情的出现和发展,以便及时采取相应的措施,从而控制舆情、引导舆情,化危为机。 最近生意参谋在服务洞察栏目里面也上线了一个商家版的舆情监控系统,州的先生(https://zmi...

实例解析|Python加解密VIP网站反爬请求头实现数据爬取

在正常情况下,对于需要登录的网站,一般只要将登录后的cookie携带到headers中就可以实现认证后的访问请求。但是,也有例外。 最近,州的先生(zmister.com)遇到了一个网站,就是那样的例外。 请求受阻 通过页面调试,找到了其数据接口,如下图所示: 数据在接口的响应中一览无遗,于是按照常...

【代码+数据】Python采集《毛选5》并保存为xhtml文件

一、关于毛选5 《毛泽东选集》第5卷是毛泽东1949年以后著作的选集。这本书的编辑、出版用了近十年的时间,时间贯穿了整个文革。 由于特殊原因,这本书在1982年被停止发行,至今也未重新进行出版。 在豆瓣网站上,这本书获得了8.8的高分评价,可以说很是值得一看。 本篇文章,我们将会介绍从网站下采集毛选...

演示 | 突破淘宝滑块验证,Selenium直接登陆淘宝

前言 众所周知,阿里系的反爬虫技术一直都是业内一流的,随着反爬虫手段的不断加强,淘宝的登录从Selenium操纵webdriver直接登录,到Selenium模拟滑块验证码轨迹完成滑块验证,再到如今的只要是Selenium操纵的webdriver打开的浏览器,滑块验证都不会通过。 仿佛就像黑客世界的...

分类目录: 数据采集

标签: selenium反爬爬虫

破解爬虫过程中遇到的网页异或加密Email地址

1、问题来源 在数据采集过程中,经常有需要采集各种联系方式,其中就包括电子邮箱地址。一些毫不设防的网站的电子邮件地址可以直接从网页源码中获取到,而一些稍微有点防备爬虫意识的网站会将电子邮箱中的@符号替换为#号: 最近工作中,遇到一种之前从未遇到过的电子邮箱加密方式。在审查元素的时候能够获取到正确的数...

各省公考来临,使用Python爬取一波人民日报时评助力正在申论备考的你

各省的公务员考试都已经进入了报名阶段,很多报考了的同学也都在准备进行行测和申论的复习备考。 对于申论,很多同学都会选择一边做题一边看新闻联播、人民日报等官方媒体渠道的方式来备考。 多阅读和观看新闻联播、人民日报等官方媒体,可以提高对时政的掌握,以及了解官方对某些事物的具体态度。 而人民日报时评和社论...

分类目录: 数据采集编程

标签: Python爬虫

通过修改User-Agent标识将PhantomJS伪装成Chrome浏览器

在写爬虫的过程中,出于系统环境或是效率的问题,我们经常使用PhantomJS作为Selenium操纵的浏览器webdriver,而不是直接使用Chrome或FireFox的webdriver,尽管后者更加直观。 PhantomJS的优点虽然很多,但是缺点却也不少,有一个不能称之为缺点的缺点就是,Ph...

Python爬虫入门实战八:数据储存——MongoDB与MySQL

好久没更新了,今天填一个坑。 前面的文章里写的爬虫都是直接把爬取的数据打印出来。在实际的应用中,当然不能这么做,我们需要将数据存储起来。存储数据的方式有很多中,比如存储在文本文件中,或者是存储在数据库中。 为了使用数据的便捷性,我们选择将数据存储在数据库中。 数据库主流的两种类型为:SQL(关系型数...

Python爬虫入门实战七:使用Selenium--以抓取QQ空间好友说说为例

前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据。 但是有的时候,网页数据由JS生成,API借口又死活找不着或者是API借口地址随机变换,时间不等人。那就只能使用Selenium了。 一、...

Python爬虫实战入门六:提高爬虫效率—并发爬取智联招聘

之前文章中所介绍的爬虫都是对单个URL进行解析和爬取,url数量少不费时,但是如果我们需要爬取的网页url有成千上万或者更多,那怎么办? 使用for循环对所有的url进行遍历访问? 嗯,想法很好,但是如果url过多,爬取完所有的数据会不会太过于耗时了? 对此我们可以使用并发来对URL进行访问以爬取数...