标签: 数据采集

实例解析|Python加解密VIP网站反爬请求头实现数据爬取

在正常情况下,对于需要登录的网站,一般只要将登录后的cookie携带到headers中就可以实现认证后的访问请求。但是,也有例外。 最近,州的先生(zmister.com)遇到了一个网站,就是那样的例外。 请求受阻 通过页面调试,找到了其数据接口,如下图所示: 数据在接口的响应中一览无遗,于是按照常...

【代码+数据】Python采集《毛选5》并保存为xhtml文件

一、关于毛选5 《毛泽东选集》第5卷是毛泽东1949年以后著作的选集。这本书的编辑、出版用了近十年的时间,时间贯穿了整个文革。 由于特殊原因,这本书在1982年被停止发行,至今也未重新进行出版。 在豆瓣网站上,这本书获得了8.8的高分评价,可以说很是值得一看。 本篇文章,我们将会介绍从网站下采集毛选...

【数据采集实例分析】网页复杂渲染机制下的数据解析

一、前言 在进行数据采集的过程中,我们遇到的很多网页所采用的都是比较单一的页面渲染方法。比如: 后端直接返回HTML; 前端请求数据接口进行渲染; 对于采用第一种机制渲染的网页,我们直接使用BeautifulSoup或者正则表达式或xpath对元素进行定位和解析即可。 对于采用第二种机制渲染的网页,...