爬虫州的先生技术分享 Page 2

Python爬虫实战入门五：获取JS动态内容—爬取今日头条

By 州的先生 on 2024年5月3日

之前我们爬取的网页，多是HTML静态生成的内容，直接从HTML源码中就能找到看到的数据和内容，然而并不是所有的网页都是这样的。有一些网站的内容由前端的JS动态生成，由于呈现在网页上的内容是由JS生成而来，我们能够在浏览器上看得到，但是在HTML源码中却发现不了。比如今日头条：浏览器呈现的网页如下...

分类目录: Python爬虫入门实战数据采集

标签: Python 爬虫

Python爬虫实战入门四：使用Cookie模拟登录——获取电子书下载链接

By 州的先生 on 2024年5月3日

在实际情况中，很多网站的内容都是需要登录之后才能看到，如此我们就需要进行模拟登录，使用登录后的状态进行爬取。这里就需要使用到Cookie。现在大多数的网站都是使用Cookie跟踪用户的登录状态，一旦网站验证了登录信息，就会将登录信息保存在浏览器的cookie中。网站会把这个cookie作为验证的凭...

分类目录: Python爬虫入门实战数据采集

标签: Python 爬虫

Python爬虫实战入门三：简单的HTML解析——爬取腾讯新闻

By 州的先生 on 2024年5月3日

上一章咱们使用Python实现了一个简单的HTTP请求，瞧着简单，爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的，一个成功的HTTP请求，就是一个爬虫的基础。接下来，咱们以一个实际的例子：爬取百度新闻，来介绍使用BeautifulSoup对HTML进行解析处理。爬取腾讯新闻 1、寻找数...

分类目录: Python爬虫入门实战数据采集

标签: 数据爬取数据解析爬虫

Python爬虫实战入门二：从一个简单的HTTP请求开始

By 州的先生 on 2024年5月3日

一、为什么从HTTP请求开始无论我们通过浏览器打开网站、访问网页，还是通过脚本对URL网址进行访问，本质上都是对HTTP服务器的请求，浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。以打开我的个人网站为例，我们在地址栏输入“zmister.com”，浏览器上呈现的是下图： z...

分类目录: Python爬虫入门实战数据采集

标签: Python 数据爬取爬虫

Python爬虫实战入门一：工具准备

By 州的先生 on 2024年5月3日

一、基础知识使用Python编写爬虫，当然至少得了解Python基本的语法，了解：基本数据结构数据类型控制流函数的使用模块的使用不需要过多过深的Python知识，仅此而已。个人推荐《Python简明教程》http://www.kuqin.com/abyteofpython_cn/、P...

分类目录: Python爬虫入门实战数据采集

标签: Python 数据爬取爬虫

爬取百度音乐5000热门歌单10万音乐数据

By 州的先生 on 2024年5月3日

平时喜欢用百度音乐随便找个歌单听听歌，一来搜索打开方便，二来歌曲曲目也全。今天在找歌单的时候，突然想看看热门歌单里都有哪里歌曲，于是便有了这个小程序。首先，需要获取各个歌单的地址，我们从百度音乐的歌单首页入手：图中红框的为歌单的当前的数目，页面每一页有20个歌单，也就是有20个URL，我们把它提...

分类目录: 数据采集

标签: Python 数据爬取爬虫

【数据集】100万以大学专业为关键词的职位数据

By 州的先生 on 2024年5月3日

数据源自之前的爬虫所爬取的数据，数据一共100多万条，有5个字段：时间、地点、职位名称、月薪、专业名称，可以用来做大学专业的一些统计分析；部分截图如下：百度网盘下载链接：http://pan.baidu.com/s/1jIJkFLs 关注微信公众号：州的先生，回复关键字：大学专业1...

分类目录: 数据采集资源下载

标签: Python 数据下载爬虫

Python爬虫：100万以大学专业为关键词的职位信息爬取

By 州的先生 on 2024年5月3日

一、系统环境： Windows 7+Python3.4+MongoDB 二、爬取过程：（1）获取大学本科所有专业名称 # 获取大学本科专业名称 def get_name(): url = 'http://yx.liexue.cn/zy/' wbdata = requests.get(url,hea...

分类目录: 数据采集

标签: Python 数据爬取爬虫

一个简单的多进程爬虫（爬取某加盟创业网）

By 州的先生 on 2024年5月3日

分享一个简单的多进程小爬虫，爬取某加盟创业网上所有加盟项目；使用requests请求页面，re和beautifulSoup解析网页，multiprocessing进行多进程，pymongo数据入库；（打开网站时发现密密麻麻、琳琅满目的加盟项目，但是爬完之后，发现数据也就只有那么一点点，甚至不到一...

分类目录: 数据采集

标签: Python 数据爬取爬虫

在Python中使用Phantomjs模拟登录QQ空间

By 州的先生 on 2024年5月3日

一、问题来源在使用Python进行数据爬取的过程中，我们一般使用Selenuim自动化测试工具对需要进行登录验证和动态JS数据的站点进行爬取。而与Selenuim相对应的浏览器组件，为了方便起见，一般使用FireFox或Chrome。网上有一些关于模拟登录QQ空间的方法，都是使用Selenuim...

分类目录: 数据采集

标签: Python 模拟登录爬虫

标签： 爬虫

标签：爬虫