数据爬取州的先生技术分享

【我爱背单词】用Python提炼3000英语新闻高频词汇

By 州的先生 on 2024年5月1日

学英语，无论目的何在，词汇量总是一个绕不过去的坎，没有足够的词汇量，都难以用文法来组词造句。前段时间，恶魔的奶爸提供了几份偏向于各个领域的高频词汇，很是不错。最近用Python写爬虫入门教程的时候，碰到过几个英文网站，便有了统计一份网站英文单词词频的念头。 3000高频单词库说明：来源：htt...

分类目录: 数据应用数据采集编程

标签: Python 数据处理数据爬取英语词频

Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘

By 州的先生 on 2024年5月1日

之前文章中所介绍的爬虫都是对单个URL进行解析和爬取，url数量少不费时，但是如果我们需要爬取的网页url有成千上万或者更多，那怎么办？使用for循环对所有的url进行遍历访问？嗯，想法很好，但是如果url过多，爬取完所有的数据会不会太过于耗时了？对此我们可以使用并发来对URL进行访问以爬取数...

分类目录: Python爬虫入门实战数据采集

标签: 多进程数据爬取爬虫

Python爬虫实战入门三：简单的HTML解析——爬取腾讯新闻

By 州的先生 on 2024年5月1日

上一章咱们使用Python实现了一个简单的HTTP请求，瞧着简单，爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的，一个成功的HTTP请求，就是一个爬虫的基础。接下来，咱们以一个实际的例子：爬取百度新闻，来介绍使用BeautifulSoup对HTML进行解析处理。爬取腾讯新闻 1、寻找数...

分类目录: Python爬虫入门实战数据采集

标签: 数据爬取数据解析爬虫

Python爬虫实战入门二：从一个简单的HTTP请求开始

By 州的先生 on 2024年5月1日

一、为什么从HTTP请求开始无论我们通过浏览器打开网站、访问网页，还是通过脚本对URL网址进行访问，本质上都是对HTTP服务器的请求，浏览器上所呈现的、控制台所显示的都是HTTP服务器对我们请求的响应。以打开我的个人网站为例，我们在地址栏输入“zmister.com”，浏览器上呈现的是下图： z...

分类目录: Python爬虫入门实战数据采集

标签: Python 数据爬取爬虫

Python爬虫实战入门一：工具准备

By 州的先生 on 2024年5月1日

一、基础知识使用Python编写爬虫，当然至少得了解Python基本的语法，了解：基本数据结构数据类型控制流函数的使用模块的使用不需要过多过深的Python知识，仅此而已。个人推荐《Python简明教程》http://www.kuqin.com/abyteofpython_cn/、P...

分类目录: Python爬虫入门实战数据采集

标签: Python 数据爬取爬虫

爬取百度音乐5000热门歌单10万音乐数据

By 州的先生 on 2024年5月1日

平时喜欢用百度音乐随便找个歌单听听歌，一来搜索打开方便，二来歌曲曲目也全。今天在找歌单的时候，突然想看看热门歌单里都有哪里歌曲，于是便有了这个小程序。首先，需要获取各个歌单的地址，我们从百度音乐的歌单首页入手：图中红框的为歌单的当前的数目，页面每一页有20个歌单，也就是有20个URL，我们把它提...

分类目录: 数据采集

标签: Python 数据爬取爬虫

Python爬虫：100万以大学专业为关键词的职位信息爬取

By 州的先生 on 2024年5月1日

一、系统环境： Windows 7+Python3.4+MongoDB 二、爬取过程：（1）获取大学本科所有专业名称 # 获取大学本科专业名称 def get_name(): url = 'http://yx.liexue.cn/zy/' wbdata = requests.get(url,hea...

分类目录: 数据采集

标签: Python 数据爬取爬虫

一个简单的多进程爬虫（爬取某加盟创业网）

By 州的先生 on 2024年5月1日

分享一个简单的多进程小爬虫，爬取某加盟创业网上所有加盟项目；使用requests请求页面，re和beautifulSoup解析网页，multiprocessing进行多进程，pymongo数据入库；（打开网站时发现密密麻麻、琳琅满目的加盟项目，但是爬完之后，发现数据也就只有那么一点点，甚至不到一...

分类目录: 数据采集

标签: Python 数据爬取爬虫

标签： 数据爬取

标签：数据爬取