使用Django实现微信公众号用户openid登录认证

最近在用Django做一个小项目,需要将微信的用户与网站的用户进行关联,由于是微信的订阅号,没有oauth网页授权的权限,只能退而求其次,在响应中获取用户的op…

Python爬虫入门实战八:数据储存——MongoDB与MySQL

好久没更新了,今天填一个坑。 前面的文章里写的爬虫都是直接把爬取的数据打印出来。在实际的应用中,当然不能这么做,我们需要将数据存储起来。存储数据的方式有很多中,…

Python爬虫入门实战七:使用Selenium--以抓取QQ空间好友说说为例

前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据…

【我爱背单词】用Python提炼3000英语新闻高频词汇

学英语,无论目的何在,词汇量总是一个绕不过去的坎,没有足够的词汇量,都难以用文法来组词造句。 前段时间,恶魔的奶爸提供了几份偏向于各个领域的高频词汇,很是不错。…

Python爬虫实战入门六:提高爬虫效率—并发爬取智联招聘

之前文章中所介绍的爬虫都是对单个URL进行解析和爬取,url数量少不费时,但是如果我们需要爬取的网页url有成千上万或者更多,那怎么办? 使用for循环对所有的…

Python爬虫实战入门五:获取JS动态内容—爬取今日头条

之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的。 有一些网站的内容由前端的JS动态…

Python爬虫实战入门四:使用Cookie模拟登录——获取电子书下载链接

在实际情况中,很多网站的内容都是需要登录之后才能看到,如此我们就需要进行模拟登录,使用登录后的状态进行爬取。这里就需要使用到Cookie。 现在大多数的网站都是…

Python爬虫实战入门三:简单的HTML解析——爬取腾讯新闻

上一章咱们使用Python实现了一个简单的HTTP请求,瞧着简单,爬虫就是模拟人打开一个个URL浏览一个个网页来爬取数据的,一个成功的HTTP请求,就是一个爬虫…

Python爬虫实战入门二:从一个简单的HTTP请求开始

一、为什么从HTTP请求开始 无论我们通过浏览器打开网站、访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的、控制台…

Python爬虫实战入门一:工具准备

一、基础知识 使用Python编写爬虫,当然至少得了解Python基本的语法,了解: 基本数据结构 数据类型 控制流 函数的使用 模块的使用 不需要过多过深的P…

Matplotlib可视化实践系列:折线图

matplotlib是Python下最常用的数据可视化绘图库,功能强大,绘图精美,虽然也有基于matplotlib的seabron库,极大得简化的绘图的流程,但…

如何提高爬虫效率?Python下简单的进程、线程效率对比

在爬取海量的网络数据时,一方面我们需要确保爬虫不被网站服务器封掉,一方面也要提高爬虫的采集效率。 避免爬虫不被封掉,一般我们通过大量的代理IP构成代理池,通过代…

爬取百度音乐5000热门歌单10万音乐数据

平时喜欢用百度音乐随便找个歌单听听歌,一来搜索打开方便,二来歌曲曲目也全。今天在找歌单的时候,突然想看看热门歌单里都有哪里歌曲,于是便有了这个小程序。 首先,需…

【数据集】100万以大学专业为关键词的职位数据

数据源自之前的爬虫所爬取的数据,数据一共100多万条,有5个字段:时间、地点、职位名称、月薪、专业名称,可以用来做大学专业的一些统计分析; 部分截图如下: &n…