Python爬虫入门实战七:使用Selenium--以抓取QQ空间好友说说为例



前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据。
但是有的时候,网页数据由JS生成,API借口又死活找不着或者是API借口地址随机变换,时间不等人。那就只能使用Selenium了。
一、Selenium简介
Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样。
由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,获取需要的数据,甚至页面截图,或者是判断网站上某些动作是否发生。
Selenium自己不带浏览器,需要配合第三方浏览器来使用。支持的浏览器有Chrome、Firefox、IE、Phantomjs等。
如果使用Chrome、FireFox或IE,我们可以看得到一个浏览器的窗口被打开、打开网站、然后执行代码中的操作。
但是,让程序在后台中运行更符合我们爬虫的气质,所以自己多使用Phantomjs作为浏览器载体,本篇文章也以Phantomjs作介绍
Phantomjs是一个“无头”浏览器,也就是没有界面的浏览器,但是功能与普通的浏览器无异。
二、在Python中使用Selenium获取QQ空间好友说说
之前使用pip安装好了selenium,直接在代码中import即可。
下面我们以一个实际的例子——获取一个QQ空间好友的说说信息,来简单讲解一下Selenium+Phantomjs的使用。
我们需要爬取的页面时这样的:

QQ空间好友说说的链接为:http://user.qzone.qq.com/{好友QQ号}/311
我们抓取他发的说说的时间和内容。
依旧先上代码:

获取到的数据截图如下:


接下来我们通过讲解代码,稍微了解一下Selenium的使用

三、代码简析
1.照例,导入需要使用的模块:

2.使用Selenium的webdriver实例化一个浏览器对象,在这里使用Phantomjs:

3.设置Phantomjs窗口最大化:

4.主函数部分
使用get()方法打开待抓取的URL:

等待5秒后,判断页面是否需要登录,通过查找页面是否有相应的DIV的id来判断:

如果页面存在登录的DIV,则模拟登录:

接着,判断好友空间是否设置了权限,通过判断是否存在元素ID:QM_OwnerInfo_Icon

如果有权限能够访问到说说页面,那么定位元素和数据,并解析:

除了在Selenium中解析数据,我们还可以将当前页面保存为源码,再使用BeautifulSoup来解析:

最后,我们尝试一下获取Cookie,使用get_cookies():

另外,再介绍两个Selenium的常用方法:
保存屏幕截图:

执行JS脚本:

对于Selenium更加详细的操作和使用,推荐一本书《selenium webdriver(python)第三版》网上可以搜索到;
需要电子书和Phantomjs的也可以关注微信公众号:州的先生,回复关键字:01sp

如果本文对你有帮助,请打赏州的先生,鼓励他继续写作!

点赞
州的先生
  1. xx说道:

    其实你可以不用time.sleep的
    selenium本身就提供等待的webDriverwait 这个方法

    1. zmister说道:

      有一个智能等待的方法,具体叫什么名字,一时想不起来了

  2. xx说道:

    不过文章非常棒,期待下一期(可以将讲代理,或者说反爬虫不)

  3. 匿名说道:

    你们没有出现验证码问题吗?

  4. 匿名说道:

    验证码问题 你们都没有出现吗?
    你们都可以直接登的吗?

  5. 匿名说道:

    如果没有权限能够访问到说说呢?我的报错NoSuchFrameException了

    1. zmister说道:

      你看看实际的页面源码结构里面有没有对应的元素标签

  6. guagua说道:

    这样只能爬出来了第一页的说说,如果想爬全部说说的话,怎么办啊。。。

    1. zmister说道:

      判断实际的页数,然后加入遍历页数的列表,或者使用异步请求

  7. 匿名说道:

    期待下一期 :idea:

  8. 无怀氏说道:

    期待下一期

  9. shyo说道:

    有一个问题,就是在执行 driver.switch_to.frame('app_canvas_frame') 这句代码会报错:
    selenium.common.exceptions.NoSuchFrameException: Message: {"errorMessage":"Unable to switch to frame"...
    Screenshot: available via screen

    但其实实际上再查看网页源代码是有这个iframe:
    ...

    这个问题怎么解决。。。

    1. zmister说道:

      你用的是PhantomJS还是chrome或是Firefox,先看看请求的源码里面有没有

  10. asd说道:

    from selenium import webdriver 报错:cannot import name "webdriver" ,想请教为什么会这样

  11. for——fun说道:

    不行啊,我这phantomjs就会抛出错误
    http.client.RemoteDisconnected: Remote end closed connection without response

    1. zmister说道:

      服务器限制了部分浏览器标识的访问,你可以参考 通过修改User-Agent标识将PhantomJS伪装成Chrome浏览器这篇文章修改PhantomJS的浏览器标识或者改用Chrome或Firefox

  12. 小叶子说道:

    好友对我设置了权限怎么爬

    1. zmister说道:

      爬虫不是黑客,干不了没有权限的事儿:)

  13. xxx说道:

    Cookies: ptui_loginuin=QQ%u53F7;pgv_info=ssid=s5503237336;pgv_pvid=3336918432;_qpsvr_localtk=0.9832173935137689;pgv_si=s836302848;pgv_pvi=536963072;_qz_referrer=i.qq.com;skey=;uin=;
    ==========完成================

    抛出一大堆这个东西怎么搞?

发表评论

电子邮件地址不会被公开。