Python爬虫入门实战七:使用Selenium--以抓取QQ空间好友说说为例

前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据。

但是有的时候,网页数据由JS生成,API借口又死活找不着或者是API借口地址随机变换,时间不等人。那就只能使用Selenium了。

一、Selenium简介

Selenium是一个用于Web应用的功能自动化测试工具,Selenium 直接运行在浏览器中,就像真正的用户在操作一样。

由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,获取需要的数据,甚至页面截图,或者是判断网站上某些动作是否发生。
Selenium自己不带浏览器,需要配合第三方浏览器来使用。支持的浏览器有Chrome、Firefox、IE、Phantomjs等。

如果使用Chrome、FireFox或IE,我们可以看得到一个浏览器的窗口被打开、打开网站、然后执行代码中的操作。

但是,让程序在后台中运行更符合我们爬虫的气质,所以自己多使用Phantomjs作为浏览器载体,本篇文章也以Phantomjs作介绍
Phantomjs是一个“无头”浏览器,也就是没有界面的浏览器,但是功能与普通的浏览器无异。

二、在Python中使用Selenium获取QQ空间好友说说

之前使用pip安装好了selenium,直接在代码中import即可。
下面我们以一个实际的例子——获取一个QQ空间好友的说说信息,来简单讲解一下Selenium+Phantomjs的使用。
我们需要爬取的页面时这样的:

QQ空间好友说说的链接为:http://user.qzone.qq.com/{好友QQ号}/311
我们抓取他发的说说的时间和内容。
依旧先上代码:

from bs4 import BeautifulSoup
from selenium import webdriver
import time

#使用selenium
driver = webdriver.PhantomJS(executable_path="D:\\phantomjs.exe")
driver.maximize_window()
#登录QQ空间
def get_shuoshuo(qq):
    driver.get('http://user.qzone.qq.com/{}/311'.format(qq))
    time.sleep(5)
    try:
        driver.find_element_by_id('login_div')
        a = True
    except:
        a = False
    if a == True:
        driver.switch_to.frame('login_frame')
        driver.find_element_by_id('switcher_plogin').click()
        driver.find_element_by_id('u').clear()#选择用户名框
        driver.find_element_by_id('u').send_keys('QQ号')
        driver.find_element_by_id('p').clear()
        driver.find_element_by_id('p').send_keys('QQ密码')
        driver.find_element_by_id('login_button').click()
        time.sleep(3)
    driver.implicitly_wait(3)
    try:
        driver.find_element_by_id('QM_OwnerInfo_Icon')
        b = True
    except:
        b = False
    if b == True:
        driver.switch_to.frame('app_canvas_frame')
        content = driver.find_elements_by_css_selector('.content')
        stime = driver.find_elements_by_css_selector('.c_tx.c_tx3.goDetail')
        for con,sti in zip(content,stime):
            data = {
                'time':sti.text,
                'shuos':con.text
            }
            print(data)
        pages = driver.page_source
        soup = BeautifulSoup(pages,'lxml')

    cookie = driver.get_cookies()
    cookie_dict = []
    for c in cookie:
        ck = "{0}={1};".format(c['name'],c['value'])
        cookie_dict.append(ck)
    i = ''
    for c in cookie_dict:
        i += c
    print('Cookies:',i)
    print("==========完成================")

    driver.close()
    driver.quit()

if __name__ == '__main__':
    get_shuoshuo('好友QQ号')

获取到的数据截图如下:

接下来我们通过讲解代码,稍微了解一下Selenium的使用

三、代码简析

1.照例,导入需要使用的模块:

from bs4 import BeautifulSoup
from selenium import webdriver
import time

2.使用Selenium的webdriver实例化一个浏览器对象,在这里使用Phantomjs:

driver = webdriver.PhantomJS(executable_path="D:\\phantomjs.exe")

3.设置Phantomjs窗口最大化:

driver.maximize_window()

4.主函数部分
使用get()方法打开待抓取的URL:

driver.get('http://user.qzone.qq.com/{}/311'.format(qq))

等待5秒后,判断页面是否需要登录,通过查找页面是否有相应的DIV的id来判断:

    try:
        driver.find_element_by_id('login_div')
        a = True
    except:
        a = False

如果页面存在登录的DIV,则模拟登录:

       driver.switch_to.frame('login_frame') #切换到登录ifram
        driver.find_element_by_id('switcher_plogin').click()
        driver.find_element_by_id('u').clear()#选择用户名框
        driver.find_element_by_id('u').send_keys('QQ号')
        driver.find_element_by_id('p').clear()#选择密码框
        driver.find_element_by_id('p').send_keys('QQ密码')
        driver.find_element_by_id('login_button').click()#点击登录按钮
        time.sleep(3)

接着,判断好友空间是否设置了权限,通过判断是否存在元素ID:QM_OwnerInfo_Icon

  try:
        driver.find_element_by_id('QM_OwnerInfo_Icon')
        b = True
    except:
        b = False

如果有权限能够访问到说说页面,那么定位元素和数据,并解析:

    if b == True:
        driver.switch_to.frame('app_canvas_frame')
        content = driver.find_elements_by_css_selector('.content')
        stime = driver.find_elements_by_css_selector('.c_tx.c_tx3.goDetail')
        for con,sti in zip(content,stime):
            data = {
                # 'qq':qq,
                'time':sti.text,
                'shuos':con.text
            }
            print(data)

除了在Selenium中解析数据,我们还可以将当前页面保存为源码,再使用BeautifulSoup来解析:

pages = driver.page_source
soup = BeautifulSoup(pages,'lxml')

最后,我们尝试一下获取Cookie,使用get_cookies():

   cookie = driver.get_cookies()
    cookie_dict = []
    for c in cookie:
        ck = "{0}={1};".format(c['name'],c['value'])
        cookie_dict.append(ck)
    i = ''
    for c in cookie_dict:
        i += c
    print('Cookies:',i)

另外,再介绍两个Selenium的常用方法:
保存屏幕截图:

driver.save_screenshot('保存的文件路径及文件名')

执行JS脚本:

driver.execute_script("JS代码")

对于Selenium更加详细的操作和使用,推荐一本书《selenium webdriver(python)第三版》网上可以搜索到;
需要电子书和Phantomjs的也可以关注微信公众号:州的先生,回复关键字:01sp

猜你也喜欢

  1. xx说道:

    其实你可以不用time.sleep的
    selenium本身就提供等待的webDriverwait 这个方法

    1. zmister说道:

      有一个智能等待的方法,具体叫什么名字,一时想不起来了

  2. xx说道:

    不过文章非常棒,期待下一期(可以将讲代理,或者说反爬虫不)

  3. 匿名说道:

    你们没有出现验证码问题吗?

  4. 匿名说道:

    验证码问题 你们都没有出现吗?
    你们都可以直接登的吗?

  5. 匿名说道:

    如果没有权限能够访问到说说呢?我的报错NoSuchFrameException了

    1. zmister说道:

      你看看实际的页面源码结构里面有没有对应的元素标签

  6. guagua说道:

    这样只能爬出来了第一页的说说,如果想爬全部说说的话,怎么办啊。。。

    1. zmister说道:

      判断实际的页数,然后加入遍历页数的列表,或者使用异步请求

  7. 匿名说道:

    期待下一期 :idea:

  8. 无怀氏说道:

    期待下一期

  9. shyo说道:

    有一个问题,就是在执行 driver.switch_to.frame('app_canvas_frame') 这句代码会报错:
    selenium.common.exceptions.NoSuchFrameException: Message: {"errorMessage":"Unable to switch to frame"...
    Screenshot: available via screen

    但其实实际上再查看网页源代码是有这个iframe:
    ...

    这个问题怎么解决。。。

    1. zmister说道:

      你用的是PhantomJS还是chrome或是Firefox,先看看请求的源码里面有没有

      1. 匿名说道:

        没有app_canvas_frame这个标签?

        1. 州的先生说道:

          可能网站改版了

  10. asd说道:

    from selenium import webdriver 报错:cannot import name "webdriver" ,想请教为什么会这样

  11. for——fun说道:

    不行啊,我这phantomjs就会抛出错误
    http.client.RemoteDisconnected: Remote end closed connection without response

    1. zmister说道:

      服务器限制了部分浏览器标识的访问,你可以参考 通过修改User-Agent标识将PhantomJS伪装成Chrome浏览器这篇文章修改PhantomJS的浏览器标识或者改用Chrome或Firefox

  12. 小叶子说道:

    好友对我设置了权限怎么爬

    1. zmister说道:

      爬虫不是黑客,干不了没有权限的事儿:)

  13. xxx说道:

    Cookies: ptui_loginuin=QQ%u53F7;pgv_info=ssid=s5503237336;pgv_pvid=3336918432;_qpsvr_localtk=0.9832173935137689;pgv_si=s836302848;pgv_pvi=536963072;_qz_referrer=i.qq.com;skey=;uin=;
    ==========完成================

    抛出一大堆这个东西怎么搞?

  14. 毕设妹说道:

    好友没有对我设置权限,但尝试找'QM_OwnerInfo_Icon'失败,该怎么办?
    略过权限,却报错selenium.common.exceptions.WebDriverException: Message: TypeError: can't access dead object?

    1. 州的先生说道:

      看页面源码是否还存在相应的元素

      1. 匿名说道:

        找过存在‘QM_OwnerInfo_Icon’的

发表评论

邮箱地址不会被公开。