各省公考来临，使用Python爬取一波人民日报时评助力正在申论备考的你

2018/3/22 0 人评论 35,742 次阅读

各省的公务员考试都已经进入了报名阶段，很多报考了的同学也都在准备进行行测和申论的复习备考。

对于申论，很多同学都会选择一边做题一边看新闻联播、人民日报等官方媒体渠道的方式来备考。

多阅读和观看新闻联播、人民日报等官方媒体，可以提高对时政的掌握，以及了解官方对某些事物的具体态度。

而人民日报时评和社论对文章的构造、用语手法、专业术语的使用，对写作或是基础常识都会有很好的辅助效果。

聊胜于无，使用Python编写了一个简单的采集工具，从人民网的人民时评（http://opinion.people.com.cn）中爬取了最新的200篇人民时评，并保存为txt文本文件，方便大家在移动设备上进行阅读。

具体代码如下：

# coding:utf-8
'''
    @ author:州的先生
    @ site:http://bxu2713810459.my3w.com
    @ 微信公众号：州的先生
'''
import requests
from bs4 import BeautifulSoup
import time

n = 1
for p in range(1,5):
    list_url = 'http://opinion.people.com.cn/GB/8213/353915/353916/index{0}.html'.format(p)
    list_wbdata = requests.get(list_url).content
    list_soup = BeautifulSoup(list_wbdata,'html5lib')
    list_link = list_soup.select("td.t11 &gt; a")
    for l in list_link:
        page_href = l.get('href')
        page_title = l.get_text()
        print(page_title,page_href)
        page_url = 'http://opinion.people.com.cn'+ page_href
        page_wbdata = requests.get(page_url).content
        page_soup = BeautifulSoup(page_wbdata,'html5lib')
        content = page_soup.select_one("div.box_con")
        with open('{0}.txt'.format(page_title),'a+', encoding='utf-8',newline='') as files:
            files.writelines(content.get_text())
            print("写入完成！",n)
        n += 1
        time.sleep(2)

一共采集并保存了200篇时评文章，每篇一个txt文件。