各省公考来临,使用Python爬取一波人民日报时评助力正在申论备考的你

各省的公务员考试都已经进入了报名阶段,很多报考了的同学也都在准备进行行测和申论的复习备考。

对于申论,很多同学都会选择一边做题一边看新闻联播、人民日报等官方媒体渠道的方式来备考。

多阅读和观看新闻联播、人民日报等官方媒体,可以提高对时政的掌握,以及了解官方对某些事物的具体态度。

而人民日报时评和社论对文章的构造、用语手法、专业术语的使用,对写作或是基础常识都会有很好的辅助效果。

聊胜于无,使用Python编写了一个简单的采集工具,从人民网的人民时评(http://opinion.people.com.cn)中爬取了最新的200篇人民时评,并保存为txt文本文件,方便大家在移动设备上进行阅读。

具体代码如下:

# coding:utf-8
'''
    @ author:州的先生
    @ site:http://bxu2713810459.my3w.com
    @ 微信公众号:州的先生
'''
import requests
from bs4 import BeautifulSoup
import time

n = 1
for p in range(1,5):
    list_url = 'http://opinion.people.com.cn/GB/8213/353915/353916/index{0}.html'.format(p)
    list_wbdata = requests.get(list_url).content
    list_soup = BeautifulSoup(list_wbdata,'html5lib')
    list_link = list_soup.select("td.t11 > a")
    for l in list_link:
        page_href = l.get('href')
        page_title = l.get_text()
        print(page_title,page_href)
        page_url = 'http://opinion.people.com.cn'+ page_href
        page_wbdata = requests.get(page_url).content
        page_soup = BeautifulSoup(page_wbdata,'html5lib')
        content = page_soup.select_one("div.box_con")
        with open('{0}.txt'.format(page_title),'a+', encoding='utf-8',newline='') as files:
            files.writelines(content.get_text())
            print("写入完成!",n)
        n += 1
        time.sleep(2)

一共采集并保存了200篇时评文章,每篇一个txt文件。

大家可以使用上面的代码进行采集,或者获取关注我的微信公众号:州的先生,回复关键字:人民日报时评 获取打包好的文集。

猜你也喜欢

发表评论

邮箱地址不会被公开。