各省公考来临，使用Python爬取一波人民日报时评助力正在申论备考的你州的先生技术分享

各省公考来临，使用Python爬取一波人民日报时评助力正在申论备考的你

By 州的先生 on 2024年5月4日

各省的公务员考试都已经进入了报名阶段，很多报考了的同学也都在准备进行行测和申论的复习备考。

对于申论，很多同学都会选择一边做题一边看新闻联播、人民日报等官方媒体渠道的方式来备考。

多阅读和观看新闻联播、人民日报等官方媒体，可以提高对时政的掌握，以及了解官方对某些事物的具体态度。

而人民日报时评和社论对文章的构造、用语手法、专业术语的使用，对写作或是基础常识都会有很好的辅助效果。

聊胜于无，使用Python编写了一个简单的采集工具，从人民网的人民时评（http://opinion.people.com.cn）中爬取了最新的200篇人民时评，并保存为txt文本文件，方便大家在移动设备上进行阅读。

具体代码如下：

# coding:utf-8  '''      @ author:州的先生      @ site:http://bxu2713810459.my3w.com      @ 微信公众号：州的先生  '''  import requests  from bs4 import BeautifulSoup  import time    n = 1  for p in range(1,5):      list_url = 'http://opinion.people.com.cn/GB/8213/353915/353916/index{0}.html'.format(p)      list_wbdata = requests.get(list_url).content      list_soup = BeautifulSoup(list_wbdata,'html5lib')      list_link = list_soup.select("td.t11 &gt; a")      for l in list_link:          page_href = l.get('href')          page_title = l.get_text()          print(page_title,page_href)          page_url = 'http://opinion.people.com.cn'+ page_href          page_wbdata = requests.get(page_url).content          page_soup = BeautifulSoup(page_wbdata,'html5lib')          content = page_soup.select_one("div.box_con")          with open('{0}.txt'.format(page_title),'a+', encoding='utf-8',newline='') as files:              files.writelines(content.get_text())              print("写入完成！",n)          n += 1          time.sleep(2)

一共采集并保存了200篇时评文章，每篇一个txt文件。

大家可以使用上面的代码进行采集，或者获取关注我的微信公众号：州的先生，回复关键字：人民日报时评 获取打包好的文集。

分类目录: 数据采集编程

标签: Python 爬虫

« 编程与下厨房：如何教女友写Python（一：厨房与Python

重磅！好评如潮的《Python爬虫实战入门》电子书整理发布免费下载 »