在Python中使用tesseract识别验证码


前言

在对网站数据进行爬取的过程中,由于访问过于频繁或是其他的原因,经常会出现输入验证码进行验证的情况,面对这种验证码验证的问题,一般有三种解决方法:

  • 第一种,最简单也是最费时的,手动输入验证码;

  • 第二种,使用一些公司的API接口对验证码进行判别和输入;

  • 第三种,使用tessract对验证码进行识别;

在这里,我们使用tessract对验证码进行识别。

Tesseract简介

tesseract是谷歌开源的一个ORC组件,并支持语言的训练,支持中文的识别(需要下载语言包)

Python中使用Tesseract

在Python中安装Tesseract一共分为三步:

1、pip安装pytesseract及其他依赖库

在使用pytesseract中需要读取图像,所以还需要安装Pillow

2、安装tesseract

下载并安装:https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

3、修改tesseract.py文件

防止提示没有匹配的文件

防止提示Unicode编码错误

做完这三步,就可以使用tesseract基本的功能了。

下面来看看在实际的代码中如何利用tesseract进行验证码识别:

原始的验证码图像为:

示例验证码为:

结果输出为:7364,说明识别成功了。

对于简单、清晰的数字,没有经过任何训练的Tesseract还是能够很精确地识别出来。而对于那些模糊、变形的数字、字母或是中文,就需要先对Tesseract进行训练了,暂且不表。

如果本文对你有帮助,请打赏州的先生,鼓励他继续写作!

点赞
州的先生

发表评论

电子邮件地址不会被公开。