A-A+

Selenium+PhantomJS(系列七:OCR的优化技巧)

2017年04月11日 Scrapy 暂无评论 阅读 102 次

Selenium+PhantomJS(系列七:OCR的优化技巧)

Phantomjs可以选择元素区域截图,然后可以利用OCR做验证码识别,或做一些图形图像分析,等等。OCR引擎推荐tesseract。中文识别库下载:https://codeload.github.com/tesseract-ocr/tessdata/zip/master,另外tesseract支持字库训练,可以方便的训练出适合某种场景的识别库出来。这里简单说下OCR的优化。

优化技巧一:

1、网页按照比例放大后,再截图:

driver.execute_script("document.body.style.zoom='500%'")

2、元素坐标同时需要按照比例放大:

img = img.crop((int(left)*5, int(top)*5, int(right)*5, int(bottom)*5))

优化技巧二:

利用Image库,对识别图片按行,按字体位移进行切割,识别率能达到%95左右!

标签:

给我留言

Copyright © C/C++程序员之家 保留所有权利.   Theme  Ality 浙ICP备15011757号-3

用户登录