Selenium+PhantomJS(系列八:CSS选择器)

Selenium+PhantomJS(系列八:CSS选择器)
Selenium+PhantomJS(系列八:CSS选择器)   PhantomJS主要是通过JavaScript和CoffeeScript控制WebKit的CSS选择器、可缩放矢量图形SVG和HTTP网络等各个模块。   我们可以利用CSS选择器进行一些复杂的值选取操作。   querySelector示例一:   var content = page.evaluate(function () { var element = document.querySelector('#elem'); return element.textContent; }); cons...

Selenium+PhantomJS(系列七:OCR的优化技巧)

Selenium+PhantomJS(系列七:OCR的优化技巧)
Selenium+PhantomJS(系列七:OCR的优化技巧) Phantomjs可以选择元素区域截图,然后可以利用OCR做验证码识别,或做一些图形图像分析,等等。OCR引擎推荐tesseract。中文识别库下载:https://codeload.github.com/tesseract-ocr/tessdata/zip/master,另外tesseract支持字库训练,可以方便的训练出适合某种场景的识别库出来。这里简单说下OCR的优化。 优化技巧一: 1、网页按照比例放大后,再截图: driver...

Selenium+PhantomJS(系列六:元素区域截图,OCR)

Selenium+PhantomJS(系列六:元素区域截图,OCR)
Selenium+PhantomJS系列教程: Selenium+PhantomJS(系列一:设置User-Agent) Selenium+PhantomJS(系列二:模拟登录淘宝) Selenium+PhantomJS(系列三:模拟登录知乎) Selenium+PhantomJS(系列四:模拟登录微博) Selenium+PhantomJS(系列五:selenium的等待) Selenium+PhantomJS(系列六:元素区域截图,OCR) Selenium+PhantomJS(系列六:元素区域截图,OCR),针对元素区域截图,然后可以利用...

Selenium+PhantomJS(系列五:selenium的等待)

Selenium+PhantomJS(系列五:selenium的等待)
Selenium+PhantomJS系列教程: Selenium+PhantomJS(系列一:设置User-Agent) Selenium+PhantomJS(系列二:模拟登录淘宝) Selenium+PhantomJS(系列三:模拟登录知乎) Selenium+PhantomJS(系列四:模拟登录微博) Selenium+PhantomJS(系列五:selenium的等待) Selenium+PhantomJS(系列五:selenium的等待) 1、强制等待time.sleep(),最简单粗暴的方法就是强制等待sleep(xx)。 2、隐式等待implic...

Selenium+PhantomJS(系列四:模拟登录微博)

Selenium+PhantomJS(系列四:模拟登录微博)
Selenium+PhantomJS系列教程: Selenium+PhantomJS(系列一:设置User-Agent) Selenium+PhantomJS(系列二:模拟登录淘宝) Selenium+PhantomJS(系列三:模拟登录知乎) Selenium+PhantomJS(系列四:模拟登录微博) Selenium+PhantomJS(系列五:selenium的等待) Selenium+PhantomJS(系列四:模拟登录微博) 引入selenium package, 建立webdriver对象 from selenium import webdriver sel = sele...

Selenium+PhantomJS(系列三:模拟登录知乎)

Selenium+PhantomJS(系列三:模拟登录知乎)
Selenium+PhantomJS系列教程: Selenium+PhantomJS(系列一:设置User-Agent) Selenium+PhantomJS(系列二:模拟登录淘宝) Selenium+PhantomJS(系列三:模拟登录知乎) Selenium+PhantomJS(系列四:模拟登录微博) Selenium+PhantomJS(系列五:selenium的等待) Selenium+PhantomJS(系列三:模拟登录知乎) #!/usr/bin/env python # -*- coding: UTF-8 -*- from selenium import webdriver from...

Selenium+PhantomJS(系列二:模拟登录淘宝)

Selenium+PhantomJS(系列二:模拟登录淘宝)
Selenium+PhantomJS系列教程: Selenium+PhantomJS(系列一:设置User-Agent) Selenium+PhantomJS(系列二:模拟登录淘宝) Selenium+PhantomJS(系列三:模拟登录知乎) Selenium+PhantomJS(系列四:模拟登录微博) Selenium+PhantomJS(系列五:selenium的等待) Selenium+PhantomJS(系列二:模拟登录淘宝) from selenium import webdriver driver = webdriver.PhantomJS(executable_path='/opt...

Selenium+PhantomJS(系列一:设置User-Agent)

Selenium+PhantomJS(系列一:设置User-Agent)
Selenium+PhantomJS系列教程: Selenium+PhantomJS(系列一:设置User-Agent) Selenium+PhantomJS(系列二:模拟登录淘宝) Selenium+PhantomJS(系列三:模拟登录知乎) Selenium+PhantomJS(系列四:模拟登录微博) Selenium+PhantomJS(系列五:selenium的等待) Selenium+PhantomJS(系列一:设置User-Agent) 有些网站的WebServer对User-Agent有限制,可能会拒绝不熟悉的User-Agent的访问,所以,...

Scrapyd常用API

Scrapyd常用API
Scrapyd常用API,Scrapyd常用API详解 爬虫接口IP:http://192.168.0.2:6800/ 1、启动API(POST):  http://192.168.0.2:6800/schedule.json -d project=xxxspider -d spider=cplusplus -d word=['hahaha'] -d version=1.0.2 {"status": "ok", "jobid": "dcc25dda594b11e6b757fc4dd43b1961", "node_name": "ubuntu-16"} 2、取消API(POST):  http://192.168.0.2:6800/cancel.json -d project=xxxspider -d ...

Scrapyd部署scrapy爬虫

Scrapyd部署scrapy爬虫
Scrapyd部署scrapy爬虫, Scrapyd部署, Scrapyd经验。 1、sudo pip install scrapyd 2、sudo pip install scrapyd-client 3、切换目录到项目所在路径: 修改scrapy.cfg设置 [deploy:xxxx] url = http://192.168.2.239:6800 project = xxxspider 发布工程到scrapyd scrapyd-deploy xxxx -p xxxspider --version 54(version为版本号,可以方便控制爬虫版本) Packing version 1470208884 Deploying to pro...