最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的 页使用”urllib2 + BeautifulSoup + 正则表达式“就能搞定的话;那么动态生成的信息页面,如Ajax、JavaScript等就需要通过”Phantomjs + CasperJS + Selenium“来实现了。所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用。
一. 介绍
PhantomJS
PhantomJS是一个服务器端的 JavaScript API 的WebKit(开源的浏览器引擎)。其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas 和 SVG。PhantomJS可以用于页面自动化, 络监测, 页截屏,以及无界面测试等。
Selenium
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。这个工具的主要功能包括:测试与浏览器的兼容性、测试系统功能,它ThoughtWorks专门为Web应用程序编写的一个验收测试工具。
PIP
在介绍介绍它们之前,需要安装PIP软件。正如xifeijian大神所说:“作为Python爱好者,如果不知道easy_install或者pip中的任何一个的话,那么……”。
easy_insall的作用和perl中的cpan,ruby中的gem类似,都提供了在线一键安装模块的傻瓜方便方式,而pip是easy_install的改进版,提供更好的提示信息,删除package等功能。老版本的python中只有easy_install,没有pip。常见的具体用法如下:
二. 安装PIP
PS:你可以使用easy_install pip 直接安装pip软件,这更加方便。
第一步:下载PIP软件
可以在官 http://pypi.python.org/pypi/pip#downloads下载,同时cd切换到PIP目录,在通过python setup.py install安装。而我采用的是下载pip-Win_1.7.exe进行安装,下载地址如下:
https://sites.google.com/site/pydatalog/python/pip-for-windows
第二步:安装PIP软件
三. 安装Phantomjs+Selenium
通过pip命令安装Selenium:
官 http://phantomjs.org/下载PhantomJS解压后如下图所示:
设置executable_path路径后的代码如下:
运行结果如下图所示:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!