- 安装scrapy
- scrapy的基础教程
- scrapy使用代理
安装scrapy
由于小哥的系统是win7,所以以下的演示是基于windows系统。linux系统的话,其实命令都一样的,没啥差,windows与linux都可以用。
安装好后,先看下scrapy是否安装上了,确认下,我的是Scrapy 1.8.0
好了,安装很简单。用scrapy创建个新项目吧。命令行下输入,这里注意,命令会在当前目录下创建ts项目。
创建新项目
我是在桌面下创建的ts目录,创建成功后给的提示截图如下。
- spiders目录——爬虫代码放这里
- items.py ——要抓取的字段
- middleware——中间件
- pipelines——管道文件
- settings——设置文件
先不用管这么细,我们先跑起来。
- name——爬虫的名字,运行爬虫的时候就看这个参数。
- allowed_domains——抓取的域名限制,这是我们刚才在命令行输入的。PS:抓百度,当然限制在百度内了,别抓到淘宝上去了,先不跨界
- start_urls——要抓取的url列表,类型list
- parse函数——抓取后的动作,可以自己定义
代码改造下,按照我们的预期来
还记得刚才的parse函数么,不过命令创建的是啥事都没干。自己定义下,让它做点事,也好知道代码是按照我们的预期去跑的。
在来运行下,还记得刚才的运行命令吗得了。行,我在说一遍,
使用代理
准备工作,找个可靠的代理IP,剩下的跟着我的步骤走。
修改中间件配置
这里就需要用到中间件了,找到文件middleware.py,打开看看文件。
settings.py文件也需要修改,需要修改两处:
1、header参数,记住爬虫要模拟用户的真实请求。找到USER_AGENT参数,改成自己浏览器的ua,不知道怎么找ua的同学可以看我前面的一篇教程(点击跳转)中有提到。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!