python爬虫——scrapy的使用

安装scrapy

由于小哥的系统是win7，所以以下的演示是基于windows系统。linux系统的话，其实命令都一样的，没啥差，windows与linux都可以用。

安装好后，先看下scrapy是否安装上了，确认下，我的是Scrapy 1.8.0

好了，安装很简单。用scrapy创建个新项目吧。命令行下输入，这里注意，命令会在当前目录下创建ts项目。

我是在桌面下创建的ts目录，创建成功后给的提示截图如下。

先不用管这么细，我们先跑起来。

还记得刚才的parse函数么，不过命令创建的是啥事都没干。自己定义下，让它做点事，也好知道代码是按照我们的预期去跑的。

在来运行下，还记得刚才的运行命令吗得了。行，我在说一遍，

准备工作，找个可靠的代理IP，剩下的跟着我的步骤走。

这里就需要用到中间件了，找到文件middleware.py，打开看看文件。

1、header参数，记住爬虫要模拟用户的真实请求。找到USER_AGENT参数，改成自己浏览器的ua，不知道怎么找ua的同学可以看我前面的一篇教程（点击跳转）中有提到。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！